背景

學習 Linear Regression in Python – Real Python ,對 regression 一詞比較疑惑.

這個 linear Regression 中的 Regression 是什麼意思,字面上 Regression 是衰退的意思,線性衰退?相信理解了這個詞,對線性迴歸可能印象深刻些。

Regression 到底是什麼意思

搜了一番,原來是爲了紀念生物統計學家高爾頓的發現,他是達爾文的表兄,一直想從進化論來研究爲何人各有不同。

他的一個重大發現是,父母的身高與子女的身高之間有某種關係。

平時生活中我們也經常納悶,爲啥有的父母個子都很高,子女卻比較矮,相反,有的父母都很矮,孩子卻很高。高爾頓的解釋是,子代的平均身高向中心迴歸了。正是這種子代身高向同齡人平均身高迴歸的趨勢,使得人類身高沒有兩極分化。

所以他用“迴歸”這個詞來描述父輩身高 y 和子代身高 x 之間的關係。

還有一個有趣的解釋,是從詞源來解,regression 中:

  • "re" :向後,往回,相反,相對
  • gress = walk, 走
  • ion :表名詞:行動,狀態等

迴歸分析中的“迴歸”是什麼意思? - 我是觀察員的回答 - 知乎 這個答案用炒菜來比喻,很有意思:

炒菜的體驗。假設你炒西紅柿雞蛋,要放鹽等調料才覺得好喫,你放了一小撮,不夠,再加點,結果多了;那就加點水,味道淡了。你感覺有點太淡了,那就再加點鹽,直到你炒好了菜,你加鹽的過程才結束。 對你來說是美味吧?這就是迴歸的感覺。

意思就是,不斷的調整影響菜的口味的各種調料(鹽,水,等),直至找到一個均衡的比例。這個調整的過程中有不斷的“回退”。

至此終於理解 regression 的含義了。不過,統計學上的 y 與 x 之間的關係並不總是“迴歸”的含義。

統計學上的 regression

研究變量之間的關係

變量是指什麼?關係是指什麼樣的關係?

先拿一個具體的線性迴歸的例子來說:

你想知道,爲啥同是 dev,某同事 A 比你年輕,工資卻比你高?

換句話說,影響你們工資的因素有哪些?

你想了想,A 雖然年輕,但比你來公司早一點,學歷比你高,會說話(可能剛來的時候談的工資就高?),等等。

對應上面的問題,這個例子中,

  • 變量是什麼?

    工資(y)

  • 關係是指什麼樣的關係?

    工資和年齡(x1)、工齡(x2)、學歷(x3)、性格(x4)等因素之間有什麼樣的關係

用統計學來表達,就是要找尋一個函-=數 y = f(x), where x: x1....xn.

這裏,y (工資) 是因變量,x1...xn(影響 y 的因素) 是自變量。

再舉一個例子:

某領導要求下屬去考察某市的房地產狀況

房價(y)是他要做的考察之一

他要研究哪些因素(x1...xn)影響着該市的房價走向

還有很多其他例子。

重點在於:線性迴歸研究這兩點:

  • x1...xn 是否有影響 y
  • 如影響,則在多大程度上影響 y

Reference

本文由博客一文多發平臺 OpenWrite 發佈!

相關文章