標籤:

用簡單線性回歸分析學習時間與考試分數間的相關性

1.提出問題:

學習時間與考試分數之間的相關性。

2.理解問題:

導入數據集,查看數據集行列數、描述統計信息及變數相關關係。

線性相關關係分為以下三種,相關係數範圍由-1至1。越靠近1,說明變數之間正相關性很大,越靠近-1,說明變數之間負相關性很大。相關係數等於0,說明兩者之間沒有線性相關關係,也可能有其他如曲線相關關係。

相關係數矩陣用於表示變數之間的相關關係。有多個變數時,很容易發現變數間的相關關係。求該案例中的相關係數,得學習時間與分數的相關係數為0.92,很接近1。說明兩者有很強的正相關關係。

3.數據清洗:

本案例不需要數據清洗

4.建立模型:

最佳擬合線即「最小二乘法」,是使樣本點到該直線的離差平方和達到最小的直線(採用垂直距離)。 擬合值就是通過最小二乘法擬合後在某點的預測值。線性回歸的本質是得到一條最佳擬合線。

導入模型,求該案例中的最佳擬合線,求得a=10.25,b=15.95;

Y=10.25+15.95X

5.評估模型:

用決定係數來評估模型精確度。

求該案例中的決定係數等於0.93,說明該模型精確度較高。


推薦閱讀:

當我們從事數據崗位時我們需要會什麼
R語言實戰—02-創建數據集
Kaggle機器學習之泰坦尼克號生還預測
No4:我為什麼爬取各種數據?
如何快速了解一個行業(長文預警~)

TAG:數據分析 |