用簡單線性回歸分析學習時間與考試分數間的相關性
03-04
1.提出問題:
學習時間與考試分數之間的相關性。
2.理解問題:
導入數據集,查看數據集行列數、描述統計信息及變數相關關係。
線性相關關係分為以下三種,相關係數範圍由-1至1。越靠近1,說明變數之間正相關性很大,越靠近-1,說明變數之間負相關性很大。相關係數等於0,說明兩者之間沒有線性相關關係,也可能有其他如曲線相關關係。
相關係數矩陣用於表示變數之間的相關關係。有多個變數時,很容易發現變數間的相關關係。求該案例中的相關係數,得學習時間與分數的相關係數為0.92,很接近1。說明兩者有很強的正相關關係。
3.數據清洗:
本案例不需要數據清洗
4.建立模型:
最佳擬合線即「最小二乘法」,是使樣本點到該直線的離差平方和達到最小的直線(採用垂直距離)。 擬合值就是通過最小二乘法擬合後在某點的預測值。線性回歸的本質是得到一條最佳擬合線。
導入模型,求該案例中的最佳擬合線,求得a=10.25,b=15.95;
Y=10.25+15.95X
5.評估模型:
用決定係數來評估模型精確度。
求該案例中的決定係數等於0.93,說明該模型精確度較高。
推薦閱讀:
※當我們從事數據崗位時我們需要會什麼
※R語言實戰—02-創建數據集
※Kaggle機器學習之泰坦尼克號生還預測
※No4:我為什麼爬取各種數據?
※如何快速了解一個行業(長文預警~)
TAG:數據分析 |