學習是一種狀態

在電影《幸福終點站》里,故事主人公維克多用從電視新聞里剛學的英語跟簽證官說:你有兩個章,一個紅色一個綠色,所以我通關的概率是50%。雖然這個邏輯關係是不成立的,但是維克多那樂觀執著的精神深深的打動了我。人生在於等待,努力的同時同時付出耐心的資本。

聽猴子老師第四講的live,聽一段暫停下來照著做,照著代碼敲一遍,反反覆復聽了四五遍,才把結果做出來。

然後在kaggle上找到泰坦尼克事故的數據,模仿學長們的筆記做了簡單分析

一、導入數據

二、理解數據

PassengerId——乘客編號

Survived——是否倖存 1是0否

Pclass——船艙類型 1=一等艙,2=二等艙,3=三等艙。

Name——姓名

Sex——性別

Age——年齡

SibSp——是否有配偶兄弟姐妹在船上

Parch——是否有父母子女在船上

Ticket——票號

Fare——票價

Cabin——客艙編號

Embarked——出發港口 C =瑟堡,Q =昆士城,S =南安普頓

三、數據預處理

下載的數據是三部分,需要進行合併

查看空值和缺失值

查看出發港的空值行

排除空行用ggplot繪圖

圖中紅色虛線是62行和830行乘客的票價位置,同樣的票價同等的船艙斷定可能是同一個出發港口,該價位的船票絕大部分出發港在C港口,我們判定兩位乘客是在C港口上的船。補充fare票價列的空數據

hebing3$Embarked[c(62,830)] <- "C" #給62和830行填入C港口n

補充fare票價列的空數據

查找空數據

排除空數據,用ggplot繪圖

1044號乘客是從C港口出發,乘坐的事3等艙,同一個港口出發同等艙位票價應該差不多,求出從C港口出發3等艙的平均票價

平均票價為11.022,寫入1043行

預測年齡和家族成員關係的分析還沒弄懂,以後學會了繼續做。

四·數據計算與顯示

分析性別和倖存的關係

由圖可以看出,《泰坦尼克號》電影中讓女人先上救生艇的情節不是杜撰的,善良是人性中的光輝體現。

艙位和倖存的關係

票價和倖存的關係

從上面兩張圖可以看出,錢確實是個好東西,一等艙的倖存率大於二等艙,二等艙大於三等艙的倖存率。

還有很多數據不懂怎麼分析,以後繼續學習,繼續分析。


推薦閱讀:

我用數據分析了一切,卻還是不知道你愛不愛我
花式玩轉博物館,用數據和藝術品來對話!
城市沙丁魚的夢想:和高密度居住空間說再見
大冪冪是誰,大數據才是真「帶貨王」好嘛!

TAG:数据挖掘 | R编程语言 | 大数据 |