豆瓣書籍查詢
1 人贊了文章
一、提出問題:1 豆瓣中評分較高的書有哪些
2 豆瓣中受歡迎的作者有哪些
3 數據分析領域評分較高的書籍有哪些
選擇從豆瓣讀書中數量較多的9個類別進行數據抓取:https://book.douban.com/tag
豆瓣中每個網址抓取的頁數為50頁,總共抓取數據8500條
二、數據理解:每一列所代表的含義。把書名和副標題分開,對作家出版社分列
三、數據清洗:去除書名重複的行,刪掉信息不完整的行
以下為數據的整理後版本,主要有:書名、副標題、作家、翻譯、出版社、日期、價格、評分、評價人數、分類標籤、網址、簡介。共12列
四、數據導入My Sql:豆瓣閱讀書籍
導入excel 進 navicat 注意要把excel格式變為.xls,導入參考網址:https://jingyan.baidu.com/article/fc07f9891cb56412ffe5199a.html
五數據分析:1. 列出綜合排名最高的50本書(評分,評價人數)
2. 列出有超過3本高評價書籍的作者(經典書籍的主要創造者)
3. 列出書名或者副標題中包含「數據」兩個字的書的數量
4. 從包含數據的書中找出評分最高的幾本書
①.這些書感覺我都沒看過,不過大部分評價高的書只是因為評價人數太少,如果評價人數足夠多的話感覺結果就會有很大的不同。
?
②列出有超過3本高評價書籍的作者(經典書籍的主要創造者)。感覺這些高評分的作者都好古老。。。。。。熟悉一點的就是魯迅、老舍和劉慈欣。
3 列出書名或者副標題中包含「數據」兩個字的書的數量,從包含數據的書中找出評分最高的幾本書,最後兩個問題是關於數據分析的,找出含有數據的所有書籍,並列出評分最高的前20列。
結論:1.評價高的書看的人都比較少,更加難得的是評價人數多分數又很高的書。
2. 發表過很多好文章的作者年齡都比較大,還有不好我不認識的,可以去好好學習下
3. 數據分析領域的書籍也有很多,可以從中選基本人氣好的且分數高的進行學習《數據分析技術白皮書》雖然評價人數很少,但這麼高的評分還是有點詭異的,得去了解下。
推薦閱讀:
TAG:閱讀 |