Python爬取起點中文網小說排行榜信息（上海線下培訓作業）

01-29

上周末兩天的天善智能上海線下培訓已經結束啦~
小編帶大家從爬蟲零基礎到進階飛飛飛
以下是部分課程內容和學員成果展示

1、課程內容

2、課堂實景

大家都在聽小編講課【聽的好認真啊】

學員課堂實際操作時間【學一點就要及時動手操作一下】

小編在課上給學員答疑【有問題要及時解決】

助教知己在給學員答疑【小編的好朋友哈】

學員們相互幫助解決問題【好有愛啊啊啊】

最後的合影【有好多小姐姐也來學爬蟲技術】

3、學員群答疑和反饋

課前準備工作

必須讓每個學員都學到東西

學員不僅學到技能，還認識了新朋友

課後答疑

學員來交作業啦【好有成就感啊】

4、學員作業風采欣賞

第二天最後留下的作業是爬取起點小說排行榜信息

作業要求如下：

以下是部分學員完成情況：

作者：柳東
原文鏈接：https://ask.hellobi.com/blog/ld634/10455

兩天的爬蟲線下培訓結束了，感謝大偉老師和工作人員們的辛苦付出，以下為本次作業的簡述：

一、先處理單頁信息的爬取：

輸出結果後發現網頁被重定向至其他網頁，並非需要爬取的排行榜，於是加入代理及異常機制嘗試：

輸出結果正常：

接著，加入解析器，通過循環，把需要的信息先放入字典，再將全部信息分類匯總入列表：

引入pandas，將信息轉化為DataFrame：

輸出結果第一頁所需信息：

至此，單頁爬取完成。

二、爬取前200名的信息：

單頁爬取成功，加入循環，實現多頁爬取，並輸出結果，以下為完整代碼：

以下為完整輸出結果：

如有發現問題，歡迎各位老師同學的批評指正。

再次感謝大偉老師，各位天善的工作人員及各位同學！

作者：走馬蘭台
原文鏈接：https://ask.hellobi.com/blog/ysfyb/10484

周末兩天的培訓結束了，非常感謝這段時間老師的熱情指導，現對起點小說排名信息的爬取已完成，具體思路如下:

第一步：首先選取起點的網站網址:https://www.qidian.com/rank/hotsales,先嘗試用代理和cookies進入網址，發現得到的界面源代碼都沒有問題,然後去掉代理和cookies發現也能爬取信息

使用代理和headers運行程序：

不使用代理運行程序結果:

第二步：查看起點排行榜多個界面，發現只是後面的page=不同，取出所有的源代碼信息，發現所有內容都在class=book-mid-info的a標籤上，然後用BS4來對整個網頁內容的提取，使用find_all和css的select方法都可以得到結果，結果如下：

find_all方法：

select方法：

第三步：在這裡使用css的select方法提取數據，然後把數據轉變為pandas的DataFrame格式，因為數據都是在同一列，需要對數據進行切片及去掉原有索引，然後用pandas的concat把書名、作者等信息進行合併

數據傳入DataFrame結果：

用pandas的concat把作者等信息進行合併運行後的結果：

最後就是保存在csv中，因為格式不同，需要對數據使用gbk格式寫入

下圖即是所有的代碼：

作者：Zexuan
原文鏈接：https://ask.hellobi.com/blog/Kacey/10551

上周末在上海進行了2天的python爬蟲培訓，感謝天善智能感謝王大偉老師，要開始入坑啦！

上課基本能聽懂，但是回來自己碼代碼就會發現各種問題~~~~(>_<)~~~~

把python的基礎知識補了一遍，完成了老師留下的作業。

要求：

https://www.qidian.com/rank/hotsales?page=1

爬取前200名排行榜的作者，書名，分類，更新的信息

建議先爬取一頁

要求使用BeautifulSoup爬取

交作業啦！

雖然只是一個簡單的交作業，不過完成了還是超有成就感的！！！

未完待續

小編鼓勵大家寫博客記錄自己的學習成果
方便以後用到回顧，還能分享給需要的人
雖然這期的上海站線下爬蟲培訓結束了
以後還會有的，除了上海還可能去其他城市哦
除了網路爬蟲
以後還會開機器學習，數據分析挖掘之類的線下課程哦
敬請期待~

小編的免費Python入門課程已經登場，等你來撩~

已經有1100+小夥伴來學習咯

課程地址：Hellobi Live | 11月9日 1小時破冰入門Python

作者：王大偉 Python愛好者社區唯一小編，請勿轉載，謝謝。
出處：Python從零開始系列連載（23）--Python特色數據類型（字典）（下）
配套視頻教程：Python3爬蟲三大案例實戰分享：貓眼電影、今日頭條街拍美圖、淘寶美食 Python3爬蟲三大案例實戰分享
公眾號：Python愛好者社區（微信ID：python_shequ），關注，查看更多連載內容。