Python爬取起點中文網小說排行榜信息(上海線下培訓作業)

上周末兩天的天善智能上海線下培訓已經結束啦~

小編帶大家從爬蟲零基礎到進階飛飛飛

以下是部分課程內容和學員成果展示

1、課程內容

2、課堂實景

大家都在聽小編講課【聽的好認真啊】

學員課堂實際操作時間【學一點就要及時動手操作一下】

小編在課上給學員答疑【有問題要及時解決】

助教知己在給學員答疑【小編的好朋友哈】

學員們相互幫助解決問題【好有愛啊啊啊】

最後的合影【有好多小姐姐也來學爬蟲技術】

3、學員群答疑和反饋

課前準備工作

課前準備工作

必須讓每個學員都學到東西

學員不僅學到技能,還認識了新朋友

課後答疑

學員來交作業啦【好有成就感啊】

4、學員作業風采欣賞

第二天最後留下的作業是爬取起點小說排行榜信息

作業要求如下:

以下是部分學員完成情況:

01

作者:柳東

原文鏈接:ask.hellobi.com/blog/ld

兩天的爬蟲線下培訓結束了,感謝大偉老師和工作人員們的辛苦付出,以下為本次作業的簡述:

一、先處理單頁信息的爬取:

輸出結果後發現網頁被重定向至其他網頁,並非需要爬取的排行榜,於是加入代理及異常機制嘗試:

輸出結果正常:

接著,加入解析器,通過循環,把需要的信息先放入字典,再將全部信息分類匯總入列表:

引入pandas,將信息轉化為DataFrame:

輸出結果第一頁所需信息:

至此,單頁爬取完成。

二、爬取前200名的信息:

單頁爬取成功,加入循環,實現多頁爬取,並輸出結果,以下為完整代碼:

以下為完整輸出結果:

如有發現問題,歡迎各位老師同學的批評指正。

再次感謝大偉老師,各位天善的工作人員及各位同學!

02

作者:走馬蘭台

原文鏈接:ask.hellobi.com/blog/ys

周末兩天的培訓結束了,非常感謝這段時間老師的熱情指導,現對起點小說排名信息的爬取已完成,具體思路如下:

第一步:首先選取起點的網站網址:qidian.com/rank/hotsale先嘗試用代理和cookies進入網址,發現得到的界面源代碼都沒有問題,然後去掉代理和cookies發現也能爬取信息

使用代理和headers運行程序:

不使用代理運行程序結果:

第二步:查看起點排行榜多個界面,發現只是後面的page=不同,取出所有的源代碼信息,發現所有內容都在class=book-mid-info的a標籤上,然後用BS4來對整個網頁內容的提取,使用find_all和css的select方法都可以得到結果,結果如下:

find_all方法:

select方法:

第三步:在這裡使用css的select方法提取數據,然後把數據轉變為pandas的DataFrame格式,因為數據都是在同一列,需要對數據進行切片及去掉原有索引,然後用pandas的concat把書名、作者等信息進行合併

數據傳入DataFrame結果:

用pandas的concat把作者等信息進行合併運行後的結果:

最後就是保存在csv中,因為格式不同,需要對數據使用gbk格式寫入

下圖即是所有的代碼:

03

作者:Zexuan

原文鏈接:ask.hellobi.com/blog/Ka

上周末在上海進行了2天的python爬蟲培訓,感謝天善智能感謝王大偉老師,要開始入坑啦!

上課基本能聽懂,但是回來自己碼代碼就會發現各種問題~~~~(>_<)~~~~

把python的基礎知識補了一遍,完成了老師留下的作業。

要求:

qidian.com/rank/hotsale

爬取前200名排行榜的作者,書名,分類,更新的信息

建議先爬取一頁

要求使用BeautifulSoup爬取

交作業啦!

雖然只是一個簡單的交作業,不過完成了還是超有成就感的!!!

未完待續

小編鼓勵大家寫博客記錄自己的學習成果

方便以後用到回顧,還能分享給需要的人

雖然這期的上海站線下爬蟲培訓結束了

以後還會有的,除了上海還可能去其他城市哦

除了網路爬蟲

以後還會開機器學習,數據分析挖掘之類的線下課程哦

敬請期待~

小編的免費Python入門課程已經登場,等你來撩~

已經有1100+小夥伴來學習咯

課程地址:Hellobi Live | 11月9日 1小時破冰入門Python

作者:王大偉 Python愛好者社區唯一小編,請勿轉載,謝謝。

出處:Python從零開始系列連載(23)--Python特色數據類型(字典)(下)

配套視頻教程:Python3爬蟲三大案例實戰分享:貓眼電影、今日頭條街拍美圖、淘寶美食 Python3爬蟲三大案例實戰分享

公眾號:Python愛好者社區(微信ID:python_shequ),關注,查看更多連載內容。

推薦閱讀:

TAG:Python | Python教程 | Python入门 |