Python爬取起點中文網小說排行榜信息(上海線下培訓作業)
上周末兩天的天善智能上海線下培訓已經結束啦~
小編帶大家從爬蟲零基礎到進階飛飛飛以下是部分課程內容和學員成果展示
1、課程內容
2、課堂實景
大家都在聽小編講課【聽的好認真啊】
學員課堂實際操作時間【學一點就要及時動手操作一下】
小編在課上給學員答疑【有問題要及時解決】
助教知己在給學員答疑【小編的好朋友哈】
學員們相互幫助解決問題【好有愛啊啊啊】
最後的合影【有好多小姐姐也來學爬蟲技術】
3、學員群答疑和反饋
課前準備工作
課前準備工作
必須讓每個學員都學到東西
學員不僅學到技能,還認識了新朋友
課後答疑
學員來交作業啦【好有成就感啊】
4、學員作業風采欣賞
第二天最後留下的作業是爬取起點小說排行榜信息
作業要求如下:
以下是部分學員完成情況:
01
作者:柳東
原文鏈接:https://ask.hellobi.com/blog/ld634/10455
兩天的爬蟲線下培訓結束了,感謝大偉老師和工作人員們的辛苦付出,以下為本次作業的簡述:
一、先處理單頁信息的爬取:
輸出結果後發現網頁被重定向至其他網頁,並非需要爬取的排行榜,於是加入代理及異常機制嘗試:
輸出結果正常:
接著,加入解析器,通過循環,把需要的信息先放入字典,再將全部信息分類匯總入列表:
引入pandas,將信息轉化為DataFrame:
輸出結果第一頁所需信息:
至此,單頁爬取完成。
二、爬取前200名的信息:
單頁爬取成功,加入循環,實現多頁爬取,並輸出結果,以下為完整代碼:
以下為完整輸出結果:
如有發現問題,歡迎各位老師同學的批評指正。
再次感謝大偉老師,各位天善的工作人員及各位同學!
02
作者:走馬蘭台
原文鏈接:https://ask.hellobi.com/blog/ysfyb/10484
周末兩天的培訓結束了,非常感謝這段時間老師的熱情指導,現對起點小說排名信息的爬取已完成,具體思路如下:
第一步:首先選取起點的網站網址:https://www.qidian.com/rank/hotsales,先嘗試用代理和cookies進入網址,發現得到的界面源代碼都沒有問題,然後去掉代理和cookies發現也能爬取信息
使用代理和headers運行程序:
不使用代理運行程序結果:
第二步:查看起點排行榜多個界面,發現只是後面的page=不同,取出所有的源代碼信息,發現所有內容都在class=book-mid-info的a標籤上,然後用BS4來對整個網頁內容的提取,使用find_all和css的select方法都可以得到結果,結果如下:
find_all方法:
select方法:
第三步:在這裡使用css的select方法提取數據,然後把數據轉變為pandas的DataFrame格式,因為數據都是在同一列,需要對數據進行切片及去掉原有索引,然後用pandas的concat把書名、作者等信息進行合併
數據傳入DataFrame結果:
用pandas的concat把作者等信息進行合併運行後的結果:
最後就是保存在csv中,因為格式不同,需要對數據使用gbk格式寫入
下圖即是所有的代碼:
03
作者:Zexuan
原文鏈接:https://ask.hellobi.com/blog/Kacey/10551
上周末在上海進行了2天的python爬蟲培訓,感謝天善智能感謝王大偉老師,要開始入坑啦!
上課基本能聽懂,但是回來自己碼代碼就會發現各種問題~~~~(>_<)~~~~
把python的基礎知識補了一遍,完成了老師留下的作業。
要求:
https://www.qidian.com/rank/hotsales?page=1
爬取前200名排行榜的作者,書名,分類,更新的信息
建議先爬取一頁
要求使用BeautifulSoup爬取
交作業啦!
雖然只是一個簡單的交作業,不過完成了還是超有成就感的!!!
未完待續
小編鼓勵大家寫博客記錄自己的學習成果
方便以後用到回顧,還能分享給需要的人雖然這期的上海站線下爬蟲培訓結束了以後還會有的,除了上海還可能去其他城市哦除了網路爬蟲以後還會開機器學習,數據分析挖掘之類的線下課程哦敬請期待~
小編的免費Python入門課程已經登場,等你來撩~
已經有1100+小夥伴來學習咯
課程地址:Hellobi Live | 11月9日 1小時破冰入門Python
作者:王大偉 Python愛好者社區唯一小編,請勿轉載,謝謝。
出處:Python從零開始系列連載(23)--Python特色數據類型(字典)(下) 配套視頻教程:Python3爬蟲三大案例實戰分享:貓眼電影、今日頭條街拍美圖、淘寶美食 Python3爬蟲三大案例實戰分享 公眾號:Python愛好者社區(微信ID:python_shequ),關注,查看更多連載內容。
推薦閱讀: