網路爬蟲相關畢業設計,有什麼比較合適的書籍推薦?

大四學生做畢業設計,題目為「針對某旅遊網站,通過各旅遊景點近期買票數的統計,實現旅遊景點熱門度的排名。要求學生了解網路爬蟲和HTML結構,具有一定java語言基礎。本人不是主修java語言的,但是畢業設計分配到了這個老師,希望懂的人根據畢業設計題目推薦一些通俗易懂的書目給我,我自己學習製作。萬分感謝。


根據題主的情況,我可以推薦一些書
入門:
1《開發自己的搜索引擎 Lucene+Heritrix》:根據這本書,你就可以搭建簡單的爬蟲了,已經可以完成你的爬取需求。
2《這就是搜索引擎:核心技術詳解》:該書你可以了解爬蟲的基本演算法,對爬蟲的機制有一定了解。
3《自己動手寫網路爬蟲》:可以引導你自己開發爬蟲,如果以上兩本書已滿足要求,該書可以不讀。
進階:
1《Web數據挖掘》(清華大學出版社)幫助你入門數據挖掘演算法和爬蟲的核心演算法
2《數據挖掘》詳細介紹數據挖掘演算法

2016-11-6補充回答:
現在推薦使用Webmagic作為爬蟲框架,網上教程比較完整,使用也比Heritrix方便。
可以用Elasticsearch做搜索功能,比Lucene使用更簡單方便,且很好的支持多節點搜索。


推薦閱讀:

TCP/IP 和 HTTP 的區別和聯繫是什麼?
為什麼tcp連接的傳輸速度慢,斷開重新連接後,傳輸速度就變快了呢?
如何用Python寫一個分散式爬蟲?
為什麼網關與主機可以不在同一個網段?
ip地址是否可以取代mac地址,Fibre Channel over IP是否只使用ip地址進行通信?

TAG:書籍推薦 | 計算機網路 | 爬蟲計算機網路 | 畢業設計 | 搜索引擎 |