這半個月,我用Python爬蟲做了一個開源搜索引擎
04-04
作為一個知乎小透明,第一次在知乎發文章真是心情激動。牛逼是一定要吹響的,應該是搜索網站,先吹個搜索引擎吧。
先甩已上線的搜索地址: http://search.mtianyan.cn (後端爬蟲還在持續爬取數據中)
- 後端的數據來源:爬蟲我採用的是Scrapy框架對於伯樂在線, 國內某知名問答網站,拉勾網的職位進行了溫柔的爬取。
- 中間的數據存儲: 我採用了elasticSearch單機多實例集群進行存儲並為前端的Django提供api。(使用了head插件管理,以及Kibana進行查詢調試)
3. Django搜索網站: 使用Django獲取後端api數據進行展示(數據還在持續更新)。
項目開始於1.18後我部署完了另一個Django的網站。對於這個被自己交了一次大作業拿到高分的項目。我再次產生了濃厚的興趣,於是開始修修補補,發現和半年前相比,知乎的介面發生了變化,拉勾網也需要登錄了。自己趕工的粗糙代碼也看不下去了。(雖然現在的代碼也很粗糙:原諒我也是個python一年初學者(逃 。中間走了很多坑,學習參考搬運了很多大神的代碼。最終還是成功的在本月末實現了自己一直想要做的搜索網站。
感謝:提供代碼給我復用抄襲的大神們。感謝bobby老師的爬蟲課程(本搜索基於老師課程)。感謝很多很多給我幫助的人。最後也感謝下自己做不下去了時候堅持的繼續。
相關的教程我在書寫更新中,歡迎大家關注,點贊,star哦:
2018.2最新爬蟲打造上線搜索引擎教程 - 文集 - 簡書爬蟲代碼已開源於我的Gayhub:
mtianyan/ArticleSpidermtianyan/ArticleSpider
Django搭建的搜索代碼:
mtianyan/mtianyanSearchmtianyan/mtianyanSearch
推薦閱讀:
※Python的大數運算到底是根據什麼基礎原理或者演算法實現的?
※(02)Python密碼庫Cryptography探究學習---深入理解Fernet
※爬取番號列表及dvd封面圖片
※Pandas中的鏈式方法
※理解 Python 裝飾器就看這一篇