這半個月,我用Python爬蟲做了一個開源搜索引擎

作為一個知乎小透明,第一次在知乎發文章真是心情激動。牛逼是一定要吹響的,應該是搜索網站,先吹個搜索引擎吧。

先甩已上線的搜索地址: http://search.mtianyan.cn (後端爬蟲還在持續爬取數據中)

  1. 後端的數據來源:爬蟲我採用的是Scrapy框架對於伯樂在線, 國內某知名問答網站,拉勾網的職位進行了溫柔的爬取。
  2. 中間的數據存儲: 我採用了elasticSearch單機多實例集群進行存儲並為前端的Django提供api。(使用了head插件管理,以及Kibana進行查詢調試)

3. Django搜索網站: 使用Django獲取後端api數據進行展示(數據還在持續更新)。

項目開始於1.18後我部署完了另一個Django的網站。對於這個被自己交了一次大作業拿到高分的項目。我再次產生了濃厚的興趣,於是開始修修補補,發現和半年前相比,知乎的介面發生了變化,拉勾網也需要登錄了。自己趕工的粗糙代碼也看不下去了。(雖然現在的代碼也很粗糙:原諒我也是個python一年初學者(逃 。中間走了很多坑,學習參考搬運了很多大神的代碼。最終還是成功的在本月末實現了自己一直想要做的搜索網站。

感謝:提供代碼給我復用抄襲的大神們。感謝bobby老師的爬蟲課程(本搜索基於老師課程)。感謝很多很多給我幫助的人。最後也感謝下自己做不下去了時候堅持的繼續。

相關的教程我在書寫更新中,歡迎大家關注,點贊,star哦:

2018.2最新爬蟲打造上線搜索引擎教程 - 文集 - 簡書?

www.jianshu.com圖標

爬蟲代碼已開源於我的Gayhub:

mtianyan/ArticleSpider?

github.com圖標

mtianyan/ArticleSpider

Django搭建的搜索代碼:

mtianyan/mtianyanSearch?

github.com圖標

mtianyan/mtianyanSearch

推薦閱讀:

Python的大數運算到底是根據什麼基礎原理或者演算法實現的?
(02)Python密碼庫Cryptography探究學習---深入理解Fernet
爬取番號列表及dvd封面圖片
Pandas中的鏈式方法
理解 Python 裝飾器就看這一篇

TAG:爬蟲計算機網路 | Python | 開源 |