這半個月，我用Python爬蟲做了一個開源搜索引擎

04-04

作為一個知乎小透明，第一次在知乎發文章真是心情激動。牛逼是一定要吹響的，應該是搜索網站，先吹個搜索引擎吧。

先甩已上線的搜索地址： http://search.mtianyan.cn (後端爬蟲還在持續爬取數據中)

後端的數據來源：爬蟲我採用的是Scrapy框架對於伯樂在線, 國內某知名問答網站，拉勾網的職位進行了溫柔的爬取。
中間的數據存儲: 我採用了elasticSearch單機多實例集群進行存儲並為前端的Django提供api。（使用了head插件管理，以及Kibana進行查詢調試）

3. Django搜索網站: 使用Django獲取後端api數據進行展示(數據還在持續更新)。

項目開始於1.18後我部署完了另一個Django的網站。對於這個被自己交了一次大作業拿到高分的項目。我再次產生了濃厚的興趣，於是開始修修補補，發現和半年前相比，知乎的介面發生了變化，拉勾網也需要登錄了。自己趕工的粗糙代碼也看不下去了。(雖然現在的代碼也很粗糙：原諒我也是個python一年初學者(逃。中間走了很多坑，學習參考搬運了很多大神的代碼。最終還是成功的在本月末實現了自己一直想要做的搜索網站。

感謝：提供代碼給我復用抄襲的大神們。感謝bobby老師的爬蟲課程(本搜索基於老師課程)。感謝很多很多給我幫助的人。最後也感謝下自己做不下去了時候堅持的繼續。

相關的教程我在書寫更新中，歡迎大家關注，點贊，star哦:

2018.2最新爬蟲打造上線搜索引擎教程 - 文集 - 簡書?

www.jianshu.com

爬蟲代碼已開源於我的Gayhub:

mtianyan/ArticleSpider?

github.com

mtianyan/ArticleSpider

Django搭建的搜索代碼:

mtianyan/mtianyanSearch?

github.com

mtianyan/mtianyanSearch