基於Python3的小說爬蟲

04-26

#! /usr/bin/python3#-*-coding:UTF-8-*-from urllib import requestimport reclass Spider(): weburl=http://www.lread.net/read/104682/35198618.html root_rule=([sS]*?) refine_rule=str(    (.*?)<br />) filename = Taoist def __fetch_content(self): r = request.urlopen(Spider.weburl) htmls = r.read().decode(gbk) return htmls def __find_string(self,htmls): htmls = re.findall(Spider.root_rule,htmls) return str(htmls) def __refine(self,htmls): htmls = re.findall(Spider.refine_rule,htmls) return htmls def __join2all(self,htmls): return .join(htmls) def __saveF(self,htmls): filename= D:\+Spider.filename+.txt file = open(filename,w+) file.write(htmls) file.close() def go(self): htmls = self.__fetch_content() htmls = self.__find_string(htmls) htmls = self.__refine(htmls) htmls = self.__join2all(htmls) self.__saveF(htmls) spider = Spider()spider.go()

這兩天研究了一下Python的爬蟲，發現挺有意思的，而且用來爬些小說什麼的還挺容易的，暫時用系統原生的模塊進行原始爬蟲。

據說按照道理可以繼續無顯示的爬蟲爬下去，不過技術所限，邊學邊做，如果有喜歡的朋友，可以拿過去嘗試嘗試我的代碼，應該不會有太大的問題。

其餘的等下次更新!