基於Python3的小說爬蟲
#! /usr/bin/python3#-*-coding:UTF-8-*-from urllib import requestimport reclass Spider(): weburl=http://www.lread.net/read/104682/35198618.html root_rule=<!--go-->([sS]*?)<!--over--> refine_rule=str( (.*?)<br />) filename = Taoist def __fetch_content(self): r = request.urlopen(Spider.weburl) htmls = r.read().decode(gbk) return htmls def __find_string(self,htmls): htmls = re.findall(Spider.root_rule,htmls) return str(htmls) def __refine(self,htmls): htmls = re.findall(Spider.refine_rule,htmls) return htmls def __join2all(self,htmls): return
.join(htmls) def __saveF(self,htmls): filename= D:\+Spider.filename+.txt file = open(filename,w+) file.write(htmls) file.close() def go(self): htmls = self.__fetch_content() htmls = self.__find_string(htmls) htmls = self.__refine(htmls) htmls = self.__join2all(htmls) self.__saveF(htmls) spider = Spider()spider.go()
這兩天研究了一下Python的爬蟲,發現挺有意思的,而且用來爬些小說什麼的還挺容易的,暫時用系統原生的模塊進行原始爬蟲。
據說按照道理可以繼續無顯示的爬蟲爬下去,不過技術所限,邊學邊做,如果有喜歡的朋友,可以拿過去嘗試嘗試我的代碼,應該不會有太大的問題。
其餘的等下次更新!
推薦閱讀:
※pycharm 如何程序運行後,仍可查看變數值?(非Debug mode, 因為debug運行太慢)
※Python訪問網頁報錯,ValueError: unknown url type,求問什麼原因?
※python3.6 安裝後沒有pip?
※python的迭代器為什麼一定要實現__iter__方法?