Python數據分析之jieba庫的運用

三十年河東,三十年河西,莫欺少年窮!年僅15歲的蕭家廢物,於此地,立下了誓言,從今以後便一步步走向鬥氣大陸巔峰!這裡是屬於鬥氣的世界,沒有花俏艷麗的魔法,有的,僅僅是繁衍到巔峰的鬥氣!

《斗破蒼穹》可謂玄幻小說的巔峰之作,曾經痴迷到徹夜看小說,回不到的過去,等不到的未來!今天就利用python的jieba庫以及在線製作詞雲工具TAGUL,製作《斗破蒼穹》詞雲。

步驟

jieba分詞

首先,通過pip3 install jieba安裝jieba庫,隨後在網上下載《斗破蒼穹》小說及停用詞表。代碼如下:

import jieba.analysepath = 小說路徑fp = open(path,r,encoding=utf-8)content = fp.read()try: jieba.analyse.set_stop_words(停用詞表路徑) tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True) for item in tags: print(item[0]+ +str(int(item[1]*1000)))finally: fp.close()

大家運行程序可能會報錯,是編碼問題,我們這時需打開下載的txt文檔,另存為,選擇utf-8編碼即可。

運行部分結果圖:

詞雲製作

(1)打開taglue官網,點擊import words,把運行的結果copy過來。

(2)選擇形狀,在這裡是網上下載的圖片進行的導入。

(3)選擇字體。

(4)點擊Visualize生成圖片。

《斗破蒼穹》詞雲

在這個鬥氣大陸上,只有強者才可以生存,蕭炎在葯老及丹藥的幫助下不斷修鍊,擁有多種異火,有著極強的靈魂感知力;在不斷修鍊中,遇到了小醫仙,納蘭,美杜莎,紫研等人,成為鬥氣大陸上的強者而奮鬥。

作者:羅羅攀 Python愛好者社區專欄作者,請勿轉載,謝謝。

簡書主頁:羅羅攀 - 簡書

博客專欄:羅羅攀的博客

配套視頻教程:Python3爬蟲三大案例實戰分享:貓眼電影、今日頭條街拍美圖、淘寶美食 Python3爬蟲三大案例實戰分享

公眾號:Python愛好者社區(微信ID:python_shequ),關注,查看更多連載內容。

推薦閱讀:

剛安裝了pycharm, 寫了一句print "nice!" 都報錯是怎麼回事?
python numpy 數組如何對每個元素進行操作?
為什麼 Python 的類不構成作用域(scope)?
用 Python 寫爬蟲時應該注意哪些坑?

TAG:Python | Python入门 | Python教程 |