SEO詞庫清洗詞和歸類相關問題?

最近在學習SEO過程中,很多行業大牛提到了詞庫的概念,於是我就嘗試的搭建一個詞庫,第一步是根據網站本身的產品去愛站和鳳巢拓展了第一批的關鍵詞,大概多140萬個詞差不多,然後去重,在根據網站商品類目在進行詞的分類,分類出不同的表格。

得到這樣的一個詞表:

在去分析這些詞還是有很多詞可以做規類的,比如:問答類的

比如:商品類的詞

如何高效把的這些詞進行觀類????

目前自己嘗試的2種方法,個人感覺多不是最高效的。

第一種:

用sql server 的SELECT語句進行分類,比如要去掉問答詞必須要先找到,「什麼」,「怎麼」等等這種字樣,應該是屬於窮舉法把,缺點落網之魚多,要大規模的去看詞,速度慢。

第二種:

用excel進行觀類,主要用到excel的拆分,複製,重複值等功能吧

先把詞拆分,在c列在進行篩選,優點比第一個看詞方便很多,篩選的速度也快,缺點是excel經常會出現問題,比如彈出一個東西之前所做的篩選就沒有了,。

第一種方法一天大概能處理3-5萬個詞,第二種大概能處理5萬-8萬(前提要保證excel出錯概率不多)假如一個中型網站的關鍵詞有150w個詞,單單做詞的觀類就需要耗費1個多月時間,還不包括語意相同的詞。顯然是在一個公司是很難生存下去的。

感覺這幾個方法多不是做方便和高效,求大神們指點迷津?

註:本人非本科畢業,在學校學的專業跟計算機沒有關係,上面用到sql server多是百度現學,沒有編程基礎


謝邀

我有看到你在思考及改進方法,這點真的很棒!只是似乎你對於詞庫分析的目標及結果有點無概念,所以整個過程給我的感覺是有點抓瞎。比如提取問答特徵以及拆分關鍵詞我就沒能理解,這麼做是想得到什麼樣的數據反饋呢?

我個人分析詞庫的目的有兩個:

1,分析詞根與詞根之間的共現規律及緊密度,用於發現用戶潛在的搜索需求,並用於規劃網站粗略的內容框架。(這裡虛擬個例子,假設以火車為例,省份為一類詞根,城市為一類詞根,兩者分析完之後能發現有很強的共現關係,這種共現關係又分成兩種,一種是省份這種詞根為城市詞根的描述屬性,比如「江蘇南京火車票」,而還有一種是A到B屬性,比如"南京到浙江的火車",那麼後者就是一個可規劃的內容)。

2,分析並提取詞根的前後綴,用於細化該類詞根的內容結構化。這個正好我以前寫過一個文章就是專門做這個事的,這裡就不累述了:

清洗按詞根擴展後的詞庫並聚類分析長尾關鍵詞前後綴

總結一下,就是為目的找方法,不要聽信人云亦云,最終變味成了為了過程而過程。


其實很簡答啦,SEO沒有大家想像的那麼難,詞庫也不用經常清洗和歸類,因為大體上的關鍵詞自己想都能想出來,題主大動周折其實就是打長尾關鍵詞的注意吧。


就如道哥所說的,確實很亂。

如果是我的話,我會這樣做。

1、抓取後的關鍵詞進行分詞

2、計算詞頻

3、研究最高詞頻的規律(這裡可能還會涉及到要將詞做去重)

4、最後生成

其實這整個過程中,你不能忽視的是詞根。詞根是整個詞庫的重心。你要做的是找出共現詞的特徵及規律,然後在於詞根組合。

個人經驗之談,不對勿噴。謝謝


1、先把你的關鍵詞導入資料庫(不要用excel了),至少得mysql。

2、做分詞。網上分詞工具一大堆,自己找吧。最好能帶 tfidf

3、策劃分組,每個分組裡面可能需要包含的詞根,一個組一個清單

4、嘗試貝葉斯或者KNN方法,寫個代碼從頭到尾跑一遍

個人比較喜歡貝葉斯,速度很快。關於貝葉斯是什麼,自己百度吧。


推薦閱讀:

深度學習利器:TensorFlow與NLP模型
(No.30)Enriching Word Vectors with Subword Information
機器學習、深度學習與自然語言處理領域推薦的書籍列表
基於雙語主題模型的跨語言層次分類體系匹配 | 直播預告·PhD Talk #16

TAG:搜索引擎優化SEO | 自然語言處理 | 中文分詞 |