SEO詞庫清洗詞和歸類相關問題?

01-25

最近在學習SEO過程中，很多行業大牛提到了詞庫的概念，於是我就嘗試的搭建一個詞庫，第一步是根據網站本身的產品去愛站和鳳巢拓展了第一批的關鍵詞，大概多140萬個詞差不多，然後去重，在根據網站商品類目在進行詞的分類，分類出不同的表格。
得到這樣的一個詞表：
在去分析這些詞還是有很多詞可以做規類的，比如：問答類的

比如：商品類的詞
如何高效把的這些詞進行觀類？？？？

目前自己嘗試的2種方法，個人感覺多不是最高效的。
第一種：
用sql server 的SELECT語句進行分類，比如要去掉問答詞必須要先找到，「什麼」，「怎麼」等等這種字樣，應該是屬於窮舉法把，缺點落網之魚多，要大規模的去看詞，速度慢。
第二種：
用excel進行觀類，主要用到excel的拆分，複製，重複值等功能吧

先把詞拆分，在c列在進行篩選，優點比第一個看詞方便很多，篩選的速度也快，缺點是excel經常會出現問題，比如彈出一個東西之前所做的篩選就沒有了,。
第一種方法一天大概能處理3-5萬個詞，第二種大概能處理5萬-8萬（前提要保證excel出錯概率不多）假如一個中型網站的關鍵詞有150w個詞，單單做詞的觀類就需要耗費1個多月時間，還不包括語意相同的詞。顯然是在一個公司是很難生存下去的。
感覺這幾個方法多不是做方便和高效，求大神們指點迷津？
註：本人非本科畢業，在學校學的專業跟計算機沒有關係，上面用到sql server多是百度現學，沒有編程基礎

謝邀

我有看到你在思考及改進方法，這點真的很棒！只是似乎你對於詞庫分析的目標及結果有點無概念，所以整個過程給我的感覺是有點抓瞎。比如提取問答特徵以及拆分關鍵詞我就沒能理解，這麼做是想得到什麼樣的數據反饋呢？

我個人分析詞庫的目的有兩個：

1，分析詞根與詞根之間的共現規律及緊密度，用於發現用戶潛在的搜索需求，並用於規劃網站粗略的內容框架。（這裡虛擬個例子，假設以火車為例，省份為一類詞根，城市為一類詞根，兩者分析完之後能發現有很強的共現關係，這種共現關係又分成兩種，一種是省份這種詞根為城市詞根的描述屬性，比如「江蘇南京火車票」，而還有一種是A到B屬性，比如"南京到浙江的火車"，那麼後者就是一個可規劃的內容）。

2，分析並提取詞根的前後綴，用於細化該類詞根的內容結構化。這個正好我以前寫過一個文章就是專門做這個事的，這裡就不累述了：

清洗按詞根擴展後的詞庫並聚類分析長尾關鍵詞前後綴

總結一下，就是為目的找方法，不要聽信人云亦云，最終變味成了為了過程而過程。

其實很簡答啦，SEO沒有大家想像的那麼難，詞庫也不用經常清洗和歸類，因為大體上的關鍵詞自己想都能想出來，題主大動周折其實就是打長尾關鍵詞的注意吧。

就如道哥所說的，確實很亂。

如果是我的話，我會這樣做。

1、抓取後的關鍵詞進行分詞

2、計算詞頻

3、研究最高詞頻的規律（這裡可能還會涉及到要將詞做去重）

4、最後生成

其實這整個過程中，你不能忽視的是詞根。詞根是整個詞庫的重心。你要做的是找出共現詞的特徵及規律，然後在於詞根組合。

個人經驗之談，不對勿噴。謝謝

1、先把你的關鍵詞導入資料庫(不要用excel了)，至少得mysql。

2、做分詞。網上分詞工具一大堆，自己找吧。最好能帶 tfidf

3、策劃分組，每個分組裡面可能需要包含的詞根，一個組一個清單

4、嘗試貝葉斯或者KNN方法，寫個代碼從頭到尾跑一遍

個人比較喜歡貝葉斯，速度很快。關於貝葉斯是什麼，自己百度吧。