標籤:

有什麼現有函數,輸入是一個單詞變式的字元串,如複數,過去式,現在進行時等,輸出這個單詞的原型?

或者換個思路,有沒有什麼現成的資料庫、字典文件,可以讓上述函數很容易實現?

想編一個簡單的英語單詞統計的程序。


搜索裡面會用到,可以參考開源的搜索項目。這個東西叫stemming lemmatization,也可以google之。


沒有這樣的資料庫或者字典文件...

建議試下有道API看看...

更新一波,感覺能滿足你的需求:

金山詞霸開放平台-wiki

金山詞霸開放平台-api

樣例:

http://dict-co.iciba.com/api/dictionary.php?w=submittedkey=yourkey


如果你會python的話,用NLTK的WordNetLemmatizer可以做到。

其他語言,可以嘗試找下跟wordnet相關的庫或者直接使用wordnet這個在線工具。


或許可以自己寫一個?給一個單詞,在baidu/google上面搜索,按頻率進行識別之類的。

不過最好的辦法還是輪子哥說的,用Bing的API吧。


必應詞典有api


可以用爬蟲 爬詞典?感覺可行


Python nltk


推薦閱讀:

如何評價開學季知乎上大量出現C/C++新手問作業題?
為什麼有些人罵 C++,如 Linux 之父對 C++ 進行了炮轟,說它是糟糕程序員的垃圾語言?
C++中if(x==8)和if(8==x)有什麼區別?
有什麼像a=a+b;b=a-b;a=a-b;這樣的演算法或者知識?
程序中的變數名總是起的很長怎麼辦?英文單詞的縮寫有規律么?

TAG:編程 |