標籤:

英文各字母使用頻率?


並沒有查到比較可靠的說法,於是就有了此文

統計工具是Mathematica,版本號如下:

In[32]:= $Version
Out[32]= 10.2.0 for Microsoft Windows (64-bit) (August 30, 2015)

首先統計一下單詞里各字母出現的頻次:

代碼為

word = DictionaryLookup[{"English", "*"}];
word // StringJoin // CharacterCounts[#, IgnoreCase -&> True] //
KeySelect[#, MemberQ[Alphabet[], #] ] // Sort

輸出為

&<|"q" -&> 1448, "j" -&> 1630, "x" -&> 2108, "z" -&> 3410, "w" -&> 7062,
"k" -&> 7550, "v" -&> 7900, "f" -&> 10556, "y" -&> 12457, "b" -&> 15303,
"h" -&> 18143, "m" -&> 21179, "p" -&> 21777, "g" -&> 23047, "u" -&> 25806,
"d" -&> 29423, "c" -&> 31145, "l" -&> 41195, "o" -&> 47311,
"t" -&> 51649, "n" -&> 55550, "r" -&> 56424, "a" -&> 60670, "i" -&> 67014,
"s" -&> 67506, "e" -&> 88677|&>

我一共統計了92518個單詞

In[58]:= word//Length
Out[58]= 92518

實際上我已經結結果排序了,如果不怎麼明顯,下面對輸出可視化,代碼為:

BarChart[%45,
ChartLabels -&>
Placed[Keys[%45] // Style[#, 20, Red] /@ # , Above],
ChartElementFunction -&> "GlassRectangle", ChartStyle -&> "Pastel"]

其次,我們統計一下字母在文本而不是單純的單詞里出來的頻次,剛好我電腦還有30本英語書像

  • 《傲慢與偏見》
  • 《特種起源》
  • 《哈姆雷特》
  • ......

等書都在此行列

下面對書里的字母進行統計,代碼如下:

article =
ExampleData["Text"] //
DeleteCases[#, _?(StringStartsQ[#[[2]], "UNHuman"] ||
StringStartsQ[#[[1]], "UNHuman"] )] ;
ExampleData /@ article // StringJoin //
CharacterCounts[#, IgnoreCase -&> True] //
KeySelect[#, MemberQ[Alphabet[], #] ] // Sort

輸入為

&<|"z" -&> 7245, "x" -&> 9035, "j" -&> 9832, "k" -&> 22555, "q" -&> 28229,
"v" -&> 54123, "b" -&> 78559, "y" -&> 80146, "w" -&> 83521, "p" -&> 85932,
"g" -&> 89714, "f" -&> 103637, "c" -&> 141395, "m" -&> 142086,
"u" -&> 180938, "l" -&> 213195, "d" -&> 220495, "h" -&> 259633,
"r" -&> 311530, "i" -&> 334106, "s" -&> 347518, "n" -&> 350170,
"o" -&> 373375, "t" -&> 401900, "a" -&> 433797, "e" -&> 651220|&>

同上面一樣對輸入進行可視化,代碼為:

BarChart[%24,
ChartLabels -&>
Placed[Keys[%24] // Style[#, 20, Red] /@ # , Above],
ChartElementFunction -&> "GlassRectangle", ChartStyle -&> "Pastel"]

其實我們可以看到,無論對單詞里的字母,還是文章里的字母,次序都差不多,不敢說是確切的結論,不過作為參考,希望對你有幫助。


推薦閱讀:

不知道自己算不算M,內心渴望,但偏偏算傲嬌屬性,以女王自稱,站在坑邊徘徊,求解決方法!!?
「?」字母是什麼?
求告知26個字母大小寫的花體?
拼音是什麼什麼出現的,如果古代就有拼音為什麼它會和英文字母一樣的寫法?

TAG:英文字母 |