用美劇！背單詞！看懂大片以及搞定單詞的完美方案

04-24

嘛，說到底看美劇學英語就是為了找語感，聽懂人家說話，順道背背單詞嘛。

多圖殺貓，請慎重滾動

工科生，會寫代碼的工科生。

是醬紫用美劇背單詞的：

《Forrester Gump》阿甘正傳

目的：對影片台詞中出現的所有單詞：統計詞頻、篩選、印出來……

本文附了全套解決方案！！！

1、資料搜集：

百度/google：阿甘正傳字幕

download：http://tu.zmzjstu.com/ftp/attachment/200910/30/319308_125688533985d8.rar

下載下來是這樣的：

所以，這種格式怎麼打開？？？

按照通俗的理解，歌詞的lrc格式可以用記事本打開

so：

城裡人套路深，套路深……

2、文本處理

既然要對英文部分進行分析，那麼時間軸、中文序號部分就不能留下

這裡用到了萬能的word

直接把文本Ctrl+C Ctrl+V進隨便一個doc文件：

嘛，也就兩百多頁嘛，，不怕不怕

word自帶功能：查找、替換

分別把以下內容輸入到文本框，點全部替換

^#^#:^#^#:^#^#,^#^#^#
-->
[!^1-^127]
^#

說明：前兩個分別對應的是：

第三個則負責刪除所有漢字

第三個在用的時候把（使用通配符）打上勾

第四個是把所有剩下的數字刪掉（序號）

在刪除掉這兩部分之後，一定會留下許多的空行（連續好幾個空行那種）

解決方法如下

每一個^p就像按一次回車，這組替換就是把兩個空行刪到沒有空行

更多的，或者更少的調整可以以此類推

至於剩下來的「！」「？」「。」這類

替換掉就好了，方法同上

因為是漢字的全形符號，不會一起把英文部分的刪掉的

最後得到的大約是這樣的內容：

哇，全是句子……

哇，我都不認識……

3、敲代碼！！！

這裡用到的計算機語言是：Python！！！

沒錯，就是那個小學生都要學的python！！！

代碼塊：#-*-coding:utf-8-*-import stringimport timepath=2.txtf = open("out.txt", "w")with open(path,r) as text: words=[raw_word.strip(string.punctuation).lower() for raw_word in text.read().split()] words_index=set(words) counts_dict={index:words.count(index) for index in words_index}for word in sorted(counts_dict,key=lambda x:counts_dict[x],reverse=True): # time.sleep(2) f.write ({} {} .format(word,counts_dict[word]))f.close()好簡單是不是！！！

這裡的代碼非原創，是在@ zhangxiaomei1952 的blog of CSDN 上扒下來的

並做了一些有利於使用和後期處理的改動

把大佬供起來：

用python做詞頻統計 - CSDN博客（原代碼鏈接）

首先注意一下time.sleep:

# time.sleep(2)

我把它注釋掉了，，簡直滅絕人性，輸出一個歇兩秒……

使用方法：

在.py文件同一目錄下創建一個叫2.txt的文本文件，把剛才處理好的字幕文本複製、粘貼進去

運行！！！

在2.txt旁邊出來了一個out.txt

單詞——出現次數

簡單且粗暴（粗♂暴♂）

4、事後煙……

問題來了，這前面的我都會啊，，這我再看一遍還背個毛線了哦

解決辦法:

這裡用到了bulingbuling的：COCA

美國當代英語語料庫

意思就是我們把字幕過了一遍，人家把美國當代所有傳記、小說、影視作品、新聞等等過了一編

意思就是這裡面的排序是嚴格的按照文學作品中單詞出現的概率

意思就是前面的簡單你可能都會

看看人家的風格

嘛，為了篩選這些單詞，我用到了excel這個666的工具

首先把文件導入

數據選項卡——自文本——選中文件（out.txt）——

然後就這樣了：

後面我們統計的詞頻，，刪掉刪掉

然後用VLOOKUP函數

不會的百度，或者我這有現成的……

=VLOOKUP(C1,B:D,3,FALSE)

此函數中的參數僅適用於本教程，一丟丟都不能改……

那麼E這一列就是在COCA中查詢出來的排序，數字越小越簡單

其中#N/A是沒查到，一般是過去式，正在進行時這種變形

沒啥辦法，不要了唄

再用一個if函數把小於某個值的刪掉（太簡單了，不要！）

=IF(E1>1339,D1, )

這裡這個「某」我設的是1339

沒有什麼別的原因，背到這了，可以隨便改，隨便改。

可以看到好多詞都因為太簡單被斃掉了

F列里剩下來的，我都不認識……

隨隨便便排個序，把單詞們都挑出來

可以背啦

真是騷操作……

以下是最後處理結果：P

單詞進行了對COCA的反查找和排序，思路都一樣……