用美劇!背單詞!看懂大片以及搞定單詞的完美方案
嘛,說到底看美劇學英語就是為了找語感,聽懂人家說話,順道背背單詞嘛。
多圖殺貓,請慎重滾動
工科生,會寫代碼的工科生。
是醬紫用美劇背單詞的:
《Forrester Gump》 阿甘正傳
目的:對影片台詞中出現的所有單詞:統計詞頻、篩選、印出來……
本文附了全套解決方案!!!
1、資料搜集:
百度/google:阿甘正傳字幕
download:http://tu.zmzjstu.com/ftp/attachment/200910/30/319308_125688533985d8.rar
下載下來是這樣的:
所以,這種格式怎麼打開???
按照通俗的理解,歌詞的lrc格式可以用記事本打開so:
城裡人套路深,套路深……
2、文本處理
既然要對英文部分進行分析,那麼時間軸、中文序號部分就不能留下
這裡用到了萬能的word
直接把文本Ctrl+C Ctrl+V進隨便一個doc文件:
嘛,也就兩百多頁嘛,,不怕不怕
word自帶功能:查找、替換
分別把以下內容輸入到文本框,點全部替換
- ^#^#:^#^#:^#^#,^#^#^#
- -->
- [!^1-^127]
- ^#
說明:前兩個分別對應的是:
第三個則負責刪除所有漢字
第三個在用的時候把(使用通配符)打上勾
第四個是把所有剩下的數字刪掉(序號)
在刪除掉這兩部分之後,一定會留下許多的空行(連續好幾個空行那種)
解決方法如下
每一個^p就像按一次回車,這組替換就是把兩個空行刪到沒有空行
更多的,或者更少的調整可以以此類推
至於剩下來的「!」「?」「。」這類
替換掉就好了,方法同上
因為是漢字的全形符號,不會一起把英文部分的刪掉的
最後得到的大約是這樣的內容:
哇,全是句子……
哇,我都不認識……
3、敲代碼!!!
這裡用到的計算機語言是:Python!!!
沒錯,就是那個小學生都要學的python!!!
代碼塊:#-*-coding:utf-8-*-import stringimport timepath=2.txtf = open("out.txt", "w")with open(path,r) as text: words=[raw_word.strip(string.punctuation).lower() for raw_word in text.read().split()] words_index=set(words) counts_dict={index:words.count(index) for index in words_index}for word in sorted(counts_dict,key=lambda x:counts_dict[x],reverse=True): # time.sleep(2) f.write ({} {}
.format(word,counts_dict[word]))f.close()好簡單是不是!!!
這裡的代碼非原創,是在@ zhangxiaomei1952 的blog of CSDN 上扒下來的
並做了一些有利於使用和後期處理的改動
把大佬供起來:
用python做詞頻統計 - CSDN博客(原代碼鏈接)
首先注意一下time.sleep:
# time.sleep(2)
我把它注釋掉了,,簡直滅絕人性,輸出一個歇兩秒……
使用方法:
在.py文件同一目錄下創建一個叫2.txt的文本文件,把剛才處理好的字幕文本複製、粘貼進去
運行!!!
在2.txt旁邊出來了一個out.txt
單詞——出現次數
簡單且粗暴(粗♂暴♂)
4、事後煙……
問題來了,這前面的我都會啊,,這我再看一遍還背個毛線了哦
解決辦法:
這裡用到了bulingbuling的:COCA
美國當代英語語料庫
意思就是我們把字幕過了一遍,人家把美國當代所有傳記、小說、影視作品、新聞等等過了一編
意思就是這裡面的排序是嚴格的按照文學作品中單詞出現的概率
意思就是前面的簡單你可能都會
看看人家的風格
嘛,為了篩選這些單詞,我用到了excel這個666的工具
首先把文件導入
數據選項卡——自文本——選中文件(out.txt)——
然後就這樣了:
後面我們統計的詞頻,,刪掉刪掉
然後用VLOOKUP函數
不會的百度,或者我這有現成的……
=VLOOKUP(C1,B:D,3,FALSE)
此函數中的參數僅適用於本教程,一丟丟都不能改……
那麼E這一列就是在COCA中查詢出來的排序,數字越小越簡單
其中#N/A是沒查到,一般是過去式,正在進行時這種變形
沒啥辦法,不要了唄
再用一個if函數把小於某個值的刪掉(太簡單了,不要!)
=IF(E1>1339,D1, )
這裡這個「某」我設的是1339
沒有什麼別的原因,背到這了,可以隨便改,隨便改。
可以看到好多詞都因為太簡單被斃掉了
F列里剩下來的,我都不認識……
隨隨便便排個序,把單詞們都挑出來
可以背啦
真是騷操作……
以下是最後處理結果:P
單詞進行了對COCA的反查找和排序,思路都一樣……
推薦閱讀:
※Mathematica將待整理圖片重命名為生詞
※背英語單詞比較不錯的APP
※高效背單詞1——如何自己製作單詞音頻及高效使用
※100個句子背完7000個托福單詞?
※墨墨前進365天