標籤:

用美劇!背單詞!看懂大片以及搞定單詞的完美方案

嘛,說到底看美劇學英語就是為了找語感,聽懂人家說話,順道背背單詞嘛。

多圖殺貓,請慎重滾動

工科生,會寫代碼的工科生。

是醬紫用美劇背單詞的:

《Forrester Gump》 阿甘正傳

目的:對影片台詞中出現的所有單詞:統計詞頻、篩選、印出來……

本文附了全套解決方案!!!

1、資料搜集:

百度/google:阿甘正傳字幕

download:tu.zmzjstu.com/ftp/atta

下載下來是這樣的:

所以,這種格式怎麼打開???

按照通俗的理解,歌詞的lrc格式可以用記事本打開

so:

城裡人套路深,套路深……

2、文本處理

既然要對英文部分進行分析,那麼時間軸、中文序號部分就不能留下

這裡用到了萬能的word

直接把文本Ctrl+C Ctrl+V進隨便一個doc文件:

嘛,也就兩百多頁嘛,,不怕不怕

word自帶功能:查找、替換

分別把以下內容輸入到文本框,點全部替換

  • ^#^#:^#^#:^#^#,^#^#^#
  • -->
  • [!^1-^127]
  • ^#

說明:前兩個分別對應的是:

第三個則負責刪除所有漢字

第三個在用的時候把(使用通配符)打上勾

第四個是把所有剩下的數字刪掉(序號)

在刪除掉這兩部分之後,一定會留下許多的空行(連續好幾個空行那種)

解決方法如下

每一個^p就像按一次回車,這組替換就是把兩個空行刪到沒有空行

更多的,或者更少的調整可以以此類推

至於剩下來的「!」「?」「。」這類

替換掉就好了,方法同上

因為是漢字的全形符號,不會一起把英文部分的刪掉的

最後得到的大約是這樣的內容:

哇,全是句子……

哇,我都不認識……

3、敲代碼!!!

這裡用到的計算機語言是:Python!!!

沒錯,就是那個小學生都要學的python!!!

代碼塊:#-*-coding:utf-8-*-import stringimport timepath=2.txtf = open("out.txt", "w")with open(path,r) as text: words=[raw_word.strip(string.punctuation).lower() for raw_word in text.read().split()] words_index=set(words) counts_dict={index:words.count(index) for index in words_index}for word in sorted(counts_dict,key=lambda x:counts_dict[x],reverse=True): # time.sleep(2) f.write ({} {}
.format(word,counts_dict[word]))f.close()好簡單是不是!!!

這裡的代碼非原創,是在@ zhangxiaomei1952 的blog of CSDN 上扒下來的

並做了一些有利於使用和後期處理的改動

把大佬供起來:

用python做詞頻統計 - CSDN博客(原代碼鏈接)

首先注意一下time.sleep:

# time.sleep(2)

我把它注釋掉了,,簡直滅絕人性,輸出一個歇兩秒……

使用方法:

在.py文件同一目錄下創建一個叫2.txt的文本文件,把剛才處理好的字幕文本複製、粘貼進去

運行!!!

在2.txt旁邊出來了一個out.txt

單詞——出現次數

簡單且粗暴(粗♂暴♂)

4、事後煙……

問題來了,這前面的我都會啊,,這我再看一遍還背個毛線了哦

解決辦法:

這裡用到了bulingbuling的:COCA

美國當代英語語料庫

意思就是我們把字幕過了一遍,人家把美國當代所有傳記、小說、影視作品、新聞等等過了一編

意思就是這裡面的排序是嚴格的按照文學作品中單詞出現的概率

意思就是前面的簡單你可能都會

看看人家的風格

嘛,為了篩選這些單詞,我用到了excel這個666的工具

首先把文件導入

數據選項卡——自文本——選中文件(out.txt)——

然後就這樣了:

後面我們統計的詞頻,,刪掉刪掉

然後用VLOOKUP函數

不會的百度,或者我這有現成的……

=VLOOKUP(C1,B:D,3,FALSE)

此函數中的參數僅適用於本教程,一丟丟都不能改……

那麼E這一列就是在COCA中查詢出來的排序,數字越小越簡單

其中#N/A是沒查到,一般是過去式,正在進行時這種變形

沒啥辦法,不要了唄

再用一個if函數把小於某個值的刪掉(太簡單了,不要!)

=IF(E1>1339,D1, )

這裡這個「某」我設的是1339

沒有什麼別的原因,背到這了,可以隨便改,隨便改。

可以看到好多詞都因為太簡單被斃掉了

F列里剩下來的,我都不認識……

隨隨便便排個序,把單詞們都挑出來

可以背啦

真是騷操作……

以下是最後處理結果:P

單詞進行了對COCA的反查找和排序,思路都一樣……


推薦閱讀:

Mathematica將待整理圖片重命名為生詞
背英語單詞比較不錯的APP
高效背單詞1——如何自己製作單詞音頻及高效使用
100個句子背完7000個托福單詞?
墨墨前進365天

TAG:背單詞 | 美劇 |