使用R抓取電影劇本

由於研究需要,最近在網上抓了一批電影劇本。代碼是用R寫的,我把它放到了Github上,有需要的朋友可以參考。

Download Film Scripts from Springfield Springfield

嚴格地說,抓取到的不是完整的劇本(screenplay),而是dialogue script。所有dialogue script都來自Springfield! Springfield!。這是一個英國的愛好者網站,上面一共有兩萬兩千多個劇本。

如果想要研究完整的screenplay,可以去The Internet Movie Script Database (IMSDb)。號稱是互聯網上最大的劇本資料庫,大概有一千多個樣本。Github上有人貢獻了腳本。JoeKarlsson/movie-script-scraper或者j2kun/imsdb_download_all_scripts。選擇還有很多,在Github上搜索便知。


----4月10日更新----

更新了一下代碼,現在不用倒霉催地湊劇本鏈接地址了。直接用rvest中的html_attr()函數可以提取鏈接。

修改之前,名字相同的電影,如果被翻拍多次,只能抓到一個劇本。現在全部可以抓到。

推薦閱讀:

TAG:R編程語言 | 學術研究 | 數據 |