使用R抓取電影劇本
04-27
由於研究需要,最近在網上抓了一批電影劇本。代碼是用R寫的,我把它放到了Github上,有需要的朋友可以參考。
Download Film Scripts from Springfield Springfield
嚴格地說,抓取到的不是完整的劇本(screenplay),而是dialogue script。所有dialogue script都來自Springfield! Springfield!。這是一個英國的愛好者網站,上面一共有兩萬兩千多個劇本。
如果想要研究完整的screenplay,可以去The Internet Movie Script Database (IMSDb)。號稱是互聯網上最大的劇本資料庫,大概有一千多個樣本。Github上有人貢獻了腳本。JoeKarlsson/movie-script-scraper或者j2kun/imsdb_download_all_scripts。選擇還有很多,在Github上搜索便知。
----4月10日更新----
更新了一下代碼,現在不用倒霉催地湊劇本鏈接地址了。直接用rvest中的html_attr()函數可以提取鏈接。
修改之前,名字相同的電影,如果被翻拍多次,只能抓到一個劇本。現在全部可以抓到。
推薦閱讀: