豆瓣一共收錄了多少部電影?

誰知道大概的數目?幾萬、十幾萬還是幾十萬?


首先放結論: 估計15.3萬電影條目 數據截至2016.5.14
-----------------------------MethodResult---------------------------------
前陣子發現豆瓣的工程師把排行榜功能「優化」了一下,很多原來能輕鬆實現的篩選功能反而被閹割了,於是惡向膽邊生,決定爬取他們所有的電影資料做自己的資料庫。一開始嘗試根據豆瓣的電影id遍歷所有數字組合,但爬了一萬多條後發現特么的居然不少id是8位數,果斷放棄,轉而根據tag爬取。由於年份標籤爬出來的數據重複多到嚇死人(比如2015標籤下面有22000多條數據),最後選定了根據電影屬性標籤的檢索方式(劇情、驚悚、紀錄片,等等……)。

考慮到爬一次數據耗時漫長,何況校園網流量還不便宜,所以我花了不少功夫研究豆瓣網頁的數據結構,盡量能一次獲取所有我感興趣的參數,從而可以在今後方便地根據各個欄位篩選電影。我最後從爬取的頁面里截取了年份、評分、評價人數、熱門標籤、劇情簡介甚至對應imdb鏈接等數據,這也保證了最後去重工作的準確性。

經過長達十多個小時不間斷的爬取,遍歷了四十多個最熱門關鍵詞下的電影列表,最終得到了35.5w條電影數據,根據豆瓣ID/標題/imdb鏈接3重去重複項步驟後,剩下14.5w條不重複的電影數據。

由於是根據其他用戶貼的tags進行檢索,肯定還是會有一些由於過於冷門無人標註過電影被漏掉,為了得知到底有多少電被遺漏,我用一段容量為1w的連續的電影ID序列進行了檢驗,即假設冷門電影的id分布是隨機的,看這段連續ID序列中有多少部電影沒有被爬取到,結果顯示我爬取到的14.5w條電影數據基本覆蓋了95%的已收錄電影,而剩下的5%全部都是非常冷門,幾乎無人觀看和添加標籤的影視作品。所以,根據這一結果可以判斷,豆瓣當前收錄了大約15.3w條電影條目。

此外,樓上貼的00-15年豆瓣電影條目數分布圖有低估的可能,因為根據我的數據看應該是下圖這樣的,10~15年大約平均每年7000多部的樣子。(圖裡最右邊柱子是豆瓣收錄的2017年電影數量)有可能數據不斷添加導致的變動,或者是爬取方式和數據處理的問題。

附送豆瓣評分頻數分布圖:橫軸是平均分,縱軸是得到對應評分的電影數量,均值7.1分。


最近在做數據挖掘,需要測試一個檢測水軍的演算法模型,所以從豆瓣爬了一些數據集。

我跟樓上的爬法不太一樣,我是從電影的影評中去抓用戶,目前還在爬,大概抓了7000個這樣的用戶,然後從這些用戶「看過」的電影中再去抓取電影信息。由於這些寫影評的用戶不少是資深的影迷(有一個用戶看過的列表高達7000部,1000+的更是不計其數),所以看過的電影涵蓋了各種大眾小眾電影(至少我能想到名字的基本上都已經覆蓋到了),現在還在爬(寫個期末項目容易嘛~),目前來看總條目應該在5萬到10萬左右。


20000部左右
豆瓣條目鏈接subject後面的數字不區分書影音,所以想直接從那個數字得到真實的條目數比較困難,不過可以考慮先以那種方式得到總條目數,再通過隨機輸入subject後數值的方式試驗幾百個得到電影條目的比例,我這先介紹個另類的方法。

豆瓣電影條目一般都是用戶添加的,由此幾乎每部電影都會有人做標記並給出標籤,基本的標籤包含製片國家和影片類型、年代等信息,所以我通過標籤的交叉對比進行了以下計算:
說明:查詢一個標籤可以看到包含該標籤的所有電影,查詢兩個標籤可以看到同時包含該兩個標籤的所有電影;
以下比例以查詢頁條目頁數計算,其中每頁包含20個條目;
範例:包含「美國」標籤的:http://movie.douban.com/tag/%E7%BE%8E%E5%9B%BD?type= ;
包含「美國」及「愛情」標籤的:http://movie.douban.com/tag/%E7%BE%8E%E5%9B%BD%20%E7%88%B1%E6%83%85?type= ;
(1)
「美國」中包含「愛情」的為100/410
「香港」中包含「愛情」的為40/126
「日本」中包含「愛情」的為45/186
從上面可以看出一部電影被標註為「愛情」的可能性大概為0.25,而包含「愛情」標籤的電影數量為260頁,因此電影總數大概是1000頁。
(2)
「愛情」中包含「美國」的為100/260
「喜劇」中包含「美國」的為100/254
「動畫」中包含「美國」的為77/167
從上面可以看出一部電影被標註為「美國」的可能性大概為0.4,而包含「美國」標籤的電影數量為410頁,以這種方式算出來的電影總數也大約是1000頁。

以上兩種方式算出來的都是接近1000頁,即20000部左右。

備註:
1、以上計算包含基本假設:幾乎所有的電影都擁有標籤。
2、計算所選取的標籤是最熱門的,樣本量較大,結果的置信程度也相對較高,但還是有較大風險。


豆瓣電影黃福建日前告訴我:現在有39萬的影片條目,影人有40多萬條。


最近因為一些統計需求,粗略地爬了一下豆瓣的電影數據。
按照熱門tag去抓取前200部電影。在此基礎上,可以做個大體的估算。

爬到後面的tag,基本前200部里已經沒有不重複的電影了。所以基本可以認定,熱門的電影大部分已經收錄:
豆瓣「看過」數在10000以上的,大約是5000部
「看過」1000以上的大約是15000部
1000以下的,我抓到了20000多部

另外,對於「愛情」tag,我抓去了全部電影:
10000以上的3000多部
1000以上的10000多部
1000以下的17000多部

抓取的過程中發現,一般意義上的「電影」,除了很小眾的,「看過」人數都在1000以上。
1000以下的大多是短篇、微電影,甚至廣告,電視節目等。而且這些大多分布在不同tag的後面,不同tag間的重複較小,大部分沒有被抓到。

綜合上面的數據,再考慮抓取時對於小眾電影的遺漏,推測豆瓣的真正電影數在20000多,而所有加上各種的「影片」數,應該在六位數。基本符合前面幾個答案的說法。

具體前因後果,代碼和結果,可見:
「一道大數據習題」豆瓣評論最多的三千部電影


剛好看到這個問題,首先抱歉的說明我也沒有具體答案,寫別忙著閃人,雖沒有確切答案,但是剛好最近我們獲得了豆瓣2000年至2015年的電影數據,這裡可以給一個部分確切的答案和一個估計總數的方法,另外提醒一個能夠獲得確切答案的方法。

首先說一下我們的數據來源,我們採集了豆瓣2000年至2015年所有帶有年份標籤的數據,大家應該很容易明白,豆瓣的電影都是以標籤分類的,比如2015年標籤地址如下:關於2015的影視 (豆瓣),有人會損大竹的數據有重複的,沒錯,我們後期進行了去重合併處理。

下面回歸正題,2000年-2015年,我們共採集到了46269部電影(數據截止時間為2015年5月22日),包括所有在這個時間段的所有國家,需要申明的是如果電影名稱相同而演員導演等其他電影屬性都不相同,我們將其記為不同的電影。

所以第一個部分答案已經給大家了,那麼我們看看怎麼估計總數,從這16六年的趨勢很容易發現這是一個線性回歸就能初步估計出結果的問題,當然你也可以選擇時間序列去建模,至於結果可以自己去嘗試一下,古老的excel都能完成這個任務,看你估計到什麼時辰,需要提醒一下中國第一部電影《定軍山》拍攝於1905年。無論你怎麼估計夠可以對比出與其他答案的差距,沒辦法,誰叫咱是實證主義呢!簡單點按照2000年以後每年1000至40年代,即可估計出個大概。

為了以防樓主還有相關問題,我把各國在這16年,確切的說不足16年,在豆瓣上各國的電影總數分布一併附在下面,為了方便大家把數據拿來重新利用,把具體的數值顯示出來是很有必要的。你沒有看錯,果然是老美最多,其次是日本,然後才是天朝上國,令人吃驚的是韓國竟然沒有趕超英美,豆瓣各國粉絲成分可見一斑。

對不起沒有將所有國家的數據全部放出來,因為圖放不下,天很晚了我有沒時間去思考怎麼放。什麼你想知道哪國電影整體水平最牛逼?沒辦法,我是不會寫出來的,你可以參考另外一篇文章:「大數據」吐槽大陸電影:真的沒那麼糟糕?

獲得確切答案的方法就是繼續採掘下去,一直把所有的年份標籤採掘完,提醒大家盡量不要按照電影的其他屬性採掘,你會發現去重很麻煩,自然會獲得最後的答案,這裡不能去詳細講述採掘過程,我們會在微信公眾號近期發出這篇技術類文章,你可以關注我們的微信號:dayinrushuang或掃描下方二維碼。如果需要2000年-2015年數據也可以聯繫我們。不錯,你沒有看錯,打了一次小廣告。


加上大約1.5w部電視劇,movie下至少有6.3w部,因為豆瓣的電視劇也在movie路由下面,真實的電影大約有4.8w+多部。

爬了 豆瓣電影標籤 所有的電影,根據 id 去重後下載了 63000+ 個 html 文件,大約 4.4G。


今天(2017/9/4)爬取了豆瓣電影數據,整理後共53020條,可能會有偏差,但差距應該不大。下面是統計方法。

首先,我選擇了電影分類,(其它形式應該不算電影?),選擇全部類型

這時會有一個非同步請求

打開這個請求,range 是評分範圍,tags是標籤,不用管它,start 相當於翻頁了,每次20條,所以值應該是 0,20,40... 然後循環這個值查下去就行了。

嗯,中間出了幺蛾子了,如下圖,這個 start 最多只能到 9980,所以只能在 range 上做限制了。

沒錯, range 是支持小數的

之後我們開始愉快的爬取了(沒有一個評分段是超過9980的)。

最後結果出來了,53020 條。

是不是這樣就結束了呢?沒有,我又遇到一個問題。

什麼形式算是電影?演唱會算嗎?因為在電影-&>音樂 分類下有很多的演唱會;連續劇形式的動畫片算嗎?動畫分類下有大量的連續劇。傳記算嗎,只有10幾分鐘的短片算嗎?

所以結果應該小於 53020

9月20日更————————————————————————————————

下面是對這5萬多條數據進行的統計(對數據進行了一些手動修正)


以前爬過一次。在6位數這個級別,肯定不可能百萬級別。


中國電影資料館收藏了兩萬七千多部,所以一樓的兩萬的數目是滿靠譜的。但是豆瓣的電影條目包含太多,短片電視劇動畫甚至廣告都有,所以具體電影數目很難篩選


25000部


並不比別的網站多,只是電影類型有所差異!


推薦閱讀:

為什麼港台的好萊塢電影譯名那麼俗氣?
電影《超脫》中,導演托尼·凱耶想要表達什麼 ?
如何看待由鍾漢良導演,韓寒監製的電影《沙漏》?
被黑了这么久的郭敬明,能凭借新片《爵迹》翻盘吗?
字幕組在聽譯美劇/電影時 是怎麼聽出那些非常冷門/專業性強的辭彙的?

TAG:電影 | 演算法 | 豆瓣電影 | 豆瓣 |