微軟大數據專家對於第 86 屆奧斯卡金像獎進行預測並有高準確率,從技術角度看是如何做的?


找不到更多的材料,憑著自己的經驗來亂答一下。
這個預測的理論基礎應該是決策樹或者神經網路,基本思路是以歷屆獲得奧斯卡獎的人和電影作為訓練集,通過訓練集找出獲獎者的特徵(如:年齡、主演電影類型、blahblah,對電影實在不熟悉想不出來更多了)和提名前後的一些活動規律(是否得奧斯卡獎和得其他獎之間有關聯性等等),確定決策樹或者神經網路規則。然後再將當年的提名者輸入進去,計算出每個提名者的分組,在這個基礎上計算獲獎概率。


你們這些凡人根本不知道你們的行為有多麼predictable.


謝邀,但我實在是不懂,只能做一些猜測。

在美國,刑事案件需要由陪審團在庭審後決定某個嫌疑人是否有罪。只要陪審團中有一個人認為嫌疑人無罪或犯罪證據不足以定罪,法官就不能給嫌疑人定罪。而嫌疑人可以對陪審團成員提出異議,因此嫌疑人律師的一項重要工作就是排除陪審團中可能對嫌疑人有偏見的人。

排除陪審團成員的過程實際上和預測奧斯卡的過程相似。人所做的決定看似都很主觀,但確實有一些規律可循,例如一個上流社會的白人可能會傾向於認為貧民窟的黑人是危險的犯罪分子,一個曾受到性侵的女性可能更傾向於認為被指控強姦的嫌疑人有罪。因此,奧斯卡獎項預測者要做的事情實際是在搜集足夠的信息之後所做的數據分析,而分析結果準確與否在於是否獲得了足夠的有用信息,以及是否有效剔除了無用信息。

拋磚引玉,期待高手回答。


對於現在的奧斯卡來說,越來越沒懸念。都知道每年這個時候是好萊塢的頒獎季,在奧斯卡之前有無數的獎,從去年九月開始美國各個城市的影評人獎陸續開始,現在這個數量越來越多,這個在一定程度上已經選好了今年的奧斯卡種子。這一步,可以說是電影品質,及演員演技自身所帶來的榮譽,當然也不乏某些公關手段。接下來才真正進入頒獎季正題,現在所謂的四大風向標,即金球獎,北美廣播影評人協會獎,演員工會獎(還有各個單項工會獎,如導演工會獎,製片人工會獎,化妝工會獎等等),英奧。真正能決定最後奧斯卡提名的就這幾個獎,而且近年來,這幾大獎最後結果幾乎一致。

先看下今年頒獎季戰況總結

這是幾個大獎的總結,可見在奧斯卡之前各個獎項的呼聲都基本成型,如果沒有半路殺出來的電影,即年底上映的,基本上提名已經很穩了。

再看一下真正有價值的四大風向標獲獎情況

結果已經一目了然,現在所有的預測沒有那麼神乎其戶,只要你關注整個頒獎季,你也可以「猜中」。頒獎季所謂的爆冷,並不冷,可以縱觀整個頒獎季,爆冷的也是之前獲得相應的獎項。
像今年,看似競爭火爆,其實基本上都是一家獨大,女主角凱特布蘭切特包攬頒獎季所有女主角,男配也是包攬,男主是四大風向標全部包攬,這裡就可以看出,不是你之前影評人獎得的多就穩了,真正能影響奧斯卡的是四大風向標。最佳影片,外語片,動畫片,都一致。只有女配出現雙珠廝殺的場面,這是奧斯卡一大看點,慢慢剖析其中的原因,你就會發現,最後結果也是意料中。這屆露皮塔和勞倫斯競爭,由於勞倫斯去年才得影后,而且她年紀輕輕,奧斯卡不可能這麼快就讓她連得兩次獎,再加上為奴十二年的最佳影片的強勢呼聲,,露皮塔可謂是竟在掌握之中。

今年整個頒獎季形勢,太過於一家獨大,所以讓奧斯卡顯得很無趣。但又是眾望所歸。這是好事還是壞事?就好像事先把所有獎項預演了一次,只等最後得獎人的得獎感言。

其實整個奧斯卡頒獎季不是我說的這麼簡單。這其中的營銷 ,公關。各個公司背後的爭鬥哪是表面一樣光鮮。

在我今年關注了整個頒獎季後,我個人認為,想要的奧斯卡,2大因素不可或缺,首先必須是影片質量過硬,或者演員演技牛逼,即使電影不算好卻能撐起整部電影,其次是背後的電影公司各種強力公關,這個時光網有過相關新聞。


謝邀。

不了解微軟是怎麼做的,說說如果讓我來做會怎麼做吧,機器學習剛剛入門,大家多多包涵。

這個世界上很多時間的發生都不是獨立的,事情A的發生可能伴隨著很多很多其他BCD等等等事件的發生,這些BCD事件可能是事件A發生的原因,也可能有一個共同的隱藏原因導致了ABCD所有這些事情的發生。很多時候,如果我們需要預測A事件的發生,並不需要知道BCD跟A之間是因果關係還是僅僅是相關關係,就像我們看到螞蟻搬家就知道要下雨了一樣,雖然螞蟻搬家不是下雨的原因,但是從螞蟻搬家的事件能預測下雨這個事件的發生。

回到奧斯卡獎的預測上來,我們並不需要知道一個人獲獎的最根本的原因是什麼,只需要知道一個人獲獎會伴隨其他什麼事件的發生就可以了。這個時候大數據的的作用就體現出來了,我們可以從海量的媒體報道數據、社交網站討論和話題數據、即時通訊內容等等數據中提取出很多有意思的特徵出來,比如預測對象在什麼媒體上被曝光以及評價如何、影評人對預測對象的評價中用了哪些詞、評委在評獎前跟什麼人有過接觸、社交網站上人們談論到預測對象時用了哪些詞語、預測對象在其他獎項上的獲獎情況等等,這裡可以充分的發揮你的想像力。提取到特徵後,對這些特徵進行量化,然後結合往年的獲獎情況和獲獎人的相應特徵,用機器學習的方法訓練出模型,接著把訓練好的模型運用到今年預測對象的特徵上,就可以得到預測結果了。因為微軟擁有海量的數據,能夠獲取到的特徵就多,這樣訓練得到的模型就會更加準確。

周五急著下班先,等想到其他的了再來補充。


謝邀

電影行業具體不了解。
不過做過手機遊戲方面類似的分析。比如這一款遊戲是什麼類型,什麼時期推廣,什麼收費模式,在哪個平台推,風格等等因素,跟之前的遊戲進行綜合對比,會得出一個大致的結論。

奧斯卡頒獎應該是同理。根據過往XX屆的評委傾向,影片風格,上映的市場反響,網評影響態度(個人認為輔以大量影評或者專欄的評論)等因素來進行綜合分析。

具體的分析工具像之前幾位前輩張小二、陳丹奕、說的,建模是個有難度的工作,小的目前還是專注於數據採集方面的工作,這裡不敢妄言。

這裡回答,權當是拋磚引玉。


不太了解電影行業,做過幾個數據挖掘項目,個人感覺這個東西主要分以下幾步:
1、獲取數據,往屆的,現屆的(影評人的數據,電影的相關數據,獲得提名獎的數據);
2、運用數學模型(關聯規則,決策樹或者神經網路等)找到得獎的相似度;
3、參數調整,引入其它數據(如目前的社會經濟,政治,宗教等)建模;
4、運算,輸出結果。


謝邀。和股票有點類似,一大批feature,訓練,用歷史結果矯正。奧斯卡的好處是和股票一樣的,有自標註的特點。


1"找到相關性最強的指標;2"神經網路加灰色預測不斷修正模型;3"給出預測


不了解微軟具體的做法,不過從技術角度講應該就是一個基於機器學習技術的分類器模型,輸入一個電影方方面面的信息(由模型開發者指定),模型可以輸出一個得獎的概率。技術本身沒有難度,工作量主要是在收集和選擇電影的各方面信息上。


他具體是怎麼做到的?
方案?途徑?


把影評,包括文章和用戶評論,獲得描述每部影片的一些詞。再把過往影片跟獲獎情況同樣做分析,估計會有一些詞是有指向性的。電影主要依靠的是評論,模糊東西比較多,詞的分析比較重要。估計要訓練一個影評的分析器。


David M Rothschild, PhD


其實就是抓住奧斯卡評委的口味來分析的。

對最佳影片來說,奧斯卡評委一般喜歡的是如下關鍵詞:奮鬥、努力、特別喜歡用正義的方式來打敗邪惡,而不是以邪惡的方式打敗邪惡。所以《阿甘正傳》就會比《肖申克的救贖》要有優勢。

對明星來說,知乎裡面的分析很多了,總之也是有一定規律的。

通過一定的數據基礎,將本年度的電影風格分解代入,就像解方程一樣,得出結果。

其實這只是一般的趨勢分析,對奧斯卡來說,數據顯然還不夠」大「


細節不了解,但是做法可以猜測。不過好奇的是,訓練數據太少了,這是個問題。另外,個人非常反感一些基本的統計推斷和統計學習的東西,統統搞上「大數據」字樣。


看看優酷的高曉松的《曉說2》第四十七集

  • 用力過猛時代之奧斯卡頒獎

看完,你就知道不用大數據,不用人工智慧,就基本能得出奧斯卡獎的得獎名單了。


擦 這個跟大數據有什麼關係,這個東西有不是老百姓選出來的,都是那幾個評委選的。用評委歷年的口味建一個知識圖譜,今年參選影片搞一個圖譜,求個交集,搞定。估計有個幾M的數據吧


推薦閱讀:

如何系統地學習數據挖掘?
用機器學習的方法來處理大數據,是直接學 Spark,還是重點學習 Hadoop,了解 Spark?
機器學習,數據挖掘在研究生階段大概要學些什麼?
反欺詐(Fraud Detection)中所用到的機器學習模型有哪些?

TAG:數據挖掘 | 數據分析 | 第 86 屆奧斯卡金像獎 |