瑞銀預測德國贏,高盛「賭」巴西,誰才是世界盃預測之王?
來自專欄 DeepTech深科技11 人贊了文章
人類天生對於未來可能會發生的事一直有很濃厚的興趣,古代有夜觀天象的預言家,當代則有各式各樣的預測方式如統計分析、大數據、人工智慧,最近全球最火的預測莫過於在俄羅斯開打的 2018 FIFA 世界盃足球比賽,哪個國家會踢進前四強,誰又能奪下本屆冠軍?球迷、預測或分析機構也各有擁護者,德國、巴西、法國、西班牙都是被點名最有機會奪冠的國家。
知名投資銀行瑞銀(UBS)使用評估投資機會的計量經濟學工具,預測本屆世界盃冠軍,發現有 3 支強隊最有機會拿到冠軍,分別是德國、巴西和西班牙,其中又以德國隊勝率 24% 最高,領先巴西的 19.8%、西班牙的 16.1%。
而高盛集團(Goldman Sachs)則強調運用 AI 預測,以球隊和球員的比賽歷史,建立 20 萬個模型、運算超過 100 萬場模擬比賽,預測曾勇奪 5 次世界盃冠軍的巴西隊奪下本屆冠軍的機率最大,其次則為法國和德國,但並不看好其他呼聲很高的阿根廷、西班牙。另外,奧地利因斯布魯克大學(University of Innsbruck)的研究人員則統計 26 家博弈公司的數據,預測巴西奪冠機率最高、其次為德國和西班牙。
但撇除 AI 或大數據,身為專業人士或是內幕者(Insider)又是怎麼看?在全球擁有龐大粉絲的阿根廷足球明星梅西(Lionel Messi)接受阿根廷 FOX 電視台的採訪時,儘管身負為國爭冠的壓力,但他仍非常理性地說:「基於現實情況,包括比賽本身以及時機時間,我們(阿根廷)不是這次世界盃的熱門,我覺得巴西、西班牙、德國和法國,他們才是這次世界盃的熱門。」
未來,仍然是個未知數。
那麼,究竟哪個國家會踢進前四強,誰又能奪下本屆冠軍?在預測上,我們已經無法指望章魚保羅了。
沒了章魚哥,但我們仍有「數據水晶球」
在預測市場,運動賽事一直是非常熱門的議題,大夥肯定都記得生活在德國奧伯豪森(Oberhausen)水族館的章魚保羅,在 2010 年南非世界盃成功連續預測 8 場比賽。
儘管「名留青史」的章魚哥已離開世間,人們還是可以從「數據」做成的水晶球來預測賽事,強調用科學來說話,特別是在上屆的世界盃,谷歌、微軟、百度曾都公布自家的預測,哪一個巨頭的模型比較神准也成了世界盃的場外賽,再加上近兩年人工智慧席捲全球,目前在 GitHub 上就可以找到不少關於 2018 世界盃的開源預測工具,也有人在 Medium 上分享自己以機器學習建立預測模型的教學。
對於運動賽事的預測一般會怎麼做?DT 君採訪了幾位受訪者,包括任職於運動賽事分析網站的大數據專家(該網站是利用數據預測賽事,並將預測報告販售給會員)、曾親身寫過運動比賽預測模型的 AI 區塊鏈初創公司首席技術官(CTO)等人,歸納出作法。
一般來說,會使用以下主要數據:歷屆世界盃的賽事紀錄,包括贏/輸/平局、進球區域/時間/射手+助攻,比賽當天的主客場、天氣狀況、世界盃上場球員近期在職業隊的對戰表現、以及球迷的熱情度等。
在數據獲取部分,全球也有幾家大型的運動賽事數據公司,像是歐洲最權威的體育數據供應商 OPTA、或是互聯網博彩平台 Sportradar 等,它們長期搜集各種運動項目和球員的賽事結果,想要分析或預測的人可以向這些數據商購買完整的數據。
但是,如果不想花大錢,通常就是自己寫爬蟲程序,在互聯網上抓取各種數據。之後再利用購買的或是自己抓取的數據,清理好之後再寫進資料庫(Database),建立預測模型。不過,自己抓取數據容易有一項問題,「資料庫沒有的,整理成本比較高,錯漏多,有時寧可不用,」受訪者說。之後,演算法會根據喂進來的數據,自動調整其權重比例,建立出一個預測模型。
谷歌在上一屆也就是 2014 年的世界盃,建立統計模型並使用機器學習來預測賽事結果。Google 建構的模型則包含了以下幾個數據源:一是 OPTA 的數據,涵蓋了職業足球聯賽的多個賽季、世界盃的小組賽,二是自家工程師建構的實力排名,三是前往巴西球賽現場加油的粉絲數量,由於運動賽事中主場優勢(home team advantage)是相當重要的因子,因此谷歌透過此數據來取代模型中簡單的主場優勢。當年穀歌在 16 強的 8 場比賽全部命中,但在預測誰能踢進前四強時,則錯了一場德法之戰。
人工智慧 VS. 群體智慧
運動賽事是能創造高經濟效益的商業活動,其中北美的職業籃球 NBA、棒球 MLB、橄欖球 NFL、冰球 NHL,歐洲的足球五大聯賽(西甲、德甲、英超、法甲、意甲)、每年一度的歐冠杯,在全球更是擁有廣大的觀看族群,正因為商機誘人,自然就有人玩起金錢遊戲如博彩。
而利用大數據或機器學習演算法,可以說是目前預測/投注市場的主流,但就算如此,大數據預測對「世界盃」可能不見得那麼靠譜,「世界盃的預測難度非常高,模型很不好做,」專賣體育賽事預測報告給客戶的大數據專家這麼告訴 DT 君。
世界盃預測之所以困難的最大原因:情況差異大,推論易有偏差。不同於足球職業隊每年的賽程時間、對戰球隊、上場的球員都有很高的一致性,世界盃是每四年才舉辦一次,8 年、4 年前的世界盃跟現在的情況幾乎不一樣,包括參加的國家隊、每個球隊的 11 位球員、主客場等,而且這些球員很少一起比賽,不熟悉彼此的套路,就算是參加多屆的球員,隨著年紀變化,現在的體力也跟過去比賽時的情況不同,儘管在分析時使用了很多的歷屆的數據,「但用歷史資料推未來,容易有 bias(偏差), 」受訪者表示。
他進一步解釋,運動賽事的預測模型並沒有所謂的標準,要抓取哪些數據完全是見仁見智,例如有人認為歷史賽事、主場優勢是關鍵,有人則相信球迷在社交網路上的討論度才是新一代且準確的分析數據,儘管使用相同的數據,但也會因為演算法設計差異,跑出不同的預測答案。「如果只是自己想試試、預測好玩的可以,但我們的預測報告是要賣錢的,明知道預測準確度不高就不會給客戶,因為沒有人會想砸自己的招牌,」他很直白地說。
其實,這種看法並非無中生有或是嘩眾取寵,其他公司先前也指出類似問題,谷歌在上屆預測德法之戰失準時,曾在官方博客上表示:「世界盃球隊特別難以建模,因為上場的球員很少一起打球.... 如果數據是一個好模型的命脈,我們則苦於缺乏更多信息。」
另外,參與上屆世界盃預測,勝率超越谷歌的微軟也曾表示,世界盃的預測很複雜。不同於谷歌是從賽事數據衍生出歸納模型,Bing Predicts 平台能預測更準確的原因之一是仰賴博彩網站上的投注結果。
微軟模型的數據源很多元,包括資格賽、其他國際比賽中贏/輸/平局的紀錄。並且調整了幾個會使一個球隊比另一個球隊更具優勢的因素,像是包括比賽地點(因為主場優勢是已知的偏見)、比賽場地(如混合草地)、時間、天候等。但更重要的是,微軟還使用了投注市場的數據,「這使我們能夠調整輸贏的概率,這是基於人們下注的結果,也就是『群體智慧』(wisdom of the crowds)現象」。
微軟解釋,每一項預測往往會使用不同的數據池,這些數據組合通常是民調、歷史結果、互聯網投注數據,常規收集的統計數據、以及用戶生成的數據。例如,美國職棒 MLB 常規賽季可以獲得大量的數據,但是世界盃足球賽沒有這種積累,因此通過人群參與來創造新數據是合理的作法。
群體智慧一詞因知名專欄作家 James Surowiecki 寫的書 ——《群體智慧》(The Wisdom Of Crowds)而被大眾廣為討論,他在書中探討一個貌似很簡單、但實質上卻很複雜的想法:一大群人比一小群精英分子還聰明,前者更擅長解決問題、做出智慧決策、甚至能更準確地預測未來。這種依靠群眾智慧來預判事件發展結果的概念,被應用在不少的「預測」上,特別是人們的網路活動和社交數據,包括選舉預測、知名的歌唱大賽、選秀節目、股票走勢、運動賽事等。
人人可以發起在區塊鏈上的預測事件
世界盃的熱潮也為預測市場(Prediction Market)帶來龐大的商機,但不同以往的是,今年多了區塊鏈公司入局。
什麼是預測市場?簡單來說,預測市場是指人們對有明確結果的未來事件進行預測的平台,並且仰賴上述「群體智慧」的觀念,即在足夠多個人的參與下,整個群體的平均答案比任何一個專家或專家小組的平均答案要準確得多。另外,一般會認為,預測市場的每一個可能結果的價格在一定程度上反映了結果發生的概率。
但不同於現有的預測市場多為集中式,由單一的組織或公司來設定預測事件或是獎勵的多寡,或是有地域性的限制,例如僅供特定地區如歐洲或美國的居民才能參與,而區塊鏈預測公司就是強調去中心化,像是第一個基於區塊鏈的預測市場平台、以太坊的創始人 V 神擔任顧問的公司 Augur、矽谷的初創公司菩提(Bodhi)等,這些公司向全世界人民開放、任何事件都可以創建,也就是說,任何一個人都能夠在該平台上創建一個預測事件,同時,人們可以為自己看好的結果進行預測,並從結果中獲得獎勵。
另外,國內的維基鏈(waykichain)也發布維基鏈競猜 DAPP,官方贈送遊戲幣,無需用戶出資購買。該遊戲幣亦不與任何法幣或者數字貨幣進行兌換,用戶在競猜遊戲中贏取的遊戲幣可以參與積分排名。
像是部署在量子鏈上的 Bodhi 目前已經約有 20 個關於今年世界盃的預測事件,例如第一場揭幕賽俄羅斯對戰沙特誰會贏、6 月 16 日葡萄牙首戰就迎擊西班牙,伊比利亞半島兩兄弟誰能獲勝等,都已經有不少球迷參與預測。
圖|今年世界盃第一場揭幕賽俄羅斯對戰沙特,多數人看好俄羅斯。結果出爐後,就會透過區塊鏈自動交易
簡單來說,用戶在 Bodhi 平台上創建預測事件,並使用 QTUM 幣預測,並對每個結果的概率定價,當未來指定的時間到達時,信息中介(Oracle)將會自動從外部獲取事件的結果,並確定該預測事件的結果。
Bodhi 創始人林嚇洪曾任職騰訊、Twitter,和多數程序員或開發者一樣,是早期就開始接觸比特幣的人,「早期區塊鏈沒有基礎建設,一直到了今年初看到市場整個大熱,現在是區塊鏈應用的一個起始點」,林嚇洪接受 DT 君專訪時表示,Bodhi 平台上線 1 個月,目前有 100 個錢包(可以想成是 100 個用戶),創建了超過 20 個事件,參與預測的資金約有 1 萬個 QTUM 幣,換算市場價值大約是 10 萬美元。
但是,目前區塊鏈預測平台的進入門檻仍偏高,參與者必須擁有加密貨幣錢包之外,平台的使用體驗仍有不小的改善空間,例如,下載 DAPP 程序以及進入系統時的等待時間較長。
圖|任何人都可以在區塊鏈預測平台上創建想要預測的事件,世界盃的火熱也在區塊鏈世界燃燒
問問 Siri 吧
群體智慧與人工智慧被視為是中立的預測方式,不過大數據公司 Optimove 在其博客就發表了一篇《群體智慧:我們可以預測世界盃的結果嗎?》的文章,他們以 2014 年世界盃賽事、超過 7 億筆投注紀錄來分析,試圖了解群體智慧是否能帶領出正確的結果。
但 Optimove 研究實驗室負責人 Omer Liss 認為,投注網站的賠率、以及支持自己國家的情緒心理,還是有可能性會影響參與者的觀點,最終下的結論是:即使擁有眾多的智慧,也很難預測比賽的未來。
確實,對於未來之事沒有人能說得准,當 DT 君思考著誰能贏得世界盃這個極困難的問題時,決定請教身旁 iPhone 里的 Siri,它保持一慣讓人摸不著頭緒的態度,只願回答比賽時間跟地點,或許也應該問問 Alexa、Cortana、小愛、還是天貓,如果有讀者試了,還請分享下答案吧。
推薦閱讀:
TAG:體育 | 世界盃WorldCup | 德國 |