兩年追蹤170個AI團隊的原型設計:初創公司該選擇做研究還是做外包?

編輯|Emily

AI前線出品| ID:ai-front

卷首語

本文作者在研究驅動型團隊生態系統的過程當中,總結出以下經驗:

1. 研究驅動型團隊在初創領域開始越來越多地扮演生力軍角色。ArXiv 則是新型實現方法模型推廣領域的一大卓有成效的實例。

2. 儘管如此,大多數研究型初創企業仍然作為大型企業的外包研究團隊存在。

為了實現產品與市場間的契合,這些初創企業首先需要專註於數據時間,並在開始測試數據獲取戰略之前保證實現快速迭代。

幫助研究驅動型原型設計團隊成為初創企業帶來的意外收益

兩年之前,一位朋友鼓勵我以導師身份參加柏林 Techstars 首屆選擇日活動。自那時開始,我就一直作為 Techstars 導師不斷幫助「深度技術」(對我個人而言,這一表述專指大規模並行處理(簡稱 MPP)資料庫、人工智慧(簡稱 AI)/ 機器學習(簡稱 ML)以及開源企業)初創企業由原型設計階段順利過渡至產品與市場相契合的層面。在參加柏林 Techstars 首日活動時,我結識了 Rasa 團隊——時至今日,我已經成為 Rasa 團隊的投資人兼運營顧問。Rasa 如今則成長為市場上開源對話 AI 軟體領域的領導者,其去年 12 月推出的首款 NLU 工具已經得到數千家企業的使用。

然而,Rasa 其實屬於一種例外,事實上我所見到的大多數的初創企業仍處於原型設計階段。從定義角度來講,他們的原型設計尚未完成。

原型設計顯然不足以令風險投資商滿意。不過,打造新事物對於初創企業而言,在價值上要高於提供演示或者發布市場研究結論。全程追蹤數十套原型設計方案在特定領域遭遇的難題以及茁壯成長的經歷,正是我不斷完善自己投資水平的主要學習資源。

顛覆性成果距離很遠,但特定應用卻距離很近

舉例來說,從研發角度來講,顛覆性成果似乎已經離我們不遠——歷史上對於 AI 的研發目標一直在於超越人類的智慧水平,並給整個人類社會帶來難以想像的深遠革命。但從另一方面看,第一代聊天機器人給我們帶來的用戶體驗幾乎可以證明,這樣的深遠革命確實夠「遠」。深入觀察,我們只看到了數十款不再以規則為基礎的機器人方案。相比之下,過去兩年當中則出現了超過 170 多種更為出色的原型設計——其確實在一定程度上實現了 AI 超越人類的奇蹟,只不過僅限於特定行業垂直領域內的專業應用,即在非常具體且狹義的任務上實現這樣的效果。

平台並不足以消化這一切

另一項深受認同的論據,認為各大(美國與中國)互聯網平台將在本質上「擁有」多個行業 AI 市場。這是因為「AI 是一類強者愈強的行業:你擁有的數據越多,產品就越好 ; 你的產品越好,能夠收集到的數據越多。」這樣的結論在一定程度上的確屬實,具體包括圖像識別、自動駕駛車輛、語音到文本以及基本上任何人皆傾向得出「正確」答案的應用場景。然而,很多問題並不具備惟一的正確答案。因此如果大家嘗試利用機器學習構建新型內容,或者利用數據學習新的內容,那麼這將建立起完全不同的市場體系,且其中完全能夠容納眾多垂直贏家。

另外,數據本身的作用其實並不像以上論點當中表達的那麼顯著。

根據我所看到的諸多原型設計,我發現利用以往數據進行神經網路訓練其實實踐價值相當有限。

雖然這也許有助於加速初始原型設計,但也就僅限於此了。大型企業可能確實掌握著多年以來的消費者數據與交互記錄,但在對神經網路進行訓練時,其仍然需要從頭開始。初創企業的競爭環境則更令人驚訝。在我看來,財富五百強企業中的大部分都已經意識到,AI 實現方案所需要的數據量要比他們想像的少得多。

除此之外,我還發現這些研究驅動型團隊存在兩大主要趨勢:其一是這些研究型團隊經常受到科學論文平台 ArXiv 社區的啟發,且目前開始邁入初創階段。在大多數情況下,他們都作為大型集團的小規模外包研究型團隊存在。

ArXiv 啟發下的研究型團隊逐步邁入初創舞台

也許正是由於存在這樣一個公平的競爭環境,才促使眾多研究驅動型團隊參與到柏林的初創市場當中。

這一切對於柏林亦屬於新鮮事物。柏林的初創環境長久以來一直以學生創業為主要表現形式,並培養起大量來自本地的所謂「運營型」初創企業。Rocket Internet 公司的成功憑藉的是他們自身的才能以及矽谷對於市場上現有技術的漠視。然而,如今此類機遇似乎已經不復存在。但包括我自己建立的 Xyo 公司在內的各類研究型初創企業則成為一種寶貴的例外。很多人並不知道,柏林充斥著大量獨立的開發人員。他們既可以在公司內工作,也可以參與一些業餘愛好性質的項目,甚至成為柏林當地各企業的外包商。從 2011 年開始,我記得 Android 團隊的 Reto Meier 就開始邀請我參加柏林的 Android 大會,這一活動吸引到了超過 1500 名開發者。除我之外,沒有任何一家柏林當地初創企業參與其中,在這裡出現的只是一群充滿愛好與熱情的開發人員。

這樣的情況目前仍然存在。走出校園的博士們仍然將主要德國企業(包括工程、銀行、金融以及各類中型企業)作為就業目標。然而,我們現在已經擁有了一波根基穩固的研究型創始者群體。另外,他們中有很多人來自柏林以外的地區。在我們遇到的 170 個團隊當中,有超過六成來自柏林之外(我們分別與來自劍橋、倫敦、愛丁堡、波茨坦、圖賓根、卡爾斯魯厄、蘇黎世以及華沙的博士團隊見過面)。事實上,來自美國與亞洲的眾多研究團隊同樣相當活躍且令人矚目。柏林能夠僅以 4000 歐元的成本養活一支包含三位成員的技術團隊,這樣的物價水平在全球範圍內都極具競爭力。

受 ArXiv 啟發的初創企業的興起

人們一再向我強調,研究型團隊轉化為初創企業的另一大動力在於,初創企業如今面對著應用研究領域的巨大發展空間——事實上,初創企業的研究方向相較主流企業要更為自由且靈活。

以開放性的心態進行方法共享、討論與辯論,再加上開源成果的快速採用周期(幾乎能夠立即發布在 GitHub 之上)使得初創企業對研究人員而言極具吸引力。網路論壇與各類平台也一直在推動這一觀念,即沒有任何其它企業能夠像 ArXiv 這樣充滿活力——在這一由康奈大學最初建立的在線科學論文庫平台當中,各類團隊能夠隨意參與各類討論。這裡為研究人員提供的生活方式——即隨時發布他們的想法 / 研究成果並進行公開參與——能夠帶來極強的鼓勵性作用。人們對此通常抱有一種(誤導性)假設,即初創企業能夠給研究人員提供遠勝過高校或者大型企業的自由發揮空間。一般來講,AI 團隊只負責發布研究成果,而無需考慮構建具體產品或者商業模式——他們只需要等待收購即可。

要駁斥這樣的固有觀念,我們可以列舉一個實例——Prisma 應用如今已經擁有極高人氣,其允許用戶根據主題將一幅圖片的風格轉換為另一種完全不同的形式。

最初,一組來自圖賓根大學 Bethgelab 的研究人員於 2015 年 9 月發表了一篇題為《藝術風格中的神經演算法》的論文。

此項研究立即得到了關注,並在幾天之後開始在 GitHub 上進行應用程序開發。相關的高人氣論文及應用程序不久後開始陸續出現,且直到今天仍擁有相當的熱度。到 16 年 6 月,Prisma 應用由數位俄羅斯年輕人開發完成,並在被引入 Facebook Feed 後得到了公眾的廣泛認可。

目前人們普遍認為,Prisma 的廣泛普及使得公眾開始對神經網路的應用方向抱有好奇心。但在另一方面,這也為初創企業指出一條新的發展途徑——先面向公眾,而後面向研究社區。

突然之間,很多人開始將初創企業視為一種理想的工作選擇。最終,Bethelab 團隊也建立起一個 Prisma 風格的網站。據我所知,至少有 15 家初創企業的靈感源自 ArXiv 上發表的論文。更多初創企業則通過 ArXiv 建立起嘗試實業的信念。

正如 Roobie Allen 所言,這是一場 ArXiv 啟發下初創企業的崛起浪潮:

「與大多數其它技術相比,AI 的關鍵在於其強大的學術研究背景。(……)不同於在獲得支持之前長期停滯的創新或者等待傾向,絕大多數 AI 研究成果皆基於為期僅數個月的工作以及有限的代碼量。其中的關鍵在於儘快將思路提交至社區,以便其他人能夠對其加以改善(並在他人做到之前確立思路的歸屬權與地位)。」

ArXiv 啟髮型初創企業的局限

與此同時,AI 研究與進展不僅體現在風格轉換層面,同時亦在視覺與圖像建模領域擁有出色表現(具體包括圖像識別、視覺問題回答、圖像語義標籤、視頻識別以及圖像生成等)。書面與口頭語言的研究工作在活躍度與開放性方面相對較低,機器學習系統在這兩方面的水平則更為有限。

舉例來說,沒有人會在推文當中像 Alex Champandard 或者 Nicholas Guttenberg 那樣討論自己的思路 / 研究成果。語言本身也非常複雜,這是因為其與族群狀態關係密切。有人認為深度學習將徹底解決自然語言處理(簡稱 NLP)問題,意味著大家不再需要學習語言知識。然而,計算機語言學家們在面對計算機視覺 / 深度學習研究人員時卻顯得非常無力——他們對文本數據進行了一些實驗,並發現自己根本無法在自然語言處理層面拿出同樣份量的成果。

服務於大型企業的小規模外包研究團隊仍面臨挑戰

對於大多數此類團隊而言,通往初創企業的轉型之中和仍然挑戰重重。其中部分挑戰屬於創業工作當中的「常態」,換言之大部分此類團隊都會提出類似的問題。

其中還存在一些具體的模式。就我所見到的情況,超過九成的 AI 原型設計方案以企業為中心,而非以消費者為中心。在這樣的引導之下,相關團隊大多數會將少數大型企業(買家)作為目標客戶。

在這種意義上,此類團隊更應被視為「企業外包研究機構」,而非真正具有爆炸式增長潛力的「風投級初創企業」。正視並深入探討這個問題顯然不是什麼壞事。就 2017 年來看,大量成規模的企業開始與初創公司合作。在柏林,目前存在著超過 160 個企業加速器與創新團隊。而本地也存在著不少受眾,願意為這些年輕團隊的聰明才智買單。

給大家舉個實例。最近,我發現一家初創企業正在與兩家物聯網冰箱製造商合作。就具體功能而言,這些冰箱產品在關門之後,其中的內部攝像機將能夠幫助用戶查看存放內容。其中一部分產品可以實現條碼識別,但另一些則不能。接下來,這些日常數據將被發送至廠商處進行分析。

毫不意外,這家企業希望將 「大數據」作出的模糊承諾轉化為更具體的收益。

這家企業無法弄清如何追蹤 ETL 問題並在內部將數據轉化為實際價值。這就給我們的研究人員帶來了創業機遇。在實際接觸中,這家初創企業提出了很多關於解決各類挑戰的好辦法。其中之一在於建立一套出色的模型,而後設計訓練神經網路以識別各類品牌標誌圖像,最終以此為基礎構建部分分析功能。

對於研究驅動型團隊而言,達到上述目標已經相當值得稱道,更遑論其能夠通過自己的工作獲得報酬。然而,他們只是重複了以往他人已經實現過的成績,因為這樣的結果並不足以使其成為風投眼中的黃金「初創企業」。雖然他們仍有可能成為未來的初創明星,但就目前而言,其方案仍然只是一種早期原型,且其堆棧與初始代理客戶端當中仍存在不少漏洞。與他人一樣,Eyeem 公司的 Ramzi Rizk 也認為:成為一家符合風險投資要求的 AI 初創企業其實非常艱難。

未來展望:時間到數據與快速迭代

那麼這些小型外包研究機構要如何才能發展為真正的初創企業?以下兩項目標值得大家加以借鑒。

時間到數據

正如 AI 風投方 Merantix 公司的 Rasmus Rothe 所言:

「在機器學習學術界,人們幾乎不會關注數據集的獲取方法。相反:為了將深度學習技術與其它方法相比較,同時確保其中一種方法優於另一種方法,標準流程要求以相同的評估程序來衡量標準數據集的處理成效。然而在現實世界當中,新型演算法與其它方法相比在成效方面反而下降了 1%。這裡的重點在於構建起一套強大的系統,確保其能夠以足夠的準確性解決所需任務。對於一切機器學習系統,這都需要進行標記訓練,並幫助演算法以此為基礎完成學習。」

實際上,人們可能往往會假設能夠實現 AI 突破的關鍵性演算法如寶藏般靜靜躺在某處,等待著研究人員通過大量高質量數據集將其從現有文獻當中挖掘出來,而後立足當前可用的硬體加以針對性優化。

在演講當中,我通常建議此類機構依靠以下方式運行測試。

  1. 讓企業付費以確保研究工作的正常運行。
  2. 堅持投入同樣的時間服務於其它客戶。

在這些「其它」客戶當中,需要優化的重點在於獲取數據的時間。對於那些願意測試自己粗糙的 beta 原型方案並提供反饋的朋友而言,這無疑是一種福利。通過這種方式,我們通常能夠與其它初創企業(以免費方式)進行初步對接,而後與這些小型且通常由初創者主導的年輕公司組隊,從而在無需正式數據獲取流程的前提下作出明智決策。

更快迭代周期

另一條建議則與數據分析相關。在這方面,大家需要找到哪些模型能夠確切實現效果,而哪些模式適用於特定數據集。

這意味著研究團隊不可能以上百萬個數據點為規模進行運營,因為這將帶來 3000 甚至是 10000 套數據集。相反,著眼於數據並發現模式才是最好的選擇。

其中最簡單且成本低廉的處理方法就是在 AWS S3 存儲桶上執行無伺服器 MySQL 查詢,或者立足 Redshift 構建起一些簡單項目。如此一來,各研究團隊即可將大量數據導入 AWS 並運行 SQL 查詢,最終查看這些重要模式——而無需自行構建基礎設施。

到這裡,研究團隊需要投入更多時間對數據進行整理(佔總體工作時間的七成到九成),而後發現模式並在短時間內構建起演算法。對於大多數研究型初創企業而言,這種作法與直覺存在衝突。然而,通過這樣的方式,研究團隊將能夠在兩到三周之內順利前往下一次組隊迭代——而非像以往那樣耗費更長時間。

一旦找到志趣相投的組隊夥伴,接下來就可以審視初創企業的數據收集策略並調查其可行性。事實上,通過計算得出這些數據策略很可能是研究型團隊所面臨的、最為艱巨的反直覺挑戰。

事實上,其中一些策略甚至可能引起爭議,並讓整個團隊重新思考是否還應繼續朝著初創企業努力。以 Babylon Health 為例,這款聊天機器人應用允許用戶在無需親臨診所的前提下就自身癥狀提出問題,且最近籌集到 6000 萬美元。該團隊認為,「Babylon 的科學家們預測稱,我們將能夠很快實現比醫生更出色的個人健康問題診斷與預測能力。」在西方世界當中,從診斷到健康狀況預測涉及大量數據、科學、法律以及商業化問題。

不過單純從技術角度來講,醫療團隊確實能夠打造出一套比人類更強大的特定健康問題檢測或預測方案。如果能夠在理論層面將診斷準確率由 30% 提升到 60%,即可拯救許多鮮活的生命。然而,40% 的準確率時可能出現的訴訟足以毀滅初創企業的發展道路。也正因為如此,眾多醫療衛生團隊選擇在數據保護措施較弱或者被起訴可能性較低的國家進行早期實驗。舉例來說,Babylon Health 在盧安達擁有 45 萬名用戶。而西方各國的健康預防相關組織則通過各大型企業處理醫療系統及健康預測的監管工作。

到這一階段,研究型團隊亦開始需要轉化為數據驅動型團隊。

數據是否(仍)未實現民主化?

可以理解的是,Zeroth.ai 公司(AI 創新初創企業之一)的 Tak Lo 認為「數據鴻溝是 AI 創新所面臨的最大威脅」,並極力呼籲數據民主化。

Tak 呼籲建立一套類似於維基百科的 AI 資料庫,這也從一個側面證明如今 AI 研究團隊的主要挑戰也許正在於數據訪問能力。各團隊創始人在努力為合法技術或金融技術等平台當中的垂直領域構建特定用途的產品,並希望藉此迴避與谷歌或者微軟等技術巨頭的直接競爭。

然而總體而言,如今的數據還遠沒有實現民主化。儘管近來人們正在為建立數據民主化平台而紛紛發聲,Helix 等垂直應用商店也得到陸續啟動,但 AI 當前仍沒有達到「蘋果 App Store」這一徹底實現移動開發與發布民主化的重量級成果的級別。

我們才剛剛踏上征途

目前對於研究驅動型團隊而言堪稱理想的歷史時機,大家可以將自己的想法塑造出來,並在創業領域當中進行測試。而我們也將越來越多地看到 ArXiv 在其中發揮的重要促進作用。相當一部分研究團隊未來將繼續作為大型企業的外包機構進行工作,單就這一點而言已經是一項了不起的成就。而其中一部分團隊還將進一步發展:找到自身產品的市場適應度,同時發現最佳數據收集策略,最終徹底改變世界。

作者簡介

Matth?us Krzykowski,作為專司初創企業業務的運營顧問,過去兩年以來,我在柏林關注過圍繞 AI/ML 與 MPP 資料庫建立起 170 多個原型設計研究團隊。

原文鏈接

medium.com/techstars/th

全文完

關注人工智慧的落地實踐,與企業一起探尋 AI 的邊界,AICon 全球人工智慧技術大會火熱售票中,6 折倒計時一周搶票,詳情點擊:

aicon.geekbang.org/appl

《深入淺出TensorFlow》迷你書現已發布,關注公眾號「AI前線」,ID:ai-front,回復關鍵字:TF,獲取下載鏈接!

推薦閱讀:

和車品覺聊數據的本質
詢問有趣的複雜網路分析和分析的小技巧?
Erasure Code編碼大文件的問題?
大數據價值尚未全面呈現 爭奪戰已悄然打響

TAG:人工智能 | 大数据 |