人工智慧公司的17大關鍵成功要素:跟資深VC學如何看這個行業

李杉 唐旭 編譯自 Medium

量子位出品 | 公眾號 QbitAI

本文作者David Kelnar是MMC Ventures的投資總監和研究主管。MMC Ventures是英國最活躍的風投公司之一,主要關注技術驅動型行業領域,尤其是金融與商業服務、商業軟體、數字媒體以及電子商務。

這篇文章介紹了MMC Ventures對於概念炒得火熱的機器學習公司的投資框架,詳述了其投資這些公司時考慮的17種關鍵因素。

這些因素可以分為價值創造、價值實現和防禦力三大部分,「價值創造」具體包括價值釋放、顛覆性、適用性等;「價值實現」則包括管理團隊的商業能力、可量化的投資回報率、部署的可擴展性等;「防禦力」包括與巨頭之間的距離、領域複雜度、創造網路效應的能力等。

以下內容編譯自David Kelnar發表在Medium上的文章:

人工智慧——具體來講,就是機器學習——是一種強大的「使能技術」,代表了軟體能力的全面轉變。但作為投資者,又該如何評估那些把機器學習作為其核心價值主張的軟體公司呢?我會在本文介紹我們的機器學習投資框架。

我們的框架捕捉了早期機器學習公司的17個成功因素。由於可觀的回報來自一家公司在價值創造、有效價值實現和防禦力三方面的潛力,所以我們將這些成功因素歸入這三個大類。如果使用另外一種歸類方法,這17項因素則可以歸入戰略、技術、數據、人才、執行和資本6項能力。在與機器學習公司溝通時,我們會參考這套框架,但並不拘泥於此。除此之外,它還能為我們提供一套藍本,以便我們為自己投資的機器學習公司提供支持。

MMC Ventures對應用型機器學習公司的投資框架

應用型機器學習公司的成功因素

我們的框架著眼於「應用型」機器學習公司——這些創業公司佔比達到85%,它們針對具體的領域或職能發展由機器學習引導的解決方案。而基礎、通用型機器學習技術領域的開發者成功因素則各不相同。

除了常見的創業公司評估因素外,我們在評估機器學習公司時還要考慮額外因素,另外還有一些需要額外強調的傳統因素。這些額外因素(包括機器學習是否適合解決某個問題,以及通過數據獲得的網路效應的適用範圍)能夠反映機器學習的特性。

我們著重強調的傳統觀點(例如投資回報率的可量化性和管理團隊的商業能力),則反映了我們與90家英國機器學習創業公司會面時觀察到的機器學習市場動態。沒有一家公司能在所有領域表現優異,而成功因素的相對重要性也有所差異。

價值創造

機器學習公司創造巨大價值的潛力有多大?我們考慮了6種價值創造的驅動力。其中3個(價值釋放、顛覆程度和替代方案的可行性)與商業系統的影響有關,另外3個(機器學習的適用性、優於人類表現的路徑和合適的數據集)與技術可行性有關。

1. 價值釋放

通過預測成功或流程自動化,一家公司能在多大程度上藉助為客戶創造營收或節約成本來釋放一套商業系統的價值?我們通過以下方面評估一家提供商為客戶創造營收的能力:

提升轉化率、產量、生產能力、價格,或其他能夠直接推動營收增長的指標;

通過改善客戶體驗來降低用戶流失率——利用更強的個性化、更好的客戶服務、更低的客戶摩擦或更強的品牌忠誠度;

創造新的創收機會——尋找新客戶、增加向上銷售或交叉銷售機會,或者促成新的市場機會。

我們還通過以下方面考慮一家提供商為買家降低成本的能力:

通過提升預測效率、流程效率和流程自動化來降低過度開支、過度採購或核心資源需求;

通過改進合規性等方式來降低經濟漏損。

2. 顛覆程度

除了短期影響外,我們還考慮一家機器學習公司的顛覆程度(吸引新型用戶使用一項服務)和優化程度(為現有用戶簡化流程)。

以人工智慧個人助手為例。雖然人工智慧助手相對於人類而言只能承擔一小部分任務,但他們卻可以為商務用戶自動安排會議。根據PayScale的數據,人類助手的平均年薪達到2.5萬英鎊,因此很多中小企業請不起個人助手。人工智慧助手則適用於各種規模的企業,可以通過擴大目標市場來創造價值。

很少有企業具備顛覆性,而企業不需要具有顛覆性也可以擁有吸引力。但能夠顛覆現狀的企業或許可以通過規模創造超額產出。

3. 沒有吸引力的替代方案

當替代方案的成本和可行性受限時,創造價值的空間就更大。在一些有吸引力的案例中,由於人工智慧可以實現之前無法實現的事情,因此沒有實際的替代方案。在多數情況下,我們都能藉助對人或其他資源的充分投資找到替代方案。當一家企業的替代方案成本極高、十分稀少、無法獲取或擴展時,價值創造的空間就顯得尤為重要。

勞動力通常是數字化的直接替代方案,也是最貴的替代方案。多數英國機器學習創業公司關注的4大行業中,金融、IT和公用事業3個行業的年薪最高。我們認為專業服務領域有更多機會。

按行業類別分類的僱員年薪

4. 機器學習的適用性

機器學習與企業當前面對的挑戰匹配性如何?機器學習很適合解決費力、複雜高深莫測的問題:

費力的問題指的是人類可以勝任,而且可以將解決方案編寫成電腦程序的問題,但這麼做卻不切實際。

複雜的問題指的是人類可以勝任,但要將這種能力編寫成電腦程序卻很困難的問題。物體識別是個複雜的問題。人們很擅長識別汽車,但卻無法針對這種任務編寫有效的規則集。

高深莫測的問題指的是人類無法勝任的任務。在這些領域,人類無法通過標記或組織數據的方法來支撐一個預測引擎。藉助神經網路,深度學習非常善於處理這些高深莫測的問題,因為神經網路可以確定需要優化的參數。

機器學習不適合解決沒有邊界的問題和因果推論問題。

機器學習演算法不能超脫其所獲取的數據之外來吸收知識。Anastassia Fedyk曾經用1990年代的一個例子生動地強調過這種困難:當時,匹茲堡大學的研究人員評估了一些用於預測肺炎死亡率的機器學習演算法。「這些演算法建議醫生把同時患有哮喘的肺炎患者送回家,認為他們的肺炎死亡率較低。結果發現,提供給演算法的數據集沒有考慮哮喘患者都已經馬上被送往重症監護室,他們之所以病情好轉,完全是因為院方的額外關注。」只有在解決獨立的問題時,機器學習才能起到效果。

第二,機器學習很不適合解決以因果推論為主的問題。機器學習可以描述數據中的各項元素之間的相關性,但卻無法確定它們之間的因果關係。如果未來與過去並不相似,而過去的模式無法反映新的現實,機器學習就不擅長預測這些問題。

5. 表現路徑

機器學習未必要100%有效才能發揮價值。從實踐角度來看,機器學習引導的解決方案只需要提供與人類近似(最好優於人類)的表現,便可實現自動化並擴大生產規模。因此,在評估機器學習支持的技術的具體表現時,應該從中長期去評估——最好能優於人類的表現——以便解鎖價值。

人類的表現水平可能低於我們的想像。根據美國國家高速公路交通安全管理局的統計,美國有94%的車禍都源自人為錯誤。無人駕駛汽車不需要100%安全便可彰顯價值:只需要達到與人類相似或高於人類的水平即可,而美國司機目前的水平是每1億英里行駛里程死亡1.25人。(當然,在實際情況下,買家對某項技術的信任是其普及的進一步條件——在某些領域,要讓人們接受這些技術,還需要達到更高的標準,其中也包括無人駕駛汽車。這一點將在下文討論。)

6. 合適的數據

要讓機器學習創造價值,就需要通過合適的數據對其進行訓練。我們會評估一家公司能在多大程度上獲得合適的數據。我們會以機器學習的兩個數據處理階段為背景來衡量數據的適用性:

選擇:數據可用性;是否存在數據缺口和複製品;數據標記的質量,數據是否存在偏見;

處理:數據碎片化;數據清理需求;數據採樣需求;數據轉換、分解和聚合需求。

我們還會衡量數據集能否保持價值。如果能用歷史數據測試和改進一個演算法的各種新版本,數據集就能保持價值。但情況並非總是如此。如果一家聊天機器人公司改進了演算法,它提供給用戶的提示就將與以往有所不同。如果聊天機器人的提示發生變化,用戶回應的內容很可能也會改變。

由於龐大的用戶回複數據集已經與演算法解耦,甚至毫不相關,該公司的歷史數據用處也就非常有限。你可以將此與防欺詐公司進行對比。可以用一套演算法來測試歷史客戶活動數據集,以便了解演算法的精確度是否有所提升。

價值實現

有吸引力的公司具備創造價值的潛力。但價值能否實現呢?根據我們的經驗,有5項因素對機器學習引導的公司十分重要。第一項(管理層團隊的商業能力)與人才有關。後面三項目(可以量化的投資回報率、買家預備狀態和良性監管)與商業系統接受程度有關。最後一項(部署的可擴展性)則與市場進入戰略有關。

1. 管理團隊的商業能力

很多機器學習公司的創始人都擁有一流的技術實力。但商業嗅覺在企業的長期成功中發揮著重要作用,重要性甚至超過技術實力。多數B2B軟體公司遲早都要組建直銷團隊——只有創始人主動去尋找業務,才能真正擴大規模。

擁有商業頭腦的創始人願意做大企業,也願意擁抱市場,同時也具備組建強大銷售團隊的能力。投資者可以提供更幫助——我的同事Jon Coker和Simon Menashy在幫助創始人組建和擴大SaaS銷售團隊方面擁有不俗的經驗——但如果創始人的商業化動力有限,他們也無能為力。

2. 可量化的投資回報率

如果一個方案擁有可以量化的投資回報率,往往就更容易在B2B市場上被人接受,銷售周期也會縮短,客戶教育成本也會降低。在銷售和營銷職能中,銷售轉化率的提升可以輕易評估。在金融領域,交易利潤的增加也很明確。在英國,多數創業者都把自己的目標瞄向了可以演示投資回報率的領域:

服務於營銷和廣告職能的機器學習創業公司多於其他領域——約佔英國總數的20%;

創業活動最為集中的是金融領域(在早期機器學習公司中約佔8%)。

3. 買家預備狀態

買家預備狀態通常可以以漏斗的形式來評估:認識、了解、喜好、確信、購買。對機器學習公司來說:

我們把「準備就緒」作為漏斗中的一個階段加入其中。準備就緒評估的是買家是否擁有訓練和部署演算法所需的合適的、可以獲取的數據集,以及是否獲得了組織的支持,以便用人工智慧引導的解決方案加強或顛覆現有的工作流程。

在「喜愛」階段中,我們考慮的是信任和控制問題。信任是相信解決方案在人類只進行有限干涉的情況下的表現。接受度的標準多種多樣;乘坐無人駕駛汽車旅行,以及用機器學習診斷疾病,都需要極高的信任。控制描述的是,即便在系統信任很高的情況下,人類介入某個系統或流程的意願。價值釋放、採納和可擴展性可能局限於特定環境,這些環境都需要讓人類保持較高的控制。

4. 良性監管

機器學習往往具有「黑箱」特性。Nuance的Nils Lenke說:「內部機制並不非常明確——你讓神經網路自我組織,它真的會自己組織自己:它未必會告訴你具體過程。」

因此,我們會考慮一家機器學習提供商是否在透明度上面臨監管挑戰。是否需要理解或解釋一套機器學習解決方案提供的預測或決策?

在英國,達成抵押合同需要受到《金融服務和市場法案》(Financial Services and Markets Act)的監管。《企業抵押貸款行為規則手冊》(The Mortgage Conduct of Business Rulebook)第11.6.2條聲明,除非能夠證明客戶能夠擔負起合同,否則不能達成交易。倘若貸方採用「黑箱」深度學習演算法來判斷用戶的擔負力,能否將其應用於實踐?

監管風險會被誇大。媒體廣泛報道了歐盟新制定的《一般性數據保護規定》(General Data Protection Regulation),這項規定將在2018年成為整個歐盟的法律。它創造了「解釋權」,也就是用戶可以要求相關企業就演算法針對他們做出的決策給予解釋。

實際情況沒有那麼明確——實際上更有可能意味著的「通知權」,也就是說,企業只會闡述演算法決策的一般流程及其使用的數據集。然而,決策方向的確更加重視透明度和潛在的偏見。美國白宮科技政策辦公室2016年發布了《人工智慧的未來籌備報告》,該報告總結道,「研究人員必須學習如何設計這些系統,以便它們的行動和決策對人類透明,並且可以輕易被人類解釋。」

在銷售、營銷和商業情報等特定的B2B職能中,可解釋性可能算不上是一項挑戰。但在其他領域——包括人力資源、合規性和欺詐——卻有可能頗具挑戰,這主要是從法律和務實角度來考慮。

類似地,某些領域(金融服務)的企業比其他企業更需要遵守規則。在評估機器學習公司時,我們希望了解企業現在和未來有可能面臨的監管阻力,以及他們的應對方案。

5. 部署的可擴展性

機器學習引導的軟體公司的擴張速度可能因為難於部署而受到限制。

數據集成要求可能很廣泛。合併、集成和凈化相互隔離的客戶數據集,會限制實現價值的時間。

軟體公司對資源的需求可能很大,限制了獲取新客戶和提升利潤率的潛力。我們溝通過的很多機器學習公司都有三分之一的團隊成員參與部署。其中一家對我們說,由於每個客戶都有人員要求,所以「即便我們有更多訂單也處理不過來」。

雖然深入的客戶關係可以提升客戶粘性,帶來更多向上銷售機會,但能夠將部署要求降到最低、能夠自動完成數據收集、數據協調和部署過程的機器學習公司,可以更快地做大規模。

防禦力

隨著競爭者的湧入,這些機器學習驅動的公司能夠在多大程度上守護住自己創造的價值呢?在防禦力上,我們主要看重六點:與行業巨頭間的距離、領域複雜度和相關專業度、通過數據創造網路效應的能力、專有演算法、吸引高質量人才的能力以及運用資本武器的能力。

1. 與行業巨頭間的距離

在領域內,谷歌、亞馬遜、IBM和微軟(以下用GAIM簡稱)都提供了基於雲的機器學習服務,這些服務包括廣義上的計算機視覺、語音及文本處理,而且其能力和規模、範圍還會繼續擴張。最近,谷歌在計算機視覺方面的技術能力已經擴展到了視頻範疇,並且已經開放了其能夠提供視頻實體識別、搜索和編目能力的視頻智能API。在擁有Deep Mind強力支持的情況下,谷歌先進的機器學習技術最終將能夠覆蓋到一個非常寬廣的服務範圍。

GAIM高表現、低成本的通用型機器學習服務將會壓倒一切——除了一部分在某些特定領域最有經驗、做得最好的競爭者。

如果一家公司提供的機器學習服務遠離GAIM的核心競爭區域,那麼它們也將擁有更強的「防禦力」。判斷這一距離的標準,一是領域的垂直度,二是廣義計算機視覺與計算機語言領域之外的技術發展情況——在實際情況中,這意味著其他公司提供的應該是不同於GAIM通用、基礎型解決方案的特定功能、特定垂直領域型解決方案。目前,四巨頭在垂直領域的野心還主要限於醫療健康以及交通運輸,儘管它們未來同樣可能試水其他與自身業務相關的領域。

從手工業到法律業、農業,早期的機器學習公司有機會向前推進乃至重塑這些行業的形態。GAIM目前對它們並不%感興趣,而要與其他人競爭,它們也缺少足夠的數據優勢與領域專長。

2. 領域複雜度

領域和行業上的距離能將同GAIM之間的競爭最小化,而機器學習公司在其所屬領域內的動力則能夠在商業競爭中為自己提供進一步的保護。

複雜的領域,包括那些需要大量的行業專業知識、要求精細化管理或者是面臨極其複雜技術挑戰的領域。選擇複雜的領域也意味著業務上要扛起更重的負擔。路途艱險,但一旦真的上了岸,這些公司就能佔據更為有利的防禦位置。最吸引人的生意,總是那些處於有一定複雜度的領域,同時又有能力把這些困難搞定的。

3. 通過數據創造網路效應的能力

能夠獲取個人的、領域專屬性數據集的公司將會擁有更多的訓練材料來對自己的機器學習演算法進行提升——而這通常會讓競爭者付出代價。網路效應就是如此發揮作用:你能拴住的客戶越多,公司的產品就越好,公司的產品越好,就越能拴住更多的用戶,獲得越多的專有數據。一家在金融服務行業提供欺詐檢測的公司將能夠從自己每一名新客戶身上獲取新的、非公共性的數據。

顯而易見,一家機器學習公司為了訓練自己的演算法只需要使用公司的私人數據,而不需要擁有它們。如今,有了通往數據的渠道,那些保有數據的大佬們以前在數據上的優勢已經在很大程度上被抵消了。

網路效果的潛力,還可能會造成一種二階效果——早期的機器學習公司可能會將數據的獲取渠道看得比短期利益更加重要。考慮到早期客戶數據的價值,機器學習公司可能會投放免費軟體,或是在一定程度上縮減在早期用戶身上的收益。

4. 專有演算法

現在,通過TensorFlow這樣的開源軟體庫能夠獲取優秀演算法的同時,越來越多的機器學習公司正在通過開發更強的、獨有的演算法來創造智慧財富。一種專有的演算法(事實上通常是一組多種演算法的集合)可能提供的是:更高的準確度、更豐富的功能、更快速的表現、更高的強度、更好的可解釋性,部分演算法不需要通過太大體量數據的訓練就能得出結果。

創新是一點一點實現的,需要經歷一個從「找竅門」到求新的過程。「找竅門」要做的事情是思考如何運用技巧對已有演算法進行提升,求新則是在開發解決問題的全新途徑,並能夠成功地對其進行展開。

在包括自然語言處理在內的許多領域,缺少數據已經不再成為一種瓶頸。在其他領域,圍繞演算法進行的創新也能讓其在少量數據的基礎上發揮作用。因此,除了獲取數據的渠道,機器學習公司同樣對人才有著強烈的需求。

5. 機器學習人才

目前市場上的機器學習人才十分稀少,且非常昂貴。根據Procorre的一份研究報告,在英國,在招的通用數據科學家的職位數量在2016前半年同比增長了32%,而這種需求的增長已經超過了供應。而在英國所有的技術專家崗位之中,機器學習專家的薪水是最高的。

英國各類技術專家平均年薪

考慮到激烈的人才競爭,一家優秀的公司必須展示出自己在可接受的成本下吸引和留住高水平機器學習人才的能力。

創業公司基本上是在為GAIM創造人才,它們無法同GAIM的規模、穩固性以及能提供的薪水相競爭——當然,它們也不需要這麼做。實事求是的機器學習公司會對自己的僱員強調的優勢是:直接影響產品的機會、更強的自主性、更多發布成果的自由、知識和技術上的挑戰,如果公司夠硬,還會有更多長期性的物質獎酬。

6. 強大的資本

考慮到如下因素,機器學習公司必須具備更強的資本能力:在富於技術挑戰的領域內開發產品所需的更長時間、對於B2B公司而言更長的銷售周期、招募機器學習專家所需的更高成本,以及廣泛部署資源的需求——這些因素都將提升對人員的要求,限制公司擴張的速度。

優秀的機器學習公司會將足量的資本用作武器,以增強自身在競爭中的優勢。

原文:medium.com/mmc-writes/t

【完】

One More Thing…

今天AI界還有哪些事值得關注?在量子位(QbitAI)公眾號會話界面回復「今天」,看我們全網搜羅的AI行業和研究動態。筆芯~

推薦閱讀:

TAG:人工智慧 | 機器學習 | 風險投資VC |