加州自動駕駛脫離報告, 不可輕信 | 深度

撰文 | 宇多田

漏洞滿滿的報告,可以拿來做技術實力排名的參考?

幾天來,大眾對 2018 年加州自動駕駛路測脫離報告的關注度,堪稱前所未有。

這不僅僅是因為自動駕駛的商業化進程正在受到空前關注,也因為報告中的榜單聚集了迄今為止數量最全的62家自動駕駛乘用車公司。

所以說,對每家公司自動駕駛技術水平和市場地位品頭論足的時候到了?

從加州車輛管理局(DWV)發布的這份報告內容來看,涵蓋的數據指標非常豐富,包括每家技術公司在加州測試的自動駕駛車輛數目、手動接管次數、全年自動駕駛測試里程數,車隊規模等等。

但其中最受關注的一個參考指標,無疑是 MPI/MPD

(Miles Per Intervention/Miles Per Disengagement,叫法不同但意義沒差,可指代「自動駕駛汽車每行駛多少里程才需要人工干預一次」)

不少人認為,系統向人類交出汽車控制權的頻率越高,在很大程度上代表著「這系統及其背後所在公司的技術水平越低」(至少正相關)。

所以我們不難理解為何報告一出,不僅讓關於蘋果公司的「唱衰論調」有了新的談資,也讓發生過一次致命車禍並解散部分團隊的 Uber 墜入更深的谷底。

因為這一指標的排名,兩家公司分獲倒數第二和倒數第一。

圖1:根據報告數據,蘋果每跑 1.1 公里就要接管一次;而 Uber 則是每跑 0.6 公里被接管一次

當然不止這兩家經歷了口水的洗禮。

擅長在海量信息中尋找蛛絲馬跡的海外媒體們又發現,這份文件簡直是一份「最強打臉文本」。

諸多車廠做出的承諾,被這份文件證明是立過的又一個 flag。

譬如,無論是測試公里數,還是接管頻率排名都僅次於第一名 Waymo 的通用旗下自動駕駛技術公司 Cruise,就被彭博社挖出「公司在 2018 年的實際路測里程並不符合在 2017 年做出的承諾」:

「2017 年底 Cruise 聯合創始人 Kyle Vogt(前首席執行官,現在為公司首席技術官)曾告訴投資者,公司將實現每月 100 萬英里的無人駕駛測試汽車行駛里程;

但加州報告卻暴露了一些東西——

2018 整一年,Cruise 僅在加州的行駛里程還不足 45 萬英里(目前公司選擇路測的地點都較為集中,多為加州、亞利桑那州等地區)。」

圖2:數據來源:2018DWV自動駕駛脫離報告:

但是,這個所謂的重要指標「脫離接管頻率」,真的能被直接用來衡量公司的技術實力嗎?

事實是,如果你單憑這個指標想看出啥來,那麼其價值頂多只夠講述一個關於「某公司基於縱向時間軸健康成長變化」的故事。

譬如,根據報告顯示,Cruise 在 2018 年平均 5200 英里要進行一次人工干預,這與 2017 年相比,當然是一個顯著的進步,因為當時這個數字是 1230 英里/次。

然而,如果作為對公司與公司之間的橫向比較指標,你不得不承認,這裡面存在著不可忽視的缺陷。

而且,極具誤導性。

「脫離」定義模糊,公司可在合理範圍內修改數據

隨著這份「脫離報告」影響力的逐年增長,蘋果曾在 2017 年 4 月公開指責過該報告背後「測試規則」存在的種種漏洞,對促進大眾接受自動駕駛發揮不了什麼作用:

「對於哪一種情形可以被判斷為『脫離』,加州的這套評價系統顯然因主觀因素太多而不夠清晰和透明。

我們同意需要把『防止違反交通規則』和『成功制止一場車禍』作為這一概念的重要度量場景,但是,加州給這一概念額外增加了很多不必要的解釋。」

簡而言之,蘋果嫌加州對「脫離」的定義太過嚴格。

根據加州車管局(DWV)的規定,自動駕駛應用場景下的「脫離」有大體兩重含義:

  • 被動脫離

當自動駕駛系統檢測到故障無法繼續執行任務時,測試車輛的自動駕駛模式需要被迫推出,並要求安全員立即進行接管。

  • 主動脫離

雖然自動駕駛系統並未檢測到任何故障,但安全員在監控過程中做出「不安全」判斷後主動觸發自動駕駛模式退出機制,並手動接管車輛。

而蘋果認為這兩個概念過於模糊,以至於多種並不會影響車輛安全的場景都被歸到「脫離」範圍內:

第一,在路測過程中會出現「操作限制」是很正常的。因為每家公司對測試車輛的功能設置不盡相同。

譬如,有公司就給車輛的導航進行了特殊設置——在進入某工業區時,必須把控制權主動交給駕駛員。

第二,軟體或某一感測器出現的不影響系統安全操作的小 bug。

由於當下自動駕駛汽車都會設置多層安全冗餘,因此單一板塊出現的小問題不應該歸為「脫離」。

第三,安全員酌情做出的決定。

有些安全員行事非常謹慎(特別是 Uber 由於安全員的一定疏忽導致致命車禍後,相信這給所有安全員敲響了警鐘),會在很多安全場景內接管無人車控制權。

譬如,有時候系統判斷過快或操作過快時,有安全員會因為緊張感不由自主地進行接管。

因此,蘋果即便從 2017 年到 2018 年一直按照加州的規定,勤勤懇懇記錄著所有符合定義的脫離次數。

但在 2017 年 7 月以後,他們主動將「脫離」的概念進行了更加細節化的「修飾」,並給自己的報告加入了一項新指標——「重要脫離」場景。

就像剛才上面說的,蘋果認為只有真的觸及到人身安全和交通法規的場景才是「重要脫離」。

圖3:蘋果在2018年7月開始引入「重要脫離」指標

因此,如果按照蘋果自定的新指標,那麼自 2018 年 7 月行駛的 56135 英里里程中,只遇到過 28 次「重要脫離」場景,這無疑會大大提升蘋果的排名。

看到這裡你應該明白了什麼——

加州這份脫離報告的所有數據都是「只要合乎規範,自己『改動』一下也沒什麼問題」,沒有任何責任機制可言。

然而,在這裡我們勢必要為蘋果美言幾句:

儘管蘋果認為加州 DWV 對「脫離」概念定義過於模糊,但仍然認真地做了多達 18 份文件(絕對是提交信息最詳細的公司之一)提交上去,並對自己所定義的指標寫了一份 cover letter,進行了附加解釋。

與之相比,還有公司則抓住了這個模糊定義所賦予的機會——

既然字面意義是寬泛的,但至少其透出的法律精神是狹窄且明確的(雖然這也是蘋果一直強調的):

要麼是你技術失敗導致的,要麼就是安全員為確保安全才接管的。

那麼其他的我不說不就得了?

通用 Cruise,就是完美利用了定義缺陷的正面教材。

(再次感嘆蘋果的「傻」,甚至有投資者和專家認為蘋果是故意讓人覺得自己技術不好以忽視自己的技術水平……)

2017 年 11 月 22 日,有國外網友曾在 Twitter 上發文稱,自己看到通用 Cruise 的一輛測試車闖了紅燈。

但讓人驚訝的是,這件本可能在社交網路上迅速蔓延、甚至會讓 Cruise 遭受抨擊的「醜聞」竟然沒有多少人關注。

如果按照加州 DWV 對「脫離」的定義,其實這個事件是符合界定的。

但根據 Cruise 提交的 2017 年脫離接觸報告,11 月 22 日那天的「闖紅燈」事件並沒有被記錄在案。

後來有媒體追問此事,Cruise 的回復更是出乎意料——

那輛車根本沒有闖紅燈呀。

「當車穿過人行橫道時,交通燈恰好從黃色變成了紅色。因此安全員對車輛進行了手動控制,開過了十字路口,以免阻塞人行道。」Cruise 的發言人當時強調,

「根據加州對『脫離』的定義有兩種,一個是『為了直接安全而接管』,另一個是『系統發生故障而接管』,而『阻塞人行道』既不符合『為了實現直接安全』,也不符合『系統發生故障』。」

(……感覺被繞進去了)

好吧,這個解釋有些令人困惑,但好像也找不到什麼合適的反駁理由。

不過,Cruise 的做法無疑再次印證了一點——

怎麼來定義自己公司發生的「脫離接觸」,可以在合理的範圍內隨心所欲。

所以說,不曾被有效監管的數據,參考價值十分有限。

「控制變數」截然不同,公司之間如何比較?

我們都知道,如果做一項科學的比較性實驗,除了實驗主要研究的那項變數外,需要對其他所有影響實驗結果的變數進行有效控制。

對應到 MPI 的排名上,也是同樣的道理。

然而,由於各家公司提交的均是一份「自我評價」,因此,從客觀因素(諸如氣候、天氣、路況),再到公司配置(路測時間跨度、路測規模、車型、自動駕駛系統迭代情況,無人車等級),甚至是 MPI 的計算方式……

所有影響 MPI 指數的條件沒有一項是有統一標準的。

舉一個最簡單的例子,在複雜路況中進行測試的 L4 無人車與在平坦道路上行駛的 L2 級無人車,都取得了一樣的 MPI 指數,但是否能相提並論?

值得注意的是,這次中國多家技術創業公司也榜上有名,因此,不少媒體將其作為重要的技術排名榜單進行解讀。

然而,僅時間跨度與路測環境,這 5 家中國上榜公司的敘述就有明顯差別,更不用說車隊規模、車型、系統迭代以及調試情況也不盡不同,因此,根本不存在「可比性」。

圖4:數據來自2018加州自動駕駛脫離報告 製圖:宇多田

通過仔細閱讀這五家的報告,我們發現由於每家報告內容側重的角度不同,很難將這些公司在條件統一的前提下進行單一維度的對比。

譬如,Pony.ai 就在自己的報告中著重強調了測試環境的複雜性系統迭代對提升 MPI 指數產生的作用:

「在 2018 年上半年,我們在加州路測的覆蓋範圍從工業區逐步擴展到居民及商業區域,對 MPI 的提升和系統迭代有一定幫助;另外,系統迭代是讓 MPI 顯著提升的關鍵。」

很明顯,下圖中Pony.ai的MPI走勢也反映出一個圈內默認的規律:

特別是在 L4 無人駕駛領域,技術成熟度與路測的總里程數(這項指標一直很受重視)成正比關係,里程數越高,技術成熟度越高。

圖5:MPI與路測里程都在2018年下旬都有了明顯提升。數據來自Pony.ai提交的2018自動駕駛脫離報告

與之相比,此前通用Cruise在解釋為何沒有實現曾經承諾過的 2018 年百萬路測里程數時,也曾強調,比起單純的積累里程,他們想優先提升路測環境的複雜性——

「在複雜的城市環境中擴大測試資源,對於開發安全的自動駕駛汽車來說,比在簡單的郊區環境中跑上千英里去達到任意的英里數目標更為重要。」

這意思已經很明顯了:

在路況較好的高速公路上測試的確可以做到提升里程數的同時做到長距離無脫離,但你要的是一個數據,還是自動駕駛系統性能的顯著提升?

而AutoX 的報告,雖然也詳細指出了系統迭代以及測試難度的重要性,但其每個系統的測試時段與測試效果都顯示出了更加複雜的情況。

圖6:數據來自AutoX向加州DWV提交的2018自動駕駛脫離報告

從圖中我們可以看出,在 22 個月的時間跨度內,AutoX 的系統共迭代 2 次。

很明顯,第一代系統(V0)與第二代系統(V1)的 MPI 數值相差懸殊,而有趣的是,第三代系統V2的MPI指數還不到V1的一半。

原因就在於,對V2 設定的測試難度才是最高的。

而在加州DWV的MPI總排名,對三個在不同時段表現不同的系統做了平均計算,這顯然會折損一定的精準性。

「測試難度主要與系統能力相關。所測試的無人駕駛系統是任意點到點,還是固定路線?

有無高難度自動駕駛功能,如無人駕駛的經典難題:如何匯入交通擁堵的大轉盤?

這些都能反應一家公司的技術實力,也很容易被人忽視,在總體報告中就更不會呈現。」

AutoX 在接受機器之心採訪時表示,報告中的 V1 系統指代「點到點測試系統」,已在加州已連續測試超過 1 年,路測方法與 Aurora 類似,測試員無規則任意點選路,多涵蓋高難度挑戰道路,包括市區交通擁堵地段等等。

而 V2 作為「挑戰測試版系統」,是公司測試環境與測試難度最高的系統版本。

「技術人員會在大雨天氣,繁華商圈,交通高峰期連續換道、進出轉盤 round-about 等等場景對 V2 系統做反覆測試。」

另外,AutoX 也是唯一一家披露了三種測試車型的技術公司。

圖7:數據來自AutoX的2018加州自動駕駛脫離報告

不過,最能暴露這份報告「缺陷滿滿」的是圖森的數據。

之所以特地將這家公司在圖4中重點標出,是因為這是一家商業路徑與其他家有顯著差別的無人重卡技術公司,而且他們提交的是 2017 年為期兩周的數據。

這也是為何在加州總報告關於 MPI 以及路測里程的排名中,你沒有發現圖森的身影。

就像一群兔子在進行無規則賽跑,突然又混進了一頭老牛一樣,主要圍繞「無人重卡」進行測試的圖森怎麼也沒想到,自己在前年的兩周數據,也讓自己進入了「2018 年各大公司汽車測試數量」的榜單里。

沒錯,這個數據只能說明圖森曾經有兩輛在加州測試過的林肯乘用小車。

「其實這個排名跟我們沒有多大關係,」在報告發布後,圖森接受了機器之心的獨家採訪,但並不願意對這份報告做出太多評價,因為自己提交的那兩周數據跟自己的主營業務八竿子打不著。

「這是我們在 2017 年提交的兩周乘用車測試數據,但不知道為何 2018 年還放出來,數據肯定是過時的。」剛剛因 9500 萬美元 D 輪融資晉陞為獨角獸的圖森顯然有點哭笑不得,

「另外我們的主營業務是無人重卡貨運,已經在亞利桑那州開始商業試運營,後者才是我們的主要路測陣地。」

實際上,處於同一賽道,以自動駕駛計程車為落點 Pony.ai、Roadstar 和文遠知行也有與圖森一樣尷尬的情況——

很大一部分路測工作其實放在了加州以外的地方(看圖4)。

而加州的路測數據,僅僅是他們很小一部分樣本量。

此外,這幾家公司也在報告發布後接受我們採訪時承認,MPI 受到的干擾因素其實很多,而最終技術的好壞,還是要取決於客戶的評價。

「測試與運營是兩個不同的狀態,會對人工介入產生較大的影響。另外,每家公司都有自己系統的調試標準以及安全員的接管標準,這也跟乘坐體驗密切相關;

當然,氣候和天氣也很關鍵,譬如亞利桑那州就全年陽光充足,氣候乾燥,雨雪天氣很少,能夠降低自動駕駛汽車感測器出現問題的概率。」

文遠知行在這裡提到的「調試標準」,可以以自動駕駛圈內很多家測試車總是出現的「假陽性」現象作為參考——

此前坐過通用及 Waymo 測試車的乘客曾抱怨過,即便前方沒有任何安全威脅,車輛還是會突然踩下剎車而停下來,原因就是系統被技術人員過度調試了,不管什麼情況都會猛踩剎車「提醒」一下司機和乘客。

而 Uber 的致命車禍則是一個反例,正是因為系統被調試地不怎麼敏感,外加安全員關鍵時刻不給力,才最終釀成大禍。

因此文遠知行認為,MPI,只有輔以「路測車輛數、自動駕駛里程數、長尾場景破解能力、乘坐體驗」等等多項指標,才能對一家公司的技術實力做出客觀判斷。

而以外賣和物流為商業落點的 AutoX 更是直言不諱地指出,每家公司計算 MPI 的方式如果加入「水分」,就會導致結果出現很大的差異

譬如,有些公司處理 MPI 數據的方式是這樣的:

將每個人工干預的數據均導入模擬器,由工作人員主觀判斷一下在那個場景里安全員不干預是否可以被接受,假如可以接受,就判定為零人工干預。

「部分初創公司在總里程數明顯低於谷歌 2016 年裡程數的情況下,報出與谷歌 2016 年類似的 MPI,側面反應各公司 MPI 的計算方式有所差別。」

圖8:2016年谷歌自動駕駛部(Waymo前身)的全年行駛里程為635868英里,「脫離」124次,0.2次/千英里,測試車70輛。但值得注意,2016年與2018年的測試難度和自動駕駛技術水平已經不能同日而語

如此總結下來,在未統一其他變數之前,絕不能單憑一個 MPI 數字對一家公司的技術水平做出評價,更不可能根據一份報告對「誰強誰弱」做出絕對的判斷。

如果要做橫向參考,只有一句話,請將業內的所有指標「搭配食用」。

「其實加州 DWV 在報告上傳要求中有說明,除了系統脫離報告,還要標明脫離時的環境和測試條件,當時的位置和環境,氣候提聳肩,以及每台車在公共道路條件下行駛的里程。」Pony.ai 提醒我們,

「儘管這份報告有各種不完美,但實話說,目前全球似乎沒有更好的觀察維度了。」

當然,有公司填的詳細,有公司則一帶而過,最後仍然取決於公司自己的「品格」。

所以,作為一家負責任的科技媒體,我們的建議是,如果你對哪家公司感興趣,建議你去找出這份報告來細細品讀。

因為,無論是披露的各項數據還是路測細節,不僅能夠看出一家公司的成長軌跡,還能從側面反應出一家公司的技術偏好與技術態度。


推薦閱讀:

TAG:人工智慧 | 自動駕駛 | 科技 |