相比較於半導體等行業,人工智慧有所謂的「核心技術」或「技術壁壘」嗎?
對於一些硬體行業,比如半導體,精密儀器,發動機等,我們經常說核心技術在美日英德,也經常會有技術壁壘的說法。尤其是在中興晶元禁令事件之後。
那麼對於人工智慧,大數據這類偏演算法方面的東西,是否存在大多數人並不掌握但又是必需的「核心技術」呢?
寫行研報告的時候做過一些調查,深度不夠,僅供參考。
先說人工智慧領域的一些特徵:
- 雖然人工智慧和晶元都有教長的歷史,但從「蓬勃發展期」來看,晶元領域要早得多,我們沒能趕上晶元的發展期。而人工智慧則不同,中美在技術上雖有差距,但遠遠不像晶元行業那樣難以逾越。幾個小指標可以看出:(i) 各大學術會議上中美的論文數不存在數量級差別;(ii) 工業界也都有成熟的應用以及科技巨頭 ;(iii)國家層面上都有戰略性的認識。
- 我們常常認為晶元行業是硬體,而人工智慧是一種技術(演算法),其實不然。這種誤解存在於人工智慧是一個定義廣泛的概念,甚至被濫用了。往大了說,機器人,無人駕駛,機器學習(包括深度學習)都屬於人工智慧。甚至人工智慧的演算法也嚴重依賴於硬體,否則就是無源之水。
- 人工智慧可以被認為是一種解決問題的工具,而不單純是一個小領域。它就像風能、電能、太陽能一樣給各行各業提供動力。
如果單看硬體的話,在人工智慧領域的技術差距依然明顯,比如底層的AI晶元,依然是美國一家獨大(高通、英特爾、谷歌、蘋果等)。雖然我們也有中星微、深鑒科、寒武紀等,但還存在數量級的差距。所以有答主提到了「如果沒有了N卡我們還如何發展技術」?這點是有道理的,硬體上的不足依然會制約我們的人工智慧發展。這是歷史遺留問題,但肯定會繼續影響行業。而依附在硬體上的另一個護城河就是軟硬體結合的研究和應用,比如機器人,比如相關的軍事研究。因為研究主體是企業或是政府,那麼因為各種考慮可能不會開源/公開演算法。越是這種高成本的研究,越是有防護性,所以才需要政府提高到戰略高度。
單說演算法的話,因為基本都是公開透明的,的確不是護城河,但這不代表「軟實力」不重要。不少答主提到的另一個重要資源就是「人」。一個共識是我們在演算法應用上走的比較快,但在更底層的演算法研究上還比較初期。換句話說,我們現在還屬於發達國家挖坑,我們淘金。金子總會挖光,但坑卻不常有。讓我們做一個假設,如果我們再也無法看到歐美國家的學術成果,我們是否能夠獨立推動這個領域發展?我覺得建立「以人為本的護城河」有幾點很重要:
- 健康的教育體制,能培養一些踏踏實實做研究做開發的人,而不單純是拼指標的人。一個簡單的例子就是,如果不再唯CCF、SCI是舉,大家或許可以做一些更純粹的工作。
- 能夠應用技術的人,也就是可以把人工智慧在傳統領域落地的人,比如醫學、交通、水文等。這需要傳統行業的人也嘗試了解人工智慧和機器學習,並思考如何應用於自己的領域。在這點上,基於我們龐大的市場和人口基數,是很有希望的。
總結來看,在人工智慧領域,(i) 短期來看硬體依然是不可逾越的護城河,(ii) 而軟硬體結合的商業、軍事研究成果因為其高成本和特定原因也是戰略性的。(iii) 從長期來看,真正的護城河是領域人才。我們需要能做開創新研究的人,這樣的願景需要對基礎研究的支持以及升級現有的科研評價體系。至於把技術落地到各行各業,我們一直都做的不錯,只需要更多不同行業的人嘗試使用這個「新電力」。
或許這一場比賽我們能贏呢?
有的。我剛學NLP的時候,看很多文章說用tf-idf做關鍵詞提取,心想這麼容易。等我真上手做發現,這效果怎麼跟翔一樣,再看別人,發現卧槽,各種獨門秘笈;而且這些秘籍,在網上根本搜不到。真不是你知乎上,看兩篇博客就能學到的。
還有一個重要的壁壘就是數據!同樣一個任務,不管你怎麼調參, 我100萬數據,就是吊打你10萬數據,更何況,我有上億上十億數據呢?跟我斗?有數據就是可以為所欲為
AI的「核心技術」或「技術壁壘」並不是原始演算法本身, 而是那些為特定應用領域 (比如: 金融, 軍事等) 而開發的變體。這些in-house developed演算法是機密,因此沒有公開論文或共享源碼,如果你想開發類似應用必須重新發明輪子,把所有的坑踩一遍。換句話說,如果你想提高在AI行業的長期競爭力,你應該深入某個垂直領域,成為不可替代的專家或是創業者。
沒有,工業屆涉及數據業務的壁壘有:用戶流量壁壘,數據規模壁壘,場景業務成熟度壁壘,和人工智慧演算法基本沒關係,數據邏輯打通其實調包alexnet都能賺錢,雖然巨low。
至於學術界。。。好像只要開源演算法就沒啥壁壘了,而不開源演算法的壁壘,主要是現在論文飄逸的故事線製造大量閱讀門檻,不看源代碼都不知道作者在幹啥。
如果google封了TensorFlow,按照國內大廠的能力重新開發一個並不是難事,估計給一個碼聖差不多也能做出來。互聯網不是一個面向生產資料的行業,人才才是這個行業的最終壁壘調參?比如用 Bayesian Optimation 精調的一組網路結構和超參數和網路初始化參數?是用 65536塊 P100 精調一年得到的,效果好且有不錯的泛化能力和遷移能力,調一次用一輩子~~想再調也要在其基礎上再調~
【類似的,很多RL的參數也很難調,很難訓練,很難收集數據之類的~】
比如 10^8 小時的無人車駕駛數據這種~
比如公司內部NN包的底層優化演算法,可以讓網路預測快10倍?
比如大規模精標數據集?如何word2vec訓練數據規模相當但是標註了word sense的數據集?
人在用時只需要使用預測網路參數 或者只需要介面就好了~無需明確細節的~
推薦閱讀: