相比較於半導體等行業，人工智慧有所謂的「核心技術」或「技術壁壘」嗎？

12-29

對於一些硬體行業，比如半導體，精密儀器，發動機等，我們經常說核心技術在美日英德，也經常會有技術壁壘的說法。尤其是在中興晶元禁令事件之後。
那麼對於人工智慧，大數據這類偏演算法方面的東西，是否存在大多數人並不掌握但又是必需的「核心技術」呢？

寫行研報告的時候做過一些調查，深度不夠，僅供參考。

先說人工智慧領域的一些特徵：

雖然人工智慧和晶元都有教長的歷史，但從「蓬勃發展期」來看，晶元領域要早得多，我們沒能趕上晶元的發展期。而人工智慧則不同，中美在技術上雖有差距，但遠遠不像晶元行業那樣難以逾越。幾個小指標可以看出：(i) 各大學術會議上中美的論文數不存在數量級差別；(ii) 工業界也都有成熟的應用以及科技巨頭；（iii）國家層面上都有戰略性的認識。
我們常常認為晶元行業是硬體，而人工智慧是一種技術（演算法），其實不然。這種誤解存在於人工智慧是一個定義廣泛的概念，甚至被濫用了。往大了說，機器人，無人駕駛，機器學習（包括深度學習）都屬於人工智慧。甚至人工智慧的演算法也嚴重依賴於硬體，否則就是無源之水。
人工智慧可以被認為是一種解決問題的工具，而不單純是一個小領域。它就像風能、電能、太陽能一樣給各行各業提供動力。

如果單看硬體的話，在人工智慧領域的技術差距依然明顯，比如底層的AI晶元，依然是美國一家獨大（高通、英特爾、谷歌、蘋果等）。雖然我們也有中星微、深鑒科、寒武紀等，但還存在數量級的差距。所以有答主提到了「如果沒有了N卡我們還如何發展技術」？這點是有道理的，硬體上的不足依然會制約我們的人工智慧發展。這是歷史遺留問題，但肯定會繼續影響行業。而依附在硬體上的另一個護城河就是軟硬體結合的研究和應用，比如機器人，比如相關的軍事研究。因為研究主體是企業或是政府，那麼因為各種考慮可能不會開源/公開演算法。越是這種高成本的研究，越是有防護性，所以才需要政府提高到戰略高度。

單說演算法的話，因為基本都是公開透明的，的確不是護城河，但這不代表「軟實力」不重要。不少答主提到的另一個重要資源就是「人」。一個共識是我們在演算法應用上走的比較快，但在更底層的演算法研究上還比較初期。換句話說，我們現在還屬於發達國家挖坑，我們淘金。金子總會挖光，但坑卻不常有。讓我們做一個假設，如果我們再也無法看到歐美國家的學術成果，我們是否能夠獨立推動這個領域發展？我覺得建立「以人為本的護城河」有幾點很重要：

健康的教育體制，能培養一些踏踏實實做研究做開發的人，而不單純是拼指標的人。一個簡單的例子就是，如果不再唯CCF、SCI是舉，大家或許可以做一些更純粹的工作。
能夠應用技術的人，也就是可以把人工智慧在傳統領域落地的人，比如醫學、交通、水文等。這需要傳統行業的人也嘗試了解人工智慧和機器學習，並思考如何應用於自己的領域。在這點上，基於我們龐大的市場和人口基數，是很有希望的。

總結來看，在人工智慧領域，(i) 短期來看硬體依然是不可逾越的護城河，(ii) 而軟硬體結合的商業、軍事研究成果因為其高成本和特定原因也是戰略性的。(iii) 從長期來看，真正的護城河是領域人才。我們需要能做開創新研究的人，這樣的願景需要對基礎研究的支持以及升級現有的科研評價體系。至於把技術落地到各行各業，我們一直都做的不錯，只需要更多不同行業的人嘗試使用這個「新電力」。

或許這一場比賽我們能贏呢？

有的。我剛學NLP的時候，看很多文章說用tf-idf做關鍵詞提取，心想這麼容易。等我真上手做發現，這效果怎麼跟翔一樣，再看別人，發現卧槽，各種獨門秘笈；而且這些秘籍，在網上根本搜不到。真不是你知乎上，看兩篇博客就能學到的。

還有一個重要的壁壘就是數據！同樣一個任務，不管你怎麼調參，我100萬數據，就是吊打你10萬數據，更何況，我有上億上十億數據呢？跟我斗？有數據就是可以為所欲為

AI的「核心技術」或「技術壁壘」並不是原始演算法本身，而是那些為特定應用領域 (比如: 金融, 軍事等) 而開發的變體。這些in-house developed演算法是機密，因此沒有公開論文或共享源碼，如果你想開發類似應用必須重新發明輪子，把所有的坑踩一遍。換句話說，如果你想提高在AI行業的長期競爭力，你應該深入某個垂直領域，成為不可替代的專家或是創業者。

沒有，工業屆涉及數據業務的壁壘有：用戶流量壁壘，數據規模壁壘，場景業務成熟度壁壘，和人工智慧演算法基本沒關係，數據邏輯打通其實調包alexnet都能賺錢，雖然巨low。

至於學術界。。。好像只要開源演算法就沒啥壁壘了，而不開源演算法的壁壘，主要是現在論文飄逸的故事線製造大量閱讀門檻，不看源代碼都不知道作者在幹啥。

如果google封了TensorFlow，按照國內大廠的能力重新開發一個並不是難事，估計給一個碼聖差不多也能做出來。互聯網不是一個面向生產資料的行業，人才才是這個行業的最終壁壘

調參？比如用 Bayesian Optimation 精調的一組網路結構和超參數和網路初始化參數？是用 65536塊 P100 精調一年得到的，效果好且有不錯的泛化能力和遷移能力，調一次用一輩子~~想再調也要在其基礎上再調~

【類似的，很多RL的參數也很難調，很難訓練，很難收集數據之類的~】

比如 10^8 小時的無人車駕駛數據這種~

比如公司內部NN包的底層優化演算法，可以讓網路預測快10倍？

比如大規模精標數據集？如何word2vec訓練數據規模相當但是標註了word sense的數據集？

人在用時只需要使用預測網路參數或者只需要介面就好了~無需明確細節的~