用SQL替代機器學習,這是新時代的「電風扇吹香皂盒」嗎?
來自專欄航通社9 人贊了文章
本文首發於航通社,原創文章未經授權請勿轉載。航通社 (ID:lifeissohappy) 微博 @lishuhang
7月1日,在Hacker News上面有一篇文章火起來了。作者是奈及利亞的軟體工程師Celestine Omin,至於題目嘛……足夠驚悚:《要啥機器學習/人工智慧,用SQL就夠了》(No, you dont need ML/AI. You need SQL)。
( https://cyberomin.github.io/startup/2018/07/01/sql ml ai.html )
Omin曾經就職於奈及利亞最大的電商網站之一Konga。在為他們優化購物流程,提升復購率的過程當中,他使用SQL解決了一些問題,而這些問題是人工智慧和機器學習業界反覆宣傳的應用場景。
Omin說,現在人們需要那麼複雜的AI來改造一切,不過有的時候,他們只是需要一項1970年代就已經被發明出來的技術。
文章在Hacker News上面的評論區還真是挺火爆的,而該文也因此被譯介到國內。
( https://zhuanlan.zhihu.com/p/38827634 )
當人工智慧已經成為一門顯學的時候,如果你不跟進,也許會冒著成為「新世紀的老古董」的風險。此時怎麼也入不了門的我們,可能非常需要一篇反潮流的文章來潑盆冷水,順便給自己吃顆定心丸。而Omin的文章就承擔了這樣的角色。
1 | 這會是一個有理有據的「段子」嗎
Omin說他在供職於Konga時,只是跑了一遍資料庫,就篩選出所有3個月沒有登錄過網站的用戶,給他們重新推了優惠券。另外,還跑了一遍用戶購物車的商品清單,從而決定該怎樣根據這些熱門商品,決定推薦什麼相關聯的商品。
而這兩個例子——對老用戶精準營銷和個性化推薦,都是機器學習/AI最為常用的領域之一。雖然SQL做出來的用戶畫像和結果遠不如AI訓練後精準,但似乎已經完全夠用了。
Omin說用SQL查詢潛在回頭客的方法「比用AI和ML演算法的效果厲害得多」;而基於SQL的個性化推薦,大多數營銷郵件的打開率在7-10%之,做得好時打開率接近25-30%,是行業平均打開率的三倍。
有鑒於採用AI/ML的投入要高很多,而且是持續性的租用投入,兩相比較,讓航通社想到兩個傳了很久的中國段子,就是「電風扇吹香皂盒」和「宇航員用鉛筆」。
為了方便沒聽說過的同學,簡單複述一下:段子說,某香皂廠要挑出沒裝香皂的空盒子,花大價錢做了鷹眼什麼的機器,然後中國的一個小工花幾十塊錢買了電風扇,把紙盒子吹跑了。
段子還說,NASA投入巨資開發了在失重條件下也能使用的太空自來水筆,而俄國人沒用這個研發經費,只是用鉛筆寫字就解決了問題。
很顯然,用小聰明的「0成本」方案,絕對不可能是十全十美的。對這些段子的「闢謠」指出,電風扇吹紙盒會造成生產線上盒子亂飛,而鉛筆會導致石墨碎屑飛到空中。
相信段子的人,可能並沒有親身體驗過超級工廠或太空嚴苛環境,或者沒受到過相應的教育;而恰好段子提出的方案,針對小本經營的個體戶非常實用,可以在大家心中產生共鳴。
與段子不同的是,說AI/ML不如SQL的Omin並非信口開河,而是基於自己的實踐經驗總結的。而他所服務過的,又是一國最大的電商網站。這是否意味著事情會有什麼不一樣呢?
2 | 爆文背後,奈及利亞電商現狀幾何
對大多數從事AI/ML的人們來說,奈及利亞是很陌生的一個市場,自身並沒有切身的體會。如果貿然挑戰Omin,是否會成為另一個維度上的「井底之蛙」呢?
要想看Omin所說的情況到底是不是成立,還是得根據奈及利亞的實際情況,結合他的語境去具體分析。
奈及利亞的電信基礎設施和互聯網業界狀態,有點兒像2004-2008年的中國。絕大多數有意上網銷售的賣家,都會自己購買域名和空間,建立有自己購物車的獨立網店,但這類個體戶的生存土壤正在消失。
隨著本土作戰的Konga,和由著名孵化器Rocket Internet扶持的Jumia成為奈及利亞電商平台兩強,以往的小電商個體戶紛紛進駐,似乎正形成一個類似淘寶和京東的競爭局面。
( http://www.cifnews.com/article/28816 )
Rocket Internet希望通過Jumia,在非洲複製其在東南亞的成功經驗,誕生下一個Zalora、Lamudi。
Omin所供職的Konga擁有本土和先發優勢,該網站始建於2012年,已經有了一萬個左右的入駐商戶,同時在全國擁有300多個線下的取貨點,還擁有自己的支付平台。
然而,就是這樣的一個「五臟俱全」的電商綜合體,在今年3月份因為經營不善,嚴重虧損被……賣掉了。
去年11月,Konga裁掉了近60%的員工,今年2月被當地移動通信運營商Zinox收購,隨後原 CEO Shola Adekoya 辭職。
Zinox旗下擁有一個自營電商網站Yudala,現在和Konga合併,並採用更響亮的Konga品牌(不禁讓人想起京東和拍拍網)。
(http://www.cifnews.com/article/34538)
這……可能就很尷尬了。
Omin作為一個技術人員供職Konga網站,假如這位大哥先做完優化,Konga才被賣,那就說明他所做的這些優化,也沒有起多大作用;
而如果是在今年3月合併之後才進行,那隻能說明這個「奈及利亞最大電商網站」的基礎太差,底子太薄。
在初始狀態是一窮二白的情況之下,隨便進行一點優化,都可能會帶來非常之大的業績提升,確實是不管走什麼路,走出去了就是勝利。
實際情況可能更接近後一種。2016年Konga的活躍客戶是18.4萬,不足奈及利亞人口的1%。
Konga花大力氣自己建立起物流配送系統和支付系統,但仍受制於奈及利亞道路基建的落後,以及網速網費的不靠譜,甚至是地方通信地址系統的標準不一……
由此導致的投入越多,虧損越大的惡性循環才是拖垮Konga的主要原因,而SQL或者AI/ML都不會起到決定性的作用。
3 | AI是鎚子,而世間萬物不都是釘子
在Hacker News對Omin文章設置的評論區中,可以看到相當多的人對他吐槽AI/ML的暗諷語氣有意見,爭著指出AI的特殊用途,或者作者可能的思維誤區。
( https://news.ycombinator.com/item?id=17433752 )
大家認為,這樣「取巧」的做法肯定只是適用於從0到1的小本經營,做一個MVP(最小可用產品)來驗證商業模式。然而如果從1到100的過程當中,事情肯定就沒這麼簡單了。
一種說法是,跟SQL簡單粗暴的運算規則相比,AI的模糊和混沌可以更精緻,更細膩,更潤物無聲,讓用戶察覺不到。
例如一個可能被中國消費者注意到的問題:如果你已經買過了一台汽車,你再給他推廣同類型的汽車,這廣告可能是他們最不想看到的。他們想看到的可能是汽車零配件。
再比如優惠券的問題。Omin給那些沉寂了一段時間的客戶,推送的都是統一面額的優惠券。那麼對於有些人來說,有可能你不用給他們推一個7折的優惠券,而是只推一個95折的優惠券,他們就會回來購買了——所以統一推送等於浪費錢財。
另一種說法涉及用戶規模問題。就像任何人都可以根據初步知識和簡單編程,搭建一個支持最多5到10個人同時在群里聊天的軟體。但是如果你把這個用戶量擴大到10億,那麼全世界恐怕只有微信和Facebook才能做到。
只有了解了Konga的背景,我們才能知道SQL確實可以適用於這個僅有數十萬註冊用戶的電商網站。
實際上,這篇文章最大的作用,在於它批判了一種「唯人工智慧論」或者說「人工智慧萬能論」。
航通社在《賭球2018:有了AI又怎樣》中認為:
「任何演算法的背後,都是設計者意志的體現。只要AI完成了人們交給它的任務,就算是符合預期。AI可以將以往需要大量人力做的統計,數學運算,概率計算等等工作,濃縮在1秒內完成,這就是它的價值。」
(https://mp.weixin.qq.com/s/ 8lwl6f NnTw_iVhR8C4jA)
把AI替換成SQL,這種描述其實也是完全適用的。SQL也可以將查詢資料庫和返回結果的過程縮短在很短時間內。而且用來形容Access,甚至Excel都是可以的。這幾種從上到下的「消費降級」自然是可以滿足不同層級數據量相應需求的最佳方案。
如果一家大公司已經到了大規模應用AI/ML的程度,但公司因為多年積累,也同時有一些傳統的「電風扇吹香皂盒」式土味解決方案(不只是SQL),那麼從今後的維護友好度來講,全面升級或重構舊系統,將一切問題都交給AI處理是理所當然的。
但對於一家在奈及利亞的規模較小的電商公司來說,如果他花大價錢去遷移到AI,那麼這等於去擁抱一種該國都沒有多少人了解的技術,而高造價和一定的風險,都讓切換到新系統的成本大大提升,也就是費力不討好了。
我們當然有理由假設任何一家採用SQL的公司,都有實力成長為不得不用AI的大型企業。但至少在此之前,AI可能並不適合所有情況。
所以一些佈道者們把AI視為一把鎚子,然後覺得這個世界上的每一個問題長得都像釘子,這樣的思維確實應該調整。
AI雖不算萬能,但做的事情還是越來越多:
- 谷歌助手點餐,微軟小娜下單:AI 橫行的未來世界裡,沒有人類什麼事
- 顫抖吧人類!AI 正佔領中日播音主持人行業
- Facebook 錯把越戰老照片當「兒童色情」,AI 編輯笑話百出難擔重任
歡迎轉發到朋友圈。受權轉載航通社稿件時,請保留版權信息。尋求授權,請關注微信公眾號航通社 (ID:lifeissohappy) ,並在後台留言輸入關鍵字「轉載」
推薦閱讀:
※前言與文章目錄
※如何用 Python 和 API 收集與分析網路數據?
※聚類分析簡單介紹(附R對應函數介紹)
※基於 XGBoost 對 Santander 銀行用戶購買行為進行預測
※機器學習識別材料相變--基於掃描探針顯微鏡的數據挖掘