深度學習之後:經濟推理與人工智慧
未來,我們將越來越多地被人工智慧所包圍。AI所面臨的對象不僅僅是人類和自然,還包括人工智慧本身。因此,理解AI彼此之間的互動就變得越來越重要。本次集智俱樂部公眾號重磅推出了「泛在的AI」系列翻譯文章,旨在介紹人們對由大量互動的AI構建的系統所做的最新研究成果和認識,這包括Science雜誌上的重磅綜述文章 「經濟推理與人工智慧」,它提出了「機器經濟學」這一全新研究方向,指出主流經濟學所構建的完美「經濟人」這個物種可能更適用於AI而非人類。「人工智慧在怎樣對經濟學理論產生改變?」是對這一綜述文章的評論。「從大數據的衰落到演算法經濟的興起」這篇文章則該述了演算法經濟將取代大數據分析成為全新動向這一商業趨勢。
摘要
在人工智慧(Artificial Intelligence, AI)領域中,人們正在建立可以感知周圍環境、為達到特定目的而採取理性行動的智能主體(agents)。換句話說,AI研究者們正在試圖建立一個人造的「理性經濟人」(homo economicus,即新古典主義經濟學塑造的那個神化般完美的理性經濟主體)。這篇文章綜述了人們在創造「機器經濟人」(machine economicus)這一新機器物種方面的研究進展,並對如何構建可在經濟學情境下進行有效推理的人工智慧所面臨的挑戰進行了深入探討。假如AI實現了這一目標,或者至少足夠接近了,即可以用理性主義的術語去思考AI了,那麼我們就可以考量如何為多主體系統設計互動規則以表達那些由AI構成的經濟系統。我們會發現,那些來源於經濟學的規範化(Normative)設計理論更適合AI主體而不是人類主體。這是因為AI可以更好地符合那些理想化的假設,並能夠遵循更新的規則和激勵系統,而不是為不完美理性的人量身定製的規則來完成互動。
經濟學是通過給人、公司和決策者的行為建立模型來研究經濟活動,包括價值的創造,轉化和實現,並試圖抽象出規律。模型通常假定經濟活動的參與者(人、公司、決策者)的行為是完全理性的,也就是說,參與者會基於可供選擇範圍,個人偏好和經驗做出對自己最有益的決定。因為經濟學使用數學工具來精確地量化經濟活動,所以理性決策模型可以套用在經濟學上。一些批評者認為經濟學研究的對象「經濟人」是一種虛構的物種,所以基於此構建的理論很難應用到真實人的行為上;而支持者承認理性模型雖然過於理想化,但是認為抽象模型並不是分析預測人的行為(集體或個人的行為)的。儘管理性模型不能完全準確地模擬人的行為,但是它可以從人們所做的決定中觀察到個人偏好,也可以為政策的制定提供一些洞見。
人工智慧研究同樣涉及理性的概念,因為它為人們試圖創建的計算人工物(computational artifacts)提供了理想化的參考。人工智慧現代概念的核心是設計智能主體(感知環境並執行行動的實體(1))。評判人工智慧設計的好壞是通過主體感知環境、採取行動後,比較行動結果與既定目標來判斷的。感知、行動和目標的一致性是理性概念的本質。如果我們用主體在結果上的偏好程度來表示目標,並設定它在不確定性的決策框架下進行感知和行動,那麼人工智慧主體所面臨的情形就剛好是標準經濟學範式下的理性選擇問題。因此人工智慧設計者的任務是設計理性主體,或是在計算資源限制下最理性的主體(2-4),換句話說,人工智慧用硅和信息作為材料合成出了「經濟人」,更準確地說,是「機器經濟人」。
因為人工智慧和經濟學都可以用理性模型來抽象,對兩者進行跨學科研究便有了堅實的基礎。我們要通過描述如何應用理性模型構建可以理性地與其他AI主體互動的AI主體等問題來開始這篇綜述。假設AI已經成功地開發了一個完全理性的主體(可能比人理性很多),我們便可以研發由多個AI主體組成的系統,到時候這種多主體系統便可被當作AI經濟系統,其中AI主體能與其他主體,公司和人進行交易。這個想法已經激發人們擴展經濟學的規範設計理論,改進規則以應對多個AI主體的交互(5)。AI主體組成的系統可能呈現出新的經濟現象,因此需要一個新的學科來理解它的運行方式和設計原理。比如說,人類認知的局限性限制了當前市場的設計,而AI主體組成的系統可能會出現更複雜的交互環境,更快的計算速度以及更大的計算量,這些問題都非常值得人們關注。
與此同時,人工智慧的行為方式與人的行為方式的偏差也會帶來新的挑戰。在未來,我們將見到這樣的景象:簡易的人工智慧機器人在亞馬遜網站上給書籍定價,在opentable(餐廳預約的一款APP)給餐廳的座位定價(6)。雖然這些行為可以提高效率,但是由於AI機器人缺乏常識,以及設計者設計存在缺陷,一本書可能會被定價到2300萬美元(7)。在未來,有關AI的複雜政策,更加嚴格的審查制度會對金融市場產生巨大影響;自動交易演算法將會出現在美國股票市場70%以上的交易中(8)。考慮到這些情況,深入理解無處不在的AI主體在經濟體系中的表現顯得尤為重要。由於我們的推理已經從人轉變為AI,而這些AI是為了幫助我們獲取人類偏好、消除人類決策偏差,以及在複雜的環境中權衡成本和收益而設計的,所以我們必須思考改變我們賴以生存的經濟機構和組織,以應對這種轉變。
在「機器經濟人」已然浮出水面之際,我們將關注經濟學和AI交叉領域中的一些最重要的研究方向。我們將簡要提及AI應用如何解決經濟學上的一些常見的問題,比如匹配問題(9),市場清算問題(10)和智能電網的建模問題(11)。我們也會展示AI是如何在現實中應用經濟學理論的:比如多主體學習過程的博弈方法(12),以及多主體系統的投票表決程序(13)。
構建「機器經濟人」
構建理性的AI提出了一系列技術挑戰,這些挑戰在以往任何社會科學的理性主義建模中都沒有提及。對經濟學而言,主體態度(例如,信念和偏好)背後的理性是一種概念性的抽象。經濟學家不必解釋如何編碼主體的「能力」和「偏好」,也不必說明主體的規劃與行動演算法,這些演算法應該在以其認知基礎為條件來執行的。
儘管許多AI架構確實直接以命題、目標等類似概念進行表徵,但這並不意味著AI設計需要直接引入基於理性構造的數據結構。這樣的表示可以簡化AI系統的分析——例如,我們可以詢問一個在具有穩健性的邏輯表達式上工作的推斷演算法是否能夠保證所有結論都遵循前提。同樣,如果AI的信念被編碼為概率分布,那麼我們可以詢問它是否會根據貝葉斯理論和觀察到的正確信息來更新其「信念」。然而,我們必須小心我們對主體態度的理解只是建立在其內部數據結構方面。決策中的缺陷或許意味著計算主體所持有的「信念」、追求的「目標」實質上與它們的直接編碼存在著系統性差異。
為了說明這種差異,讓我們來看一個例子,即機器學習研究人員從動物學習中借鑒的「獎勵成形」(reward shaping)概念(14)。在強化學習中,主體會根據回報(對主體所在狀態和行動的瞬時估值)來得到一個策略函數(從感知序列到行動的映射)。一個設計者在明確了輸入獎勵的情況下,可以通過在學習過程中塑形獎勵信號來更好地向設計者的最優目標收斂,從而更有效地訓練主體。最優獎勵框架(15)可以為我們提供一般的區分獎勵規範和設計者目標的解決方案。如圖1所示,對主體輸入的最佳報酬通常與設計者的理想報酬不一致。這個視角有助於解釋內在動機(如:好奇心)對一個靈活學習的主體所起到的作用。
圖1: 一個受限的強化學習主體在一個刻意設計的而非客觀的回報函數(它實際的回報函數)指導下可以表現得更好。左圖展示了一個網格世界追逃(右)模型的表現曲線,其中主體的視野受到了各種限制(84)。除非主體是完美理性的(視野不受限制,但這在實際中不太可能),否則設計者通常可以通過讓主體直接優化一個替代的估值函數從而實現更好的表現。雖然並不是所有AI研究人員都採用設計「機器經濟人」的方式(特別是明確地使用這些術語)來解決問題,但在過去幾十年的時間裡,許多AI的進展都可以被理解為是讓理性可操作化(operationalizing rationality)的進展。例如,30年前的AI在很大程度上避免使用概率推理,但現在卻已經非常普遍,這是由於貝葉斯網路和相關的基於概率圖的形式框架得到了大力發展。現在的概率建模語言已經可以支持一般關係的不確定性表達,這就超出了單純用命題做表達的限制(16)。統計方法目前已經主導了機器學習和自然語言處理(17,18)領域。同樣,對於偏好的處理(包括從AI主體設計者那裡顯示地獲取偏好;緊湊地表達在複雜情形下的偏好,並讓基於偏好的推理可執行)也已經被視為AI的標準配置。「規劃」,即AI的一個子學科,研究在時間之上的行動,現在通常被形式化為一種在受限資源,存在多個目標,以及動作具有概率效應的情況下的優化問題。
AI會成功地開發出理想的理性主體嗎?儘管我們努力創造「機器經濟人」,絕對完美的理性在有限的計算資源下還是不可能實現的。更重要的問題是AI主體是否會與理想情況足夠接近呢?現在的發展的確已經如此了,至少在有限的意義上是。每當我們對我們的機器進行擬人化描述時,我們基本上就在將它們視為理性的人,並根據它們的知識、目標和意圖的模型來回應他們。這個問題的一個更精鍊的版本是,形式化的理性理論將會非常好地適用於絕對語境下的AI主體行為,或將之與應用到人類身上的情況進行比較。儘管我們對理性理論能夠多好地刻畫人類行為還沒有搞清楚,但具有諷刺意味的是,我們注意到,社會科學理論可能會更加忠實於非人類行為。
關於其他主體的推理
主體理論化的問題不僅是學術問題。如果我們可以構建一個AI主體,那麼我們就可以構建許多個人工主體,而這些AI主體會像人一樣對其他AI主體進行推理。對於為逼近「機器經濟人」而設計的AI代理而言,它們應該彼此認為都是理性的,這至少可以作為一個基線假設。這些AI主體將採用一種博弈論的視角來看待世界,其中主體對彼此的行為做出理性的反應,這一點也應該被(遞歸地)假定是合理的。結果是,主體將希望它們的共同決策滿足某種均衡,就像在標準的經濟學思想中一樣。
現在越來越多的AI研究將經濟均衡模型應用到涉及多個主體的情境中,在這裡AI主體(或AI與人類的組合)被合理地建模為近似理性的。該方法取得了顯著的成功,至少在一些特定的環境下存在一些此前提的證據。正如單一主體理性不需要文獻中的效用計算一樣,均衡模型的適用性也不需要主體自身明確參與均衡推理。例如,關於博弈中的學習(learning in game)的文獻(20)已經發現了大量有關簡單的適應策略會收斂於策略平衡的條件。我們可以通過檢查AI設計師為特定任務構建的主體來評估經濟建模的有效性。例如,在一個對購物遊戲(21)中相互競爭的AI交易主體的研究中,使用來自經濟學的標準價格均衡模型(具體地,瓦爾拉斯均衡Walrasian equilibrium)的主體,在沒有使用任何數據的情況下,就實現了與複雜的機器學習方法相當的預測精度。
在本節的其餘部分,我們描述了更多例子,其中,以博弈論演算法為形式的經濟建模為AI主體推理其他主體提供了有效的方法。第一個例子是計算機撲克。雖然撲克僅僅是一種人造的遊戲,人們卻投入了大量的時間和金錢來玩它以提生自己的技能。更重要的是撲克的不確定性和複雜性使它成為對AI技術的一個重要挑戰。早期的研究旨在捕捉專業玩家的知識(22),但在過去的十年中,博弈理論演算法佔據了主導地位。 從技術上講,撲克是一個不完美信息博弈,每個玩家都知道他人不知道的歷史片段(發給他們的牌)。 隨著時間的推移,通過轉牌和投注,不確定性部分得到消解,玩家必須更新他們對自己的牌局的信念和對他人的信念。
2014年,計算機撲克取得了重大突破,這就是 「head up limit holdem」(HULHE)——一個最流行的標準雙玩家版本的撲克遊戲變種的問題求解被攻克(23)。HULHE是人類已解決的不完全信息遊戲中最大的一個(除去對稱性後有超過1013個信息集),也是在日常遊戲中,第一個被解決的不完全信息遊戲。該解決方案是一系列研究者(參見圖2)二十年努力的結果,從簡化撲克遊戲的精確解開始,到完整遊戲(24)的抽象版本的大致解決方案。 計算整個遊戲的近似納什均衡需要大量計算和一種基於「遺憾匹配」(regret-matching,誕生於機器學習的一種方法)技術的平衡搜索新方法。結果是我們能夠得到一種策略,使用這種策略可以讓即使完美的對手也占不到任何便宜。
圖2: 從1995年到現在,學者們就在不完美信息博弈問題上持續獲得指數方式增長的進展。到了2007年(左),博弈的尺寸通常用博弈樹的節點數來衡量的。而在那時,人們用信息集數量(每個都有多個節點)來度量尺寸更合理,信息集是從玩家的角度感受到的各種不同情形。畫圓的數據點對應了相同的里程碑;將兩個圖組合在一起可以展示持續的指數改善。數據來源於文獻(23, 35, 85–90)。一般來說,針對完美對手的最佳策略可能不是理想的策略,而是對於易犯錯誤的情況更有針對性的策略。然而,儘管研究人員已經嘗試了很多,但即使在對手處於均勻分布的情況下,我們仍然沒有發現比博弈論解決方案更好的撲克演算法。人們也已經證明,即使對那些遠沒有精確求解的撲克遊戲變種而言(如賭注不受限制(25)或三個以上玩家(26),博弈論會比其他方法更成功。
AI中大部分基於博弈論的推理能夠成功是因為它能解決現實世界的問題。近年來最突出的應用領域是我們接下來要講的第二個例子,它基於Tambe等人開發的一系列系統(27)。在這些系統中,主體將通過求解一個博弈問題來決定如何布置安防設施(例如,機場中的安檢點),在這些博弈中,襲擊者被假設為一個理性的決策者並對防禦者的決策制定規劃。這種方法已經成功地部署在各種領域,包括機場與航線的安防工作以及海岸警衛隊的巡邏。
正如其他的基於博弈論方法一樣,這些系統給出的建議極其敏感地依賴於其他智能體(這裡是攻擊者)的偏好、信念、能力和理性水平。來自人工智慧的代表性方法提供了更大的靈活性,這允許我們制定一些假設從而放鬆那些博弈理論家們所採納的條件(28)。 行為博弈理論領域已經開發了詳細的預測性模型,告訴我們人類是如何對博弈論所規定的理性產生系統性偏差的(29)。這樣的預測模型可以被輕鬆地併入現有的博弈論推理演算法中,正如在安全遊戲(30)中對攻擊者建模所展示的那樣。一個有趣的開放性問題是是否能夠很好地解釋人類決策行為的模型(參見Wright和Leyton-Brown(31))也能有效捕獲計算主體的有限理性。
設計多主體智能系統
在多主體級別中,設計者不能直接編程AI的行為,而是為AI之間的交互來定義規則和激勵。這個想法是通過改變「遊戲規則」(例如使某些行為和結果與獎勵相關聯)來改變智能體的行為以實現全局目標的。系統目標可以包括:促進總價值最大化的資源分配方案,協調行為以按時完成項目或彙集分散信息以形成對未來事件的準確預測。這種改變交互環境的能力是特別的,它能將這種設計與在給定世界中表現良好的AI設計問題區分開。
一個有趣的中間環節是把世界視為給定的,但利用可靠的主體——調解者——它可以與AI們互動並代表僱主執行行動(32)。引入調解者這種做法在新AI經濟學中顯得很自然。為了領教一下這是多麼強大:讓我們考慮在經典的囚徒困境博弈中引入協調機制(圖3)。如果兩個AI都授予中介人參與的許可權(即代理權),那麼這個主體就可以代表兩個主體來執行合作。然而,如果只有一個AI授權中介代理,那麼結果就可能代表該主體執行背叛。在均衡中,兩個AI都授予代理,效果就是從(背叛,背叛)改變為(合作,合作),即同時增加了兩個參與者的效用。
對於更一般的理性主體互動規則的設定,經濟學裡有一套成熟的數學理論:機制設計(mechanism design)(33)。機制設計的框架已經成功應用於例如匹配市場(34)和拍賣(35)的設計之中。機制設計是一種反向的博弈論問題,它可以通過規則誘導博弈和系統的質量評估到達均衡點。在標準模型中,我們會根據主體對結果的偏好來指定設計目標,但這些偏好是私人信息且主體都是利己的。一個機制是一個可信的實體,它能夠從主體中接收關於偏好的聲明(可能是不真實的)消息,並基於此來選擇結果(例如,資源分配或行為規劃)。制度設計的最大挑戰是如何設計激勵手段以促成主體真實地報告自己的偏好。
Varian(36)認為,相對於人類主體來說,機制設計理論實際上可能更適合人造主體,因為AI可以更好地遵守在這個框架中做出的對於理性的理想假設。例如,機制的一個期望屬性是「激勵相容性」,該屬性保證了「真實地表達出自己所需」能夠構成均衡。有時甚至可能使「誠實報告」成為一個佔優策略(即不管其他人做什麼這個策略都是最優的),這樣就可實現 「防策略性」(strategy-proofness)的強大特徵(37)。然而,似乎人們不能可靠地理解這種性能;來自醫療匹配市場和實驗室實驗的證據表明,一些參與者在防策略的匹配機制中試圖錯誤地表達他們自己的偏好,即使這樣做沒有任何好處(38,39)。
相比之下,對於人工系統我們可能期望AI的行為是真實的,同時避免消耗大量關於他人行為推理的計算,因為這是沒用的(5)。更一般地,AI系統的機制設計不需要簡單,因為它們不需要讓人類理解。相反,諸如偏好表示、偏好誘導和搜索演算法這樣的AI技術可以用於將機制設計的數學形式化框架轉為具體的計算方法(40-42)。設計問題本身也可以有效地表達為一個計算問題,其中最優化方法和機器學習可以用於無法解析求解的設計問題 (43–46)。
AI經濟的發展前景也激發了機制設計的新擴展。考慮到未來的不確定性以及由於局部環境的變化而導致的主體偏好的變化等因素(47-49),研究者們已經發展出了相容的多周期激勵機制。另一個方向考慮了除偏好信息以外的一種新的私有輸入信息(50,51)。例如,在團隊建設的情境中,每個AI可能錯誤地報告關於其他AI的能力信息,以便使自己被選擇進團隊(52)。類似地,AI在尋求任務分配最大化時可能提供假的工作效能報告,以誤導學習機制構建的自動任務分類器(53)。AI的系統也可對機制設計造成新的挑戰。一個典型例子是假名投標,其中AI利用的是其可以管理多個身份的能力。例如,它可以通過將一個請求分成一組小請求,每個小請求安置在其控制下的不同身份來獲得資源。 作為應對措施,研究人員已經開發出對這種新型攻擊具有魯棒性的機制(54)。
實踐中存在著一些案例,其中機制設計在AI經濟中起到了重要作用。在一定搜索請求條件下,搜索引擎通過拍賣的方式分配廣告位。廣告主為了讓他們的廣告出現在特定的查詢中(例如「人身傷害律師」)而出價。系統會根據出價金額(以及其他因素,例如廣告質量)來對各種廣告進行排名,其中排名較高的廣告會出現在搜索結果頁更高的位置上。早期拍賣機制採用一級價格序貫拍賣(first order bidding)規則,系統會在廣告收到點擊時向廣告客戶收取其出價金額。認識到這一點,廣告商就會使用AI來監控感興趣的查詢,從而在保持當前位置的條件下能夠用儘可能低的價格競價。這種做法導致了一連串的投標戰爭,從而導致了計算力的浪費和市場效率的低下(55)。為了克服這一點,搜索引擎引入了二級價格序貫拍賣(second order bidding)機制(37),其對廣告商的收費是第二高的出價而不是競標勝者自己的價格。這種方法(機制設計中的一個標準想法)就使得人們不必不斷地監控價格以獲得最佳價格定位,從而阻止了投標大戰(56)。
近年來,搜索引擎競價已經開始支持更豐富的,基於目標的出價語言。例如,廣告客戶可能要求在受預算約束的情況下對一組加權的查詢主題來最大化點擊(57,58)。搜索引擎可以提供代理主體,來代表廣告客戶出價以實現所述目標(59)。代理主體的的引入以及早期從一級價格拍賣到二級價格拍賣的轉換本質上就是信息揭示原理(60-62)的計算應用,這是機制設計理論中的一個基本概念。簡單地說,如果一個機制的規則和該機制的均衡策略被一個在功能上等同的新機製取代,那麼這個新機制將是激勵相容的。雖然在形式上說重新設計沒有專門地考慮激勵相容性,但二級價格拍賣和投標代理都可以看作為早期版本中的廣告主的行為(通過AI)(見圖4)。另外,廣告平台還可以設計一種策略防範(strategy)機制[Vickrey-Clarke-Groves機制(37,63,64)]來決定廣告空間分配:哪些廣告被分配,哪些(非贊助的)內容陳列給用戶(65)。
圖4.兩代贊助搜索機制。早期的設計是一級價格拍賣(FP),廣告商(ADV)使用AI(AI-POS)以最低的可能價格在搜索結果列表上保持位置。引入二級價格(SP)拍賣機制,旨在取代FP和AI-POS的組合。 廣告商採用了新的AI(AI-GOAL),以實現更高級的目標,例如最大化利潤或最大化點擊次數。二級價格拍賣被擴展到包括智能代理(SP +Proxy)中,旨在取代組合 SP和AI-GOAL。今天金融市場也顯著地具備自動化主體和交互規則設計的特徵。今天的市場是一個以電腦化交易為主導的市場,這些電子賬戶已經從定性上改變了市場行為。雖然很多細節還處於保密中,但據悉AI和機器學習技術被大量地應用在演算法交易者設計與分析中(66)。演算法交易使那些有速度優勢的策略得以快速採用,同時也導致了昂貴的軍備競賽,以應對市場信息的最小延遲。人們將用周期性的拍賣,即每一秒清空所有訂單一次來取代連續時間周期,從而就可以避免微小的速度提升優勢。(67,68)。
我們舉兩個AI經濟中多主體系統設計的例子。第一個示例系統能夠整合多個AI持有的信息。我們可以通過預測市場來有目的地設計系統規則以實現這一目標(69)。 比較為人熟知的版本包括對美國總統競選(例如,Betfair提供許多這樣的市場)進行預測的市場。 預測市場的基本思想就是用證券合約交易來預測(例如,一個可能的合約是如果希拉里·柯林頓當選,將支付1美元)。 當供給和需求平衡之後,最終價格就被解釋為市場預測(例如,價格$ 0.60反映了支付事件的概率為0.6)。
讓我們考慮一個大量的相互關聯的隨機變數池,例如,「BA214航班延遲超過1小時」,「波士頓的暴風雪」,「除冰機壞了」,「BA215航班延遲超過 1小時」和「倫敦的安全警報」。在組合預測市場(70)中,合同「除冰機壞了」的大賭注將影響 「BA215航班延遲超過 1小時」和其他所有相關聯的事件。 這裡的挑戰是可能的事件數量會隨隨機變數的數量呈指數增長。 除此之外,良好的市場設計還應能夠讓AI對所有事件下注(例如,「除冰機故障以及從波士頓延遲超過1小時的所有後續航班」)。良好的設計還應該使激勵相一致—— 例如,使其效用最大化來實現對當前信息的立即交易,直到市場價格能反映代理的信念。最近在擴大組合市場方面取得的進展可以將定價賭注與眾所周知的統計推理和凸優化問題(71,72)相關聯。相關研究的進展還包括假設AI可以通過機器學習以及直接在信息信號而不是信念中進行交易(73-75)。
第二個例子是AI經濟體內的主體的可信賴度信息管理的例子。對交易夥伴的信任對於任何運作良好的經濟體系都至關重要。以前標準的做法是將參與者與他的聲譽相關聯,這可以權衡當前受損的聲譽和未來丟失的機會,從而調整激勵手段。除了這個道德風險的問題以外(即,當完成經濟交易時,主體將進行合作),信譽系統還可以解決逆向選擇的問題(即,高質量主體選擇首先進入市場)(76,77)。
在AI經濟中的一個特殊挑戰是身份的流動性和主體可以被輕易替換的問題。這引起了諸如「粉飾攻擊的幽靈(specter of whitewashing attacks)」這樣的問題,其中AI在以不同的身份重新進入系統,這樣它就可以在重新進入系統之前任意地揮霍它的聲譽。在沒有強制性的不能更改的身份制度的情況下,這種流動性身份耗費了大量的社會成本,這種成本就使得我們必須將懲罰也均攤到所有新參與者身上,並讓它們在不可信的假設中建立聲譽(78)。
我們還應該考慮到,「機器經濟人」對於那些將反饋信息分享給其他AI系統分享反饋意見方面具有戰略意義。例如,在eBay的原始報價系統中,買家通常不願對失業賣家留下負面反饋,因為賣家可能進行報復。作為回應,eBay引入了一種從買方到賣方的單向反饋機制使得從賣方追溯到特定買方非常困難。這種變化導致了更大量的負反饋(79)。
AI經濟也為全新的聲譽機制(見圖5)中進行反饋信息收藏、反饋來源追蹤提供了很好的機會。AI研究人員正在設計聲譽系統,使激勵與製作真實報告一致,同時也可證明它滿足一些公理性質,例如對稱性:從報告的角度來說兩個同等位置的主體應該具有相同的信任得分(80,81)。另一個例子是會計系統的設計,它可以誘導出關於其他AI在資源貢獻或工作表現上的真實報告,並使系統的設計能夠減少搭便車現象並促進對經濟體系的公平貢獻(82)。然而,可完全通過計算基礎設施(如信譽機制)的開發,而無需求助於法律系統,來設計有效的多主體AI系統仍然是一個有趣的開放性問題。
圖5: 在多主體AI的聲譽系統中,每個主體可以選擇一個行動,這些行動的組合效果生成了回報(即效用)。基於行動和收到的回報,主體i可以提交一個報告xi給聲望系統。聲譽系統將這些反饋聚合到一起——例如,提供一個排序列表來反映主體們可信度的估計。每個主體都可以看到這個排序列表,這個信息又可以影響到未來的行動。
結論
不論人們對於AI是否或何時能夠超過人類表現的觀點有不同的看法,AI的快速發展正在激發對於其相關研究的極大的樂觀情緒和投入。AI已經或者預計很快將在諸多窄領域內超越人類,比如下象棋、控制大型噴氣式客機巡航、在電子商務平台上做商品推薦和為成千上萬的商品做定價、判斷病人是否可能再次住院,以及從信息量巨大的財經新聞中提取重要訊息。
當然,在這個發展過程中仍然存在很多根本性的挑戰。這些挑戰包括如何設計論證和推理方法,來有效平衡計算量帶來的收益和運行中從延時到真實世界執行過程中所產生的可能成本;以及如何設計在信賴域中通過增強信號來學習和歸納的AI系統。儘管經濟交易層面的決策問題都相對容易處理,但我們相信飛速發展的AI很有可能將在重要經濟應用領域做出巨大貢獻。這又進一步促進了對理性的經濟推理方法,進而以實現「機器經濟人」的願景為目標的研究。
我們不應認為AI研究者們已經在單智能體或多智能體AI經濟學展望上達成了全體共識。對於有些研究者來說,考慮多智能體的經濟學模型仍然被視為一種干擾噪音。畢竟集中化的視角可以使系統更好的專註於目標達成,而不用擔心對系統中每個個體成員的激勵。還有一些研究者的工作針對的是受設計者控制的單智能體組成的多智能體系統,在這種系統中設計者可以用任意需要的方式編程單智能體。就像集中化解決方案一樣,這種所謂的「協同」多智能體系統的設計可以不用考慮每個智能體的個體利益,儘管該系統經常遇到分解或溝通方面的問題。不過,協同或是自利的分歧其實是在對設計者權力的假設上的不同,而不是技術層面上的爭論。我們所採納的觀點認為大量的AI系統將會像人類經濟系統那樣,由有著無數不同設計者、擁有者和操縱者的智能體所組成,每一個智能體的目標可能都各不相同。最後,有的研究者單純從物理和計算限制的角度出發,反對基於「AI還遠沒有達到完全理性」假設的經濟學方法。因為針對AI計算行為的更為直接的模型,從自動機理論的角度,是可以發展的更為精確的。對於AI理性抽象的分析效用終究是經驗主義上的問題,有待在AI發展進程中解決。
在採取了經濟學方法的研究者中間,也存在著一些具體技術層面上的爭議- 比如均衡推理的作用。即便智能體可以被看作理性的,仍有研究者質疑是否應該使它們達到均衡結構,尤其是在多種均衡共存的情況下。正如Shoham (83)所論證的,博弈論缺乏具體推理層面的務實及廣為接受的方法說明。對此有一種積極的觀點認為,AI研究者在將經濟推理操作化的時候恰恰正在發展出這一套欠缺的實用機制。
還有一些人可能會認為,機制設計,即便其對象是AI系統,也過於理想化了,還有比如其對均衡行為設計的堅持,對交互規則可以從無到有進行設計的預設,以及其對AI系統運行的人文和法律背景的細節忽略等大量問題。對此,積極的觀點認為AI系統恰好提供了我們建立新交互規則所需要的空白,因為這些規則將可以通過互聯網和電腦伺服器上程序的運行來實現。而這些運行規則的實現既是公共政策問題,也是科學工程問題。
我們相信,隨著AI 的發展,經濟理性將在單智能體和多智能體設計領域發揮重要作用,同時我們認為伴隨著AI經濟的持續湧現,需要發展出一種新的科學來理解如何設計這些系統。這些AI系統無疑將在經濟和更廣闊的社會領域產生重大影響,對這些影響的效果和程度的研究將是未來數年來AI和經濟研究領域的重要主題。
參考文獻
由於參考文獻條目較多,我們把參考文獻放到了集智維基百科中,集智wiki百科
閱讀推薦
不必操心《未來簡史》| 張江從《未來簡史》看人類未來丨張江從AI高考透視人工智慧進展從萬物有靈到AI掌管世界——AI視野(三)AI打遊戲背後的技術原理 | 張江除了Alpha狗,人工智慧還有兩隻貓!| 張江看AlphaGo虐柯潔不爽? 那就解剖它親哥!透視深度學習,暢想未來應用——AI視野(二)| 張江推薦閱讀:
※目前有哪些解釋複雜系統「湧現性」的理論?
※Scalers:如果沒有經歷複雜,簡單易懂沒有意義
※以複雜對抗複雜--機器學習vs複雜系統新書計劃