Cybersyn的系統架構

前文《半個世紀前的大數據時代》講到,1970年代初,英國的控制論學者斯塔福·比爾應阿連德總統之邀,遠赴智利去開發一套用於管理國有經濟的大數據IT系統。本文將介紹這套遠遠超前於時代的系統是如何在當時的技術條件下架構和建設起來的。

生產大戰中的控制論

在阿連德執政的第?年,智利政府開始將國內最重要的?些?業收歸國有。到1971年底,政府已經把所有主要礦業公司和68家最重要的??由私有轉為公有。智利正在打?場「?產?戰」,提??業?產?平被視為智利社會主義成功的關鍵。管理已經成為國有化進程的?個核?問題,政府計劃把?業管理作為第?年的?作重?。國有經濟的?速發展創造了?個笨重的、智利政府從未?過的怪獸,這是問題的根本所在。

在這樣的大背景下,斯塔福·?爾於1971年11?4?星期?抵達智利,邀請他的是智利國家開發公司(CORFO)的技術主管費爾南多·弗洛雷斯。經過弗洛雷斯的介紹,比爾對智利面臨的挑戰有了一個大體的理解。控制論思考幫他識別出如何改進智利政府管理經濟的?式。例如,?爾發現政府可以建?新的通信渠道,促進數據交換,提升政府決策速度。同時他也認識到???臨的約束。成?新的政府部?或是對現有政府機關進?根本性重組可能可以極?提升管理能?,但當前的關鍵是要快速?效,政府沒有時間來成?新的調控部?,也?法?規模修正和重建現有的機構。

在?爾和弗洛雷斯的構想中,控制論科學扮演著雙重??。控制論的管理視?,尤其是可?存系統模型,能夠指導CORFO所需的組織變?、避免實施?遠來看低效甚?有害的權宜之計。同時,控制論中關於反饋與掌控的思想能夠指導開發?套新的科技系統來改善國有經濟的管理,從?間直到CORFO辦公室。發源於?爾的「?由機器」思想,這樣?個系統將會搭建起實時信息交換的網路,其中會?到?型主機技術。管理者和政府官員將能夠基於實時數據來做決策,並能夠快速調整?動?不被政府官僚體系束縛。管理控制論還能改善政府從國營企業獲取信息的?式。當這些數據流得到改善,弗洛雷斯和?爾相信政府能加強對智利?業的管控,並最終贏得?產?戰。

基於這一構想,比爾提議建設Cyberstride項目,後來這個項目改名為「Cybersyn」。Cybersyn系統結合了比爾早期著作中的思想,包括他的文章《自由機器》中提到過的控制室。這個系統將依賴於每天從國有產業採集來的數據,用大型主機對未來經濟行為進行統計學預測。隨著智利的計算機操作員輸入更多來自企業的最新數據,系統每天都會對預測做出更新。

只有一台計算機的網路

Cybersyn的骨幹是一個支持實時數據交換的通信網路。將國家開發公司(CORFO)與工廠車間連接起來,就能建立「向上滾動」式管理所需的條件,使政府能夠快速處理諸如原材料短缺等緊急狀況,並及時調整政策。最新的生產數據還讓經驗豐富的管理者(通常位於行業委員會或更高的級別)能幫助缺乏經驗的干預者識別他們工廠里的問題,並在必要時調整生產行為以達到國家的目標。按照比爾的構想,這種信息交換會以很快的速度持續發生,並且總是以指導行動為目標。通信、適應和行動,這些都是管理控制論的核心要素,它們就是比爾在組織與生物有機體之間發現的共性:兩者都需要快速適應,才能在變動的環境中生存。弗洛雷斯與比爾一樣重視時間,兩人都認為:數據如果不能指導行動,那就是被浪費了。

除了通信網路和用於生成經濟預測的軟體,Cybersyn項目還需要一個計算機程序來模擬智利經濟。另外,CORFO成員會把生產數據匯總,並以直觀的形式顯示在指揮室里,以便政府的決策者理解。這些數據顯示會幫助決策者看清國家經濟形勢,並基於智利工業的現狀制定政策。

按照比爾的提議,Cybersyn項目的設計考慮到了智利科技的局限。國家計算機公司(ECOM)的主管雷蒙多·貝卡只給比爾提供了一台大型主機的處理時間,這是一台IBM 360/50,ECOM當時性能最強的主機。鑒於計算機公司只有4台主機,全都非常繁忙,貝卡只能提供一台機器是完全能理解的。但這就意味著比爾的團隊必須用一台計算機來建設一個計算機網路。

對這個看似不可能的要求,比爾給出了設計方案:他為Cybersyn項目設計了一個通信網路,整個網路都連接到這一台大型主機。為了實現這個非傳統的網路架構,比爾和團隊需要找到一種便宜的方式來實時、長距離傳輸數字數據和文本。他們找到的辦法是電傳機(電傳打字機),這些機器已經通過現有的電話線、衛星或微波通道聯網。在1970年代初,電傳機已經在全世界廣泛使用,不是什麼高新科技。每台電傳機都有一個身份識別號,就跟電話號碼類似,用戶撥打這個號碼,就可以在兩台機器間建立連接。然後用戶可以用電傳機的鍵盤輸入信息;信息會被翻譯成紙帶上的打孔,再通過網路把打孔紙帶的信息傳輸出去;另一端的電傳機則讀取紙帶,翻譯出原來的信息,從而完成信息的傳播。用戶往往會預先準備好紙帶,以便盡量減少連接網路的成本,不過電傳機也允許兩端的用戶通過打字來回交談。一旦收到信息,接收方的電傳機就會在一串嘈雜的咔嗒聲中打出一行行文字,聽起來不像是傳真機,倒更像是電子打字機。在1970年代初的智利,電話尚屬稀缺資源,電話網路也不夠可靠。電傳機提供了另一種國內乃至國際通信的方式。所以,比爾提議在電傳機網路的基礎上建設Cybersyn項目,於是整個通信網路就只需要一台IBM大型主機。

比爾提議的系統工作方式如下:干預者用電傳機從各自的企業將生產數據發送給國家計算機公司的電傳機,計算機專家們再把數據以打孔卡片的形式輸入到主機系統中;計算機會運行統計軟體,將新的數據與過往採集的數據對比,尋找顯著的差異;如果發現重大差異,系統會向計算機操作員告警,後者則通過電傳網路把數據發送給CORFO和相關的干預者,隨後CORFO會聯絡這些干預者,以便更好地了解現狀並幫助解決問題。

統計軟體

在部署電傳網路的同時,比爾向安達信請求幫助,希望他們參與到後台軟體的開發中。安達信的評估結果是,他們可以在1972年3月中旬之前編寫並安裝一個「臨時套件」。這個臨時的軟體只能接受限定範圍內的輸入值,但至少能在原定的期限之前給智利人一套軟體先用起來。為了在3月的交付期限前完成這個臨時套件,他們需要砍掉很多邊角。同時安達信會負責設計功能完備、長期使用的軟體套件,但長期套件的開發和實施由智利團隊負責。在此過程中,三名安達信諮詢師會出差到聖地亞哥提供支持:一人負責安裝臨時套件,一人幫助智利程序員編寫長期套件,另一名高級合伙人會為團隊提供指導、並在項目結束時簽字代表諮詢公司正式簽字。

Cybersyn的軟體系統是控制論管理領域的新突破。它是比爾的可生存系統模型的第一個軟體實現。這個程序還實現了一個新的、從未實驗過的貝葉斯統計預測方法,這個名為哈里森-史蒂文斯方法的統計預測方法1971年12月才首次發表在《運籌學季刊》上。安達信的諮詢師阿蘭·鄧斯繆爾在為項目做文獻綜述時偶然發現了這個新方法。他說服比爾這個方法可以識別生產數據中的顯著變數,並根據初始數據點預測未來的趨勢:是線性趨勢、指數趨勢、還是步進函數、或者只是暫時的異常數據。用這個方法,軟體就不止能記錄和匯總歷史數據,還能對未來作出預測。而且一旦計算機操作員輸入新的生產數據,軟體就能自動調整其預測。

哈里森-史蒂文斯方法的提出者之一傑夫·哈里森是華威大學統計學系的創始人和首任系主任。在大學給他的訃告中說「他遠遠超前於他的時代」,這話絕非溢美之詞。如果你看Wikipedia的「統計學歷史」詞條,其中有這樣一段話:「1965年……林德利把貝葉斯方法介紹給更廣泛的聽眾;1980年代,貝葉斯方法的應用大幅增加。」似乎貝葉斯方法在1970年代沒有取得重要的進展。然而哈里森於1971年發表的文章《一種用於短期預測的貝葉斯方法》可能是首次將貝葉斯函數用於統計預測,Cybersyn則可能是第一個實現貝葉斯預測方法的計算機程序。然而在他的年代,因為計算能力的局限,貝葉斯方法不被學界主流認可;等到1980年代計算能力提升、尤其是馬爾科夫鏈蒙特卡洛方法的發現解決了大量計算問題使得貝葉斯方法受到重視,哈里森就直接被歷史跳過了。考慮到現在貝葉斯預測方法在機器學習領域的熱門程度,哈里森近乎默默無聞的一生不禁令人唏噓。

【傑夫·哈里森可能僅有的一次出現在學術領域之外的出版物上是在一本叫做《難以置信的巧合》的偽科學著作上。這本書收錄了很多奇妙的偶然事件,其中一個故事講到哈里森在給某一屆學生上第一堂概率課的時候拋了一個硬幣,本打算藉此講解概率的基本概念例如硬幣正反面落地的概率各為1/2,沒想到硬幣落下以後不偏不倚地立在了桌上。】

經濟模擬器

統計軟體運行的結果會進入一個經濟模擬器,用於模擬智利經濟狀況並預測未來走勢。比爾希望經濟模擬器成為「政府的實驗室」。一旦完成,這個模擬器能幫助政府決策者跳出日常事務進行全局決策,並實驗多種不同的長期經濟政策。所以這個模擬器需要反映不斷變化的經濟行為,尤其考慮到智利經濟正處於轉型期,這一點就愈發困難:它不僅要接受不斷變化的輸入值,還要不斷調整變數之間的關係,並引入新的考慮因素。在真實世界中,這些變化不斷在發生,因此模擬器的模型也需要能處理動態的變化。

比爾決定採用一種不太常見的建模方式。當時大多數經濟模擬都採用「輸入-輸出」方法,用龐大的數據集來計算不同生產過程之間的相關性。這種分析方法可能需要幾年時間來採集數據,然後用固定的方程式計算系統行為。比爾批評這種方法「死板得無可救藥」。如果「目標是重組經濟」,比爾寫道,那麼這種刻板的方法就是「糟糕的工具」。為了尋找不同的方法,比爾把眼光投向了著名的MIT工程師傑·福瑞斯特的研究。

在計算史上,福瑞斯特最廣為人知的成就是發明了磁芯存儲器,以及領導了「賢者」陸基防空系統的計算機設計團隊。從1950年代後期開始,福瑞斯特的研究重心已經轉移到工業管理領域。他對建模隨時間變化的複雜系統尤為感興趣,並把這個這個領域稱作「系統動力學」。福瑞斯特鼓勵政策制定者藉助模型來識別出為數不多的一些關鍵參數,通過調節這些參數就能獲得期望的結果。隨後政策制定者就可以集中精力在這些領域。為了編程實現他的動態系統模型,福瑞斯特發明了DYNAMO編程語言,比爾發現這種語言很適合用來編寫新的經濟模擬器。

比爾找到了羅恩·安德頓,一位系統工程師、運籌學家、以及英國首屈一指的DYNAMO專家,請他投入到經濟模擬項目中。到1972年3月,安德頓已經實現了經濟模擬器的最初版本,這個軟體被命名為CHECO(「智利經濟模擬器」的英文縮寫)。最終,安德頓寫道,這個模擬器將使CORFO「對包含10到100個變數的系統逐步獲得動態的理解,作為對比,缺乏系統指導的大腦只能理解5到10個變數。」同時,鄧斯繆爾帶著完成的臨時軟體套件從倫敦來到了聖地亞哥。3月中旬,第一批結果數據從工廠車間傳到了CORFO。Cybersyn系統的流程走通了。


推薦閱讀:

一個華人數學博士,16年前如何押准中國大數據變革?
【徵集】讓我們一起玩#別人的#數據研究人體
可視化之醫療保健數據的未來——繪製新用戶界面的方法
用數據化的方式解析投資條款(總結並持續更新)

TAG:大数据 | 科技史 | 信息技术IT |