政府「開放數據」訪問量低？可能是沒找到人們的需求「痛點」

01-28

文/數據俠 Nathan

中國有越來越多的城市開始向公眾開放各類數據，但這些數據真的是市民們所需要的嗎？市民對什麼類型的數據需求最大？在最早推動「開放數據」的美國，一家名為陽光基金會的機構前段時間發布了一份報告，給出了一份當地居民最歡迎的「開放數據」類型排名，或對中國城市有所啟示。

美國的政府「開放數據」中，哪些數據最受居民歡迎？

在2017年，美國各地方政府及州政府發布的「開放數據」（Open Data）類型幾乎無所不包，涵蓋了日常生活的方方面面。然而我們並不知道居民們如何看待和使用這些巨量的公共信息。

隨著地方政府越來越多地為居民提供獲取公共數據的便捷渠道，政府應該優先考慮提供開放哪些類型的數據？

為了弄清楚人們最感興趣的數據類型，我們分析了全美範圍內141個城市/州政府提供的總計2.1萬份開放數據集的文本描述部分，並根據被瀏覽與下載的次數對這些開放數據集的熱門程度進行了打分，結果如下：

如圖，結果顯示，最受居民歡迎的10大「開放數據」類型依次為：1. 警察與犯罪；2. 交通運輸；3. 緊急呼叫；4. 住房與經濟發展；5. 建築安全；6. 政府財政；7. 競選活動；8. 營業執照與政府採購； 9. 服務與監察；10. 學校與教育。

怎樣獲得關於「開放數據」相關的數據

我們怎樣才能知道哪種類型的開放數據最熱門呢？幸運的是，有關「開放數據」的數據也是開放的。

為了儘可能多地收集各個城市/州的開放數據信息，我們找到了一個在線開放數據網站Socrata，該網站能夠給我們提供關於「開放數據」的瀏覽、下載量，以及大量的描述性文本信息。

此外，我們使用Socrata的API介面來獲取和整合那些在Socrata平台上發布過公開數據集的地方政府信息。

由於時間和數據可獲取性的限制，我們只分析了在Socrata平台上能夠獲取的數據。這項研究是中立的一項研究，不帶有傾向性。

雖然Socrata不是唯一提供這種「開放數據」信息的平台，但它是最大並且被廣泛使用的，因此，我們才會選擇Socrata作為我們的數據源。

同樣的數據集，地方政府卻用了不同的文字描述

收集數據是一件容易的事，但很快我們便發現了問題：針對同一種數據集，不同的城市採用了不同的文字描述。

例如，有一個城市的政府將他們年度預算命名為「Fiscal Year 2017」（2017年度財務），另一個可能會叫它「2017 Budget」（2017預算）。因此，我們需要找到一種方式來整合有著不同文字描述的相同主題類型。

我們的解決方法是通過機器學習演算法，將意義相近的詞語整合成一組，一組即一個主題。

通過這種方法，我們獲得了52個主題。每個主題都包含了許多密切相關的詞語，例如「火災」，「警察」，「緊急事件」，或是「許可」，「建築」，「建造」等。

我們還能夠利用機器學習的演算法，根據某個數據集的文字描述來確定這個數據集屬於哪一類主題。最終我們將所有（超過2.1萬份）數據集整合進了這52類主題中。

大城市的「開放數據」自帶「流量包」，須剔除干擾因素

一旦我們將數據整合進了各個主題類型中，歸好了類，我們便希望了解哪些數據最受人們關注。

然而，如果僅僅是根據用戶對於某主題類型數據的總下載量和瀏覽次數來確定某一主題的熱門程度，那些比其他城市擁有更多交通總量的交通樞紐城市——例如紐約、洛杉磯，自然會擁有過高的數據瀏覽和下載熱度。此時，最終的分析結果會受到影響。

為了減少大城市過高的「熱度」對於整體分析結果帶來的偏差，我們首先計算了數據集某一主題類型的數據被瀏覽以及下載的總次數，然後通過計算這個總次數的自然對數來「抑制」這些大城市的熱度。據此，最終我們計算了所有城市各主題的數據，對其進行對數運算來消除大城市過高「熱度」的影響，然後再進行比較，最終得出結論。

公共安全和交通數據最為熱門

一旦我們知道了如何整合那些名稱不同卻涵蓋相似內容的數據集，並且找到測量這些數據集熱度的有效方法，我們便可以開始對各主題的熱度進行比較了。具體的熱度排名列表你可以在我們的github主頁獲得。（獲取方式在文末）

由於我們的打分系統是人工的，我們可以不用過多關注不同數據集熱度評分間的微小差別。例如「建築許可」（584分）並不一定就比「年度財務預算」（582分）或者「競選活動」（572分）更加熱門。

更確切地說，我們的評分排序系統更像是將各類數據主題類型按熱度分為了不同組別，例如「犯罪報告」、「個人交通」以及「公共安全保障系統」都處於熱門組當中。

即便如此，在嘗試了多種不同的關於熱度的演算法後，我們還是會發現「公共安全」和「交通運輸」數據集始終處於熱門位置（DT君註：若對不同打分演算法的細節感興趣，文末可獲取完整代碼）。

結論的局限性

正如之前所說，我們只收集了Socrata平台上的數據，若將其他數據來源同時考慮，最後的分析結果可能會有所不同。
我們使用隨機的概率演算法來聚合擁有相似主題的數據集，因此我們的模型每次運行的結果，即產生的主題會有差異。為了此次研究的可複製性，我們需要將某一版本的模型過程進行存儲。因此對於我們獲得的評分結果，需要對照著我們2017年8月公布的數據主題類型列表來理解。當然，我們非常鼓勵人們使用和完善我們的模型（DT君註：獲取方式在文末）。
我們的匹配演算法並不是完美的。同一個數據集通常會同時和多個主題相關。此外，有一些辭彙在不相關的數據集中也經常同時出現，或者是在不同情境下含義大不相同。確實存在一些數據集被歸入了錯誤主題的現象，但我們相信錯誤率已經達到最低。
我們使用的數據並非來自控制實驗（理想的控制實驗是：控制變數，隨機抽取受試者樣本並了解他們對各類數據集的感興趣情況）。事實上，我們用來衡量各類數據集熱度的下載、瀏覽量的數據，還會受到這些數據所在的網站的界面設計等很多因素的影響。

我們的評分結果對各級政府的啟示

我們在研究中發現，不同地區的熱門數據集類型相差甚遠，部分原因可能是受限於不同的政府所選擇開放的數據集種類不同。但我們認為最熱門的這些數據集類型無疑展現了當地居民的偏好和需求，城市與各州政府在選擇發布希么樣的「開放數據」時，應該向當地居民以及社區領袖諮詢意見。

我們希望此次的研究結果能夠對政府發布不同數據集類型的優先順序起到指導作用，那些認為政府網站上發布的「開放數據」很有用的居民很大可能會再次從政府網站了解所需數據，並將其推薦給其他人。當一個城市發布的「開放數據」從一開始就迎合了市民的信息需求，這個「開放數據」項目後續的進展會更加順利。

此外，即使是擁有成熟的「開放數據」項目的城市，也在持續優化其向市民提供「開放數據」的類型和方式。我們希望這份報告能夠促進當地政府或組織將熱門公開數據整合。

當公開的政府數據能夠真正反映和滿足社區居民需求時，它們能起到最好的效果。不管一個城市政府的「開放數據」項目進行到了什麼程度，是剛開始運作還是已經成熟，希望我們的這份研究報告能夠促進新的數據集類型的開放和新工具的研發。

DT送福利：文中提到的熱度排名列表、打分演算法完整代碼、隨機的概率演算法模型，均可在作者github主頁詳細了解，關注DT數據俠後台回復「數據集」，獲取鏈接。

註：

本文編譯自美國陽光基金會（Sunlight Foundation）官網，原題《Whos at the popular table? Our analysis found which open data the public likes》，點擊「閱讀原文」查看，圖片均來自原文。本文僅為作者觀點，不代表DT財經立場。

作者 | Nathan Zencey

編譯 | 鄧葉芝

編輯 | 胡世龍

題圖 | 視覺中國

期待更多數據俠乾貨分享、話題討論、福利發放？在公眾號DT數據俠（ID：DTdatahero）後台回復「數據社群」，可申請加入DT數據社群。

數據俠門派

本文數據俠Nathan Zencey，來自美國陽光基金會（Sunlight Foundation）。該基金會是一家宣稱旨在推動全球政府開放且無政黨傾向的非營利組織，致力於用技術手段推動政府履行職責。

加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群，包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟，旨在聚集大數據領域精英，共同挖掘數據價值。了解數據俠計劃詳情請關注DT數據俠回復「數據俠計劃」，投稿、合作請聯繫datahero@dtcj.com。