維基數據 (Wikidata) 是一個怎樣的項目?
目前還無法看出wikidata的產品形態,但毋庸置疑的是,這個產品的目的是將維基百科大量的信息結構化,增加利用價值。為什麼這麼做:
- 結構化的數據便於機器識別,有更高的利用價值;(可以參考為SIRI提供信息的Wolfram Alpha,以及google收購的freebase。http://www.alibuybuy.com/posts/70342.html)
- 內容結構化需要大量「有序」的數據,維基百科的幾千萬詞條顯然能夠滿足;
- 內容結構化需要強大的演算法支持,但目前的技術方案都不夠完美,因此以UGC見長的維基百科就能通過人肉方式搞定;
這個玩意不是剛剛開始做,維基百科有一種很常用的模版叫infobox(這個詞條右側那個表格:http://en.wikipedia.org/wiki/New_york),這個模版就是對詞條中的信息做深度挖掘並結構化,維基百科的社區也在有意識地組織用戶建設這種結構化內容。
內容的價值除了其本身質量,還有一個重要的指標就是流動性,而內容的流動性主要看其是否能夠適應新的媒介。一本書,在互聯網上傳播的價值一定比紙張媒介更大。同樣的道理,通過搜索引擎傳播的價值一定大於電子郵件。新的傳播媒介大多基於人工智慧,而結構化內容恰能很好地提供便於索引計算的素材,這也是內容自身在不斷順應信息行業發展所做的努力。把這半年多前的問題翻出來,是因為 Wikidata 已於10月底正式上線了(http://www.wikidata.org/),原先的一些疑問現在可以解答了。關於 Wikidata 到底是幹什麼的,原本的幾個答案已經說得挺清楚的了,我只是補充介紹一下 Wikidata 具體的產品形態。
和其他的維基項目一樣,Wikidata 是人人可編輯的。但它又是一個知識庫(knowledge base),收錄的是結構化數據,所以也有其獨特之處。Wikidata 的一個核心概念是 entity,可以指一個現實中的對象或一個抽象概念。而這個對象或概念可以對應 Wikidata 中的一個 item。比如上圖就是一個 item,對應的 entity 是一個現實中的城市(柏林)。
每個 item 都有標籤(label)、描述(description)、別名(aliases),使不同的 item 得以區分。像上圖的標籤是「Berlin」,描述(圖中沒有顯示)則是類似「Capital city of Germany」這樣的簡短敘述,別名則是除了標籤以外這個 entity 的其他名字。另外,標籤、描述和別名還按不同的語言區分,例如標籤有 [en](Berlin)、[de](Berlin)、[zh](柏林)等上百種語言的選擇;描述也可以有 [en](Capital city of Germany)、[de](Hauptstadt von Deutschland)、[zh-hans](德國首都)、[zh-hant](德國首都)等等。
而 item 中的具體數據被稱為 statement,一個 item 可以有許多 statement,上圖顯示的就是其中一條關於人口的 statement。statement 的具體結構圖中已經表示的很明白了,由屬性(property)、數值(value)、修飾成分(qualifier)、參考資料(reference)等部分組成。每個屬性(比如圖中的 population)又對應一個專門的屬性頁。
entity 除了可以是 item 外,還可以是 query(查詢)。比如可以有一條 query 表示「人口100萬以上的城市」,就是一個包含許多符合條件的 item 的搜索結果。
Wikidata 中的數據以後將會被用於 Wikipedia,另外還可以供第三方研究使用。不過現在 Wikidata 才剛剛正式啟動,具體數據內容(statement、query)都還沒有,目前的目標是先建立 item(完善各語言的標籤、描述、別名的信息),並收集整理與每個 item 對應的各語言 Wikipedia 的條目名稱。Wikidata 雖有四海之心,但鴻鵠之鷇羽翼未全,我們就拭目以待吧。現在維基百科有大量的編者從事各種數據的收集、計算和更新。
包括但不限於:
國家地區的地理、經濟數據等;體育聯賽的排行榜、小組排名、個人賽季積分排名等。
wikidata將可以把這些數據進一步標準化,以供機器識別。這不就是一個Siri或者WolframAlpha么……http://www.wolframalpha.com/
一個數據/計算知識引擎
隨便給個WolframAlpha的例子,搜索GDP of China得到的結果:進去之後還有更多數據以及展現形式,就不多說了,打開這個鏈接看看吧http://www.wolframalpha.com/input/?i=GDP+of+China你看到維基百科左側的「其他語言」了麼?它就是做這個的,以及其它。詳見:https://zh.wikipedia.org/wiki/Wikipedia:%E7%BB%B4%E5%9F%BA%E6%95%B0%E6%8D%AE
推薦閱讀:
※維基百科有什麼缺陷或不足?
※為什麼維基百科上越南語的詞條數目這麼多?
※維基百科通過哪些重要的工具和機制,來迅速高效地防止和抵禦破壞行為?
※各大網路百科的內容審查和糾錯機制是怎樣的?
※為什麼維基百科中的繁體版本分為「港澳繁體」和「台灣繁體」?