"China Gazetteer Project"是否涉及國家安全?

China Gazetteer Project

上面是項目的介紹,裡面涉及到中國縣誌數據的整理,但由於是Harvad在做,這種項目招募中國學生參加是否涉及中國國家安全?

或者有沒有往屆做過的同學來分享一下經歷?


題主你好。毛遂自薦來回答。

題主說的這個China Gazateer Project我沒聽說過,但是我感覺這個項目應該是一個更大的中國地方志項目群下面一個分支。哈佛燕京圖書館目前正在將館藏的所有中國古地方志電子化並建立資料庫。題主說的這個項目主要是收集現當代的資料,燕京圖書館做的主要是近代及其以前。

我在哈佛大學燕京圖書館兼職做中文藏書的編目工作,算是在邊緣上接觸了一些這個項目。

哈佛燕京圖書館有一個非常龐大的中國地方方誌館藏,有一些是極其古老的方誌,甚至在國內都找不到了。燕京圖書館所作的工作就是把這些方誌重新編目並掃描,建立一個公開的資料庫,不過我不太清楚現在有沒有公開。我剛開始在圖書館幹活的時候第一個任務就是把這些方誌的編目格式全部改成新的,然後上個學期結束的時候貌似他們還沒完全掃完。

中國的國家安全肯定是涉及不到的,至少哈佛燕京圖書館負責的這部分沒有這個嫌疑。首先,這些地方志時間過於久遠,好多地方經過近現代的一系列行政區劃改革都已經不復存在,更何談國家安全。而且中國政府和教育機構也肯定希望這個項目進行下去,因為這樣反而會對自己有利。

關於題主說的這個以現當代地方志為主的項目,我覺得也沒有任何問題。一,組委會裡面那麼多中國高校的人,這要涉及國家安全還了得;二,地方志資料基本上都是已經出版或公開的數據(涉及國家安全的數據國家統計局也不會傻到亂公開的是吧),但是由於地方出版物水平參差不齊且比較流通不暢,資料的入手難度比較大;三,這個項目其實是想把中國的數據統合到一個包含2000個國家的大資料庫中,如果題主曾經在World Bank的World DataBank之類的地方查過數據的話應該會發現,中國的數據和其他西方國家相比非常不全,而且由於國內有時候統計數據的規範和國際上的不一致,定量研究做起來有時候很麻煩。這個項目應該是想彌補這個不足,他們搞這個錦標賽看樣子就是想借人之力提高效率。

不過話說回來,數據是死的,人是活的,數據給你一幅圖,怎麼講故事是人的事情。這個項目是個學術項目,但有可能政府和情報機關也會用他們個資料庫。但是不能因為這個就一棒子打死。

可能有點跑題,但還是希望能對題主有幫助。


update:

最近出國黨吃飯,和下面提到的這位學長聊起來,確認了一下,這個比賽其實就是這個學長辦的……以及該學長今年申請季去了Harvard Business School,大陸唯一一例,膜拜膜拜。

=====================================

以下有部分是「聽說」,歡迎糾正。

本院目前有一位學長正在哈佛,之前一直在參與縣誌整理的項目,其導師就是此次China Gazetteer Project的發起人,據說是因為研究生+助研本科生工作速度太慢,而教授又恰巧到手一筆資金,於是就動了獎金換打工仔的本屆大賽……然後這個比賽在票圈一度轉得很火,然後我也參加了而且早早做完了我的那份,但是同組另兩人始終沒有抽出時間動工所以最後不了了之……

大賽的主要內容,分為兩部分:

1. 大賽主辦方提供一系列縣誌,由參賽選手根據一份命名表,選擇其中有意義的數據(表格為主,也有文字),截圖,並按照要求重命名後上交。大概每一組選手會得到24個左右的縣的縣誌,但是縣誌是缺頁的(只拿出了部分相關的頁給選手)。我們組有三個人,每人8個縣,我自己做下來大概一個縣的縣誌需要至少3小時。

2. 大賽主辦方提供縣誌上的數據(電子表格),參賽選手用這些數據,撰寫一份報告。原本說的是這些數據就是你自己截圖的數據,大賽主辦方會找專業人士錄入然後返還,但是最後好像並沒有如此,是拿了之前的數據下發的,實際情況並不清楚= =(因為我組另兩位第一部分就沒完工……)

首先來解決一下樓主的問題:是否涉及國家安全?分三個方面:

1. 正如上面的答主所說,這些縣誌屬於合法公開發行物,而且現在是作為哈佛圖書館的藏書,而且主辦方還一再強調這些數據是它們的所以不允許外傳啊什麼的(所以我就不貼圖了……),本來就已經是別人的東西了……

2. 從內容來看,大家可以看一下這個命名統計表:China Gazetteer Project 基本上沒有敏感詞的內容吧?唯一感到可能有點敏感的是礦產保有儲量吧……?

3. 最最重要的一點……從時間來看,這些縣誌的記錄時間一般是:

從很久很久以前到清朝——文字介紹

民國——文字兼有部分數據統計

建國後——文字和數據統計,但只到1980年代,最晚不進入新世紀。

P.S.有很多數據都是缺60年代、70年代的哦,不要問我為什麼哦……

所以這種數據和國家安全真的沒有半毛關係好嗎,將近二十年前測的礦產儲量,和今天已經差了非常多了吧,我上半年在柴靜發穹頂之下的時候查了大量相關數據,國土資源部的礦藏統計那是一年一變啊……

總的來說,我覺得整個項目在補全數據這個方面的意義才是最重要的,稍微做點關於中國的研究,一旦你打算定量,好嘛,能拿到市級數據簡直就要感動得哭了好嘛,省級的數據在國家統計局網站上都不全面,人口統計數據分年齡段國家級的都只能查到五年一檔,好一點的數據都得找老師要啊!而且老師還不給啊!

你看看人家米帝,我找個犯罪率數據,精確到city……我找個房屋價格指數,精確到Neighborhood……上課老師還在講:你們要經常去圖書館啊,圖書館很多書上有很奇葩的數據,你們扒一個下來就是一篇研究啊……

對了,這個項目的另外一個意義還在於,這樣的整理提供了非常多的可能的工具變數選擇,尤其是一些氣象學數據,或者是非常奇怪的統計量,比如水利措施啊、農業機械啊、地震水災啊之類的。


這種問題是沒有標準答案的。

不過題主你只管等著,如果問題被刪了就是,如果沒被刪就不是。


完全不涉及國家安全。


縣誌都是公開出版的,能有什麼牽扯國家安全的內容?


正如 @Takashi Yoshika 所說,這是International Historical Big Data Project的子項目之一。

In the past eight months, our China team (CHINA GAZETTEER PROJECT) has already made groundbreaking progress, collecting county-level big data of China from 1949 to 1986.


【哈佛證書】中國經濟史大數據研究項目--談古說今:第二屆中國社會經濟分析大賽 - 青年實踐 我愛競賽網

談古說今--中國社會經濟分析大賽

作為中國經濟史大數據研究項目的一部分,談古說今--中國社會經濟分析大賽旨在選拔高校優秀的經濟研究人才,為高校大學生搭建國際化的學術交流平台。此次大賽主要有如下願景:

培養高校大學生的專業技能水平,為其搭建國際學術交流的平台;

增進各高校學生對新中國成立後的社會經濟改革和發展途徑的了解,促進其對今日中國改革的思考;

篩選符合資質要求的優勝參賽者暑期赴哈佛協助研究,並邀請他們參加暑期哈佛大學舉辦的中國經濟史大數據項目專題學術研討會;

為參賽者提供平台與世界知名的經濟學家對話,了解中國和世界經濟學界最新動態。

面向對象

本大賽面向所有在校或畢業大學生,專業、年齡、國籍不限。

報名網站

www.chinagazetteer.com

聯繫郵箱:chinagazetteer@126.com

媒體支持:www.52jingsai.com

大賽流程

1、在線申請

請登陸大賽網站www.chinagazetteer.com,點擊右上角註冊個人賬號,註冊並完善個人信息後在主頁右下角點擊「參加比賽」進入報名頁面,閱讀相關內容後進行報名。(請務必在完善個人信息後報名,否則無法記錄相應的報名信息)

團隊申請:以團隊(3-4人)名義申請,團隊中須有一名成員作為負責人,由負責人首先創建團隊,其餘成員隨後加入隊長創建的團隊。

個人申請:若實現,以個人名義申請,所有申請個人將被隨機安排組成團隊(如果有兩人想在同一團隊,請在報名時發郵件至chinagazetteer@126.com進行說明,完成組隊後則不能更改)

申請截止日期:10月25日(根據實際報名情況會有調整)

2、參賽測試

報名之後,參賽團隊需要完成數據處理任務的測試題,通過測試後才可獲得正式的參賽資格。(測試題是正式比賽任務中有代表性的一小部分,旨在通過測試使各位參賽者熟悉比賽內容)

每個參賽團隊都會分配到一名比賽協調員(coordinator),coordinator將負責檢查測試題以及解答比賽的相關問題。

正式比賽

通過測試後,各小組需要完成數據處理和專題報告兩項任務,比賽時間為30天。屆時我們會將比賽所需的數據發送給參賽小組,以賽方發送任務時間為準開始倒計時,各組需要在30天提交比賽任務,超時提交評分時將會扣除部分分數,最多超時5天。

(數據預計在10月1日後發送,提早完成測試的團隊可能需要等待一段時間。在通過測試後項目會儘快發送相關數據,參賽團隊也可根據自身時間安排,申請在特定時間傳送數據,但不得晚於10月25日)

(1)數據處理任務

將原始的縣市志pdf掃描件中含有可用數據的部分進行裁剪,並按照賽方提供的變數表將裁剪內容歸類重命名,同時轉存為jpg圖片文件。

具體說明:本項目主要目的是將縣/市志中的內容資料庫化,因此首先要把其中含有可用數據的表格及文字挑選出來,同時進行歸類,以便後續處理。本次比賽會向各個參賽團隊提供粗略篩選過的縣/市志掃描件,每本縣/市志平均有100張掃描件(一張掃描件相當於書中的一頁),參賽團隊需要在掃描件中找出和變數表中變數對應的內容,裁剪下來保存為jpg格式的圖片,同時按照規則對圖片重命名,達到對縣誌內容歸類的目的。屆時賽方會提供裁剪命名規則、所需的變數表及變數說明,參賽團隊需要根據比賽的相關說明完成數據處理任務。

任務量:3人團隊:18本縣/市志;4人團隊:24本縣/市志(每本縣誌的處理需要約

3-4個小時,具體時間依裁剪命名方法和認真程度而有所變化)

(2)專題報告

參賽團隊需要在給定的若干題目中自主選題完成一篇區域經濟發展分析報告,賽方會向參賽團隊提供3-4個區域(每個區域約20-30個縣)的數據供參賽者選擇,每個參賽團隊需要選取利用其中一個區域的數據完成報告。屆時賽方會向參賽團隊提供各區域數據的介紹,參賽團隊需要向賽方申請需要哪一個區域的數據。

註:專題報告要以賽方提供的數據為主,也可以參考其他數據,如人口普查數據等;

報告需要使用英文撰寫,報告將會由Freeman教授親自評分。


@Takashi Yoshika 說的應該是哈佛燕京對中國舊方誌的電子化整理,跟題主提到的這個項目是不同的。

題主提到的這個項目是對當代中國縣誌的數據整理,既然是整理公開出版的數據,國家安全上其實沒什麼問題,就我讀到的縣誌,很少有直接關係國家安全的信息。

但我覺得應該反思的是——這事兒居然是美國在做,而且正如上面有人提到的,是某個教授發起的,人家有錢有fund就做了,某種程度上可見美國對中國的關注。我一直希望這事兒能由我國政府或者我國科研單位等牽頭做出來,惠及廣大科研工作者,這樣有利於我們自己了解自己的政治,經濟等各個方面。遺憾啊遺憾。

最後對此project評價,巧妙的應用了眾籌的方式,打著哈佛的名頭,騙免費RA好么!我覺得好low. 既然說是眾籌,起碼對參賽者要有優惠,比如所有貢獻數據的人都可以共享整個數據才行,現在就以參加暑期班(還不包食宿)為名頭,其他什麼benefit都沒有,也是醉了。


很難界定項目是否涉及國家安全,但項目不違反國家安全,更不侵犯國家利益。


推薦閱讀:

是不是任何事物都可以定價?
上世紀30年代資本主義經濟大蕭條時期,美國的農場主每天把牛奶往河裡倒。請從經濟學的角度分析這麼做的原因?
你對於 2017 年諾貝爾經濟學獎的預測是什麼?
美國通貨膨脹率一直保持在較低水平的主要原因是什麼?
經濟學怎麼應用於現實生活?

TAG:經濟學 | 哈佛大學HarvardUniversity | 國家安全 |