標籤:

項目進展 | 2016年7月

很抱歉最近專欄一直沒更新……因為全組都在瘋狂地趕進度……這篇專欄和大家交流一下最近的進展和問題。

------

最近兩個月進度一直不太理想。主要卡在了數據管理方面。

目前我們主要的成果包括:

1. Tmall+JD爬蟲系統,以搜索頁為採集對象,用官方CPI分類結合網站分類編製l採集list。系統已經比較穩定地運行了三個月。

2. MongoDB資料庫系統的設計。資料庫錄入方案已經設計好。

-

目前我們正在做的事情包括:

1. Proposal和論文。@iGuo負責。 Proposal一直沒有改到位,所以暫時沒有發專欄。論文處於outline階段。還在和導師@jmao (不上知乎的成功人士)討論整體的結構。

2. Tmall+JD爬蟲系統。@iGuo@林行健@好大一棵樹 負責。Tmall已經改到第23個版本,JD已經改到第12個版本,目前整體很穩定,除了7月初出現一些異常,採集時間和採集數量不太理想以外一直穩定運行,經過排查發現是硬體太差。

3. 資料庫系統。@Dementia@好大一棵樹 負責。由於為了提高爬蟲效率,儲存模式是小文件csv儲存。由於這個設計,後期處理方面帶來巨大的麻煩。無論是集中數據到資料庫,還是直接分析等等工作都出現很大的問題。已經在這個坑裡面掉了兩個月還沒有出來。設計好的數據錄入方案主要受到硬體限制。目前計劃資料庫錄入和直接分析同步進行,主要要把採集系統改成錄入資料庫,歷史數據直接整理進行數據分析。

4. APP爬蟲系統,包括大潤發+家樂福+我查查(一款線下超市比價軟體)。@iGuo@David Qian 負責。團隊不太熟悉APP反爬,遇到很多問題,正在尋找解決方案。計劃解決反爬和小文件儲存問題之後部署到爬蟲系統中。

5. APP爬蟲list。@Suri負責。 正在製作。

6. 新的Proposal。@iGuo 負責。主要是線上線下價格一致性的檢驗。APP爬蟲系統的主要目的就是為了這篇Paper服務。另外團隊還計劃研究6.18和即將到來的雙十一的價格變動。

7. 項目網站。@Suri@FelixZane 負責。正在設計和後台搭建階段。

8. 其他。@張一組正在研究數據挖掘、自然語言處理和科學計算;@giratinar 正在研究可視化;@David Qian組正在研究各種反爬方法。

總結:沒錢沒硬體啥都幹不成……TAT

-

如果大家有問題和建議歡迎聯繫我~

聯繫方式:

郵箱:zhangguocpp@163.com

知乎:@iGuo(私信我即可~)

推薦閱讀:

《自然指數》2015年中國科研大觀察系列2——進擊之心篇
「第三講」什麼是特徵因子?
光/鎳雙重催化的交叉偶聯SET Cross-Coupling by Photoredox/Nickel Dual Catalysis
怎樣檢索到與你預期學術產出最相關的高質量專業文獻?

TAG:科研 |