如何看待用Stata完成爬蟲/文本挖掘/數據清洗/數據挖掘等工作?

Stata的專長是跑回歸,尤其是面板數據的回歸。

完成問題提及的這幾項工作都分別有其他更好的選項,如SAS, R, Python

應該盡量精通一種工具還是根據工作內容選擇不同工具?

其實我傾向於根據工作選擇不同工具,也見到其他人用stata做爬蟲,做文本挖掘,而且效果也不錯。我想知道這些執意使用一種工具的人是怎麼想的?


謝邀 @Rui Ruan 我覺得這取決於用stata做stata不擅長的事的人自己到底有多厲害吧……

如果這人很厲害,那麼ta為了干這些事寫的代碼可能通用性比較高,可以造福社區。這屬於正外部性很強的事情。同時對於ta自己來說,付出的時間成本可能並沒有大到不可接受。這種人我們叫大神。每個好的社區都有足夠多這樣的大神,他們撐起了社區,造福我們這些普通人。

但反過來,如果這人不怎麼厲害,寫出來的代碼沒啥通用性(可能還一堆錯+低效),僅僅是因為害怕學習新工具而堅持用自己已經會的一個工具去干這個工具不太擅長的事情,那麼我覺得這人在做這件事時不太明智。因為ta很可能在這事上花大量的時間,同時還不一定能做出正確(先不論運行效率)的結果。舉個極端的例子:給你一根鋼筋,一堆花崗岩、一些木棍草繩,理論上來說你可以用這些玩意做一把鎬。

但是拿石頭磨出鎬頭,拿草繩綁到木棍上的那個成品,可能用起來遠不如上圖這個流水線產品。而且這個流水線產品大概20塊錢一把……另外,學術圈裡或多或少會有些手藝人氣質比較重的人,每個領域比例不一樣。經濟學領域裡,據我個人的經驗,還真不少。用stata寫爬蟲這就屬於手藝人氣質重的人乾的事。如果手藝強到跟矽谷那些車庫晶元作坊可比,那麼寫出來造福社區我們是要膜拜的。但是如果就是本科金(屬)(加)工實習水平,那還是用流水線產品舒坦。


推薦看一下中南財經政法大學李春濤老師團隊的爬蟲公眾號。 幾乎都是用stata做的爬蟲數據處理等等 可以看一下


準確來說,Stata 的編程語言叫 Mata

一個小講義:

http://schmidheiny.name/teaching/statamata.pdf


推薦閱讀:

為什麼獻血不能市場化?
仙俠世界裡的經濟為什麼沒有崩潰?
如何理解「資產價格的實證分析」?
「在壟斷競爭市場里,邊際收益小於價格」如何解釋?
消費全返是一個怎樣的模式?

TAG:經濟學 | 統計 | Stata | 數據挖掘工具 |