python抓取網易財經的個股的財務數據,比如利潤表,並分項保存到mysql,需要哪些步驟?

如題,比如像抓取樂視網的利潤表數據,
http://quotes.money.163.com/f10/lrb_300104.html#01c06
最後保存到mysql中,需要哪些步驟呢,謝謝!!


如果直接分析html頁面的話可能非常繁瑣,最好是能找個提供api介面的,這種介面不一定是對外服務的,可能他們自己就用的介面,比如我知道新浪財經部分數據就是json介面,其他參考網站比如東方財富、同花順等
具體網易這個例子,看了下html很坑,但是可以下載csv,那就簡單多了:
1. 下載csv
2. 用csv相關模塊分析這個csv,提取相關欄位
3. 拼湊相關欄位數值,入庫
4. 循環以上步驟,搞定


Tushare


1.獲取頁面(Scrapy或者request或者urllib2等)

2.解析頁面(xpath或者beatuifulsoup)

3.存儲到mysql(MySQLdb)


1.爬取
2.預處理,包括空缺數據處理,日期對齊等等
3.存儲
一般來講,第2步最煩,因為你往往想不到會有什麼奇葩的異常等著你


我好像都做出來了…


推薦閱讀:

啟信寶的查詢功能是如何實現的?
怎樣利用數據爬取和分析工具寫出《黃燜雞米飯是怎麼火起來的》這樣的文章?

TAG:Python | 爬蟲計算機網路 | 數據抓取 |