如何批量下載 A 股招股說明書?
由於需要找一些數據,需要批量地下載招股說明書,但財經網站上不夠全,下載也比較麻煩。求助哪裡可以比較方便地批量下載招股說明書?尤其是2000年之前的招股說明書,很多網站都沒有全文。先謝過各路大神!
今天下午突然有了這個需求,晚上抽一個小時寫了個腳本實現了這個功能,順便分享一下好了。
第一步,想一下平時怎麼下招股書:
大概就是在深交所親兒子巨潮資訊上直接搜把:
第二步,分析網頁結構
簡單分析了一下這個網頁的http request ,發現這個文件里有我們想要的信息:
複製這個文件的下載地址:
大概是這樣的:
http://www.cninfo.com.cn/cninfo-new/fulltextSearch/full?searchkey=
%E4%B8%9C%E6%96%B9%E6%97%B6%E5%B0%9Asdate=edate=isfulltext=false
sortName=nothingsortType=descpageNum=1
下載解析之後是這樣的,其中"adjunctUrl": "finalpage/2016-01-26/1201941720.PDF" 就是我們想要的下載地址了:
第三步,寫python批量下載
然後就easy 了,python request 連續搞起就可以了,最終代碼長這樣:
最後的輸出效果是這樣的。。
沒有時間寫GUI,不過這個腳本沒有用到三方庫,理論上小白可以這麼用:
1。裝個python2.7
2。下載 https://github.com/tsauliu/ipofiles/blob/master/pyscrapy.py
3。在相同文件夾里新建stkcd.csv,輸入自己想要下載的股票代碼
4。雙擊pyscrapy.py,程序會自動下載招股說明書,按規律重命名,並放在output文件夾里
Github地址:tsauliu/ipofiles
ps:這個腳本也可以用來下載各種各樣的公告,比如說年報啊、半年報啊啥的,只要改一下代碼裡面第20行就可以了。
感謝 @Liu Cao 提供的網站,這裡提供一個新思路:
無需編程,無需翻牆,不敲代碼,只要15分鐘!
徹底拯救代碼苦手的小夥伴掌握數據抓取技能
一、工具準備(預計10分鐘)
下面我們正式進入主題,首先需要兩個工具:
- 谷歌chrome瀏覽器 鏈接:谷歌瀏覽器下載-百度軟體中心
- Web Scraper插件
- 可以翻牆的同學通過官方渠道 http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn
- 無法翻牆同學通過鏈接 http://chrome-extension-downloader.com/?extension=jnhgnonknehpejjnehehllkliplmbmhn# 打開鏈接(可能要刷新幾次),點擊 Download extension可以下載一個crx文件
或百度網盤鏈接:http://pan.baidu.com/s/1pKUvbyN 密碼:idqg
下載後需要手動安裝插件:【怎麼安裝Chrome插件】安裝Chrome第三方插件_百度經驗
二、開始抓取(預計5分鐘)
神秘代碼:
{"startUrl":"http://www.cninfo.com.cn/cninfo-new/fulltextSearch?code=notautosubmit=keyWord=%E6%8B%9B%E8%82%A1%E8%AF%B4%E6%98%8E%E4%B9%A6","selectors":[{"parentSelectors":["Detail"],"type":"SelectorLink","multiple":false,"id":"Downloadlink","selector":"div.btn-blue a","delay":"500"},{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"List","selector":"ul.ct-line li","delay":""},{"parentSelectors":["List"],"type":"SelectorText","multiple":false,"id":"Title","selector":"a","regex":"","delay":""},{"parentSelectors":["List"],"type":"SelectorText","multiple":false,"id":"Date","selector":"div.t4","regex":"","delay":""},{"parentSelectors":["List"],"type":"SelectorLink","multiple":false,"id":"Detail","selector":"a","delay":""}],"_id":"zhaogu"}
開抓:
- 點擊Scrape
- 設置抓取規則(默認即可),點擊Start Scraping ; 啊哈,在彈窗顯示知乎粉絲頁面後,抓取結果就直接出來了,如圖:
3. 快樂地導出數據吧,點擊export data as CSV,即導出為CSV格式
三、下載報告(旋風/迅雷等支持批量下載的軟體)
具體的原理可以移步我在知乎的數據抓取教程主貼:
零基礎如何學爬蟲技術? - 知乎
百度下載慧博智能策略終端,各種公開資料隨便免費下
原諒我看成了如何批量下載A片………
同花順東方財富都有免費的資料庫軟體,可以下載
wind
請大神指教下,如何自動抓取二級頁面裡面的信息,謝謝
有必要那麼麻煩么 直接總二郎神批量導出一下不就可以了么
銳思資料庫。
某寶上有出售上市公司歷年年報、中報和招股書的的網店,問問他們有沒有2000年前招股書,直接下單買吧,真不貴。
推薦閱讀:
※蘭亭集勢今晚(北京時間2013年6月6日)在美上市,值得買入嗎?
※我爸聽說有一個保健品的銷售公司準備 4 月份在美國上市,現在可以買員工內部股價,該不該入手好?
※公司上市前為何要實施股權激勵計劃?股票的來源都有哪些?可以提高公司的估值嗎?