如何批量下載 A 股招股說明書?

由於需要找一些數據,需要批量地下載招股說明書,但財經網站上不夠全,下載也比較麻煩。求助哪裡可以比較方便地批量下載招股說明書?尤其是2000年之前的招股說明書,很多網站都沒有全文。先謝過各路大神!


今天下午突然有了這個需求,晚上抽一個小時寫了個腳本實現了這個功能,順便分享一下好了。

第一步,想一下平時怎麼下招股書:

大概就是在深交所親兒子巨潮資訊上直接搜把:

第二步,分析網頁結構

簡單分析了一下這個網頁的http request ,發現這個文件里有我們想要的信息:

複製這個文件的下載地址:

大概是這樣的:

http://www.cninfo.com.cn/cninfo-new/fulltextSearch/full?searchkey=
%E4%B8%9C%E6%96%B9%E6%97%B6%E5%B0%9Asdate=edate=isfulltext=false
sortName=nothingsortType=descpageNum=1

下載解析之後是這樣的,其中"adjunctUrl": "finalpage/2016-01-26/1201941720.PDF" 就是我們想要的下載地址了:

第三步,寫python批量下載

然後就easy 了,python request 連續搞起就可以了,最終代碼長這樣:

最後的輸出效果是這樣的。。

沒有時間寫GUI,不過這個腳本沒有用到三方庫,理論上小白可以這麼用:

1。裝個python2.7

2。下載 https://github.com/tsauliu/ipofiles/blob/master/pyscrapy.py

3。在相同文件夾里新建stkcd.csv,輸入自己想要下載的股票代碼

4。雙擊pyscrapy.py,程序會自動下載招股說明書,按規律重命名,並放在output文件夾里

Github地址:tsauliu/ipofiles

ps:這個腳本也可以用來下載各種各樣的公告,比如說年報啊、半年報啊啥的,只要改一下代碼裡面第20行就可以了。


感謝 @Liu Cao 提供的網站,這裡提供一個新思路:

無需編程,無需翻牆,不敲代碼,只要15分鐘!

徹底拯救代碼苦手的小夥伴掌握數據抓取技能

一、工具準備(預計10分鐘)

下面我們正式進入主題,首先需要兩個工具:

  1. 谷歌chrome瀏覽器 鏈接:谷歌瀏覽器下載-百度軟體中心
  2. Web Scraper插件
  • 可以翻牆的同學通過官方渠道 http://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn
  • 無法翻牆同學通過鏈接 http://chrome-extension-downloader.com/?extension=jnhgnonknehpejjnehehllkliplmbmhn# 打開鏈接(可能要刷新幾次),點擊 Download extension可以下載一個crx文件
    或百度網盤鏈接:http://pan.baidu.com/s/1pKUvbyN 密碼:idqg

下載後需要手動安裝插件:【怎麼安裝Chrome插件】安裝Chrome第三方插件_百度經驗

二、開始抓取(預計5分鐘)

神秘代碼:

{"startUrl":"http://www.cninfo.com.cn/cninfo-new/fulltextSearch?code=notautosubmit=keyWord=%E6%8B%9B%E8%82%A1%E8%AF%B4%E6%98%8E%E4%B9%A6","selectors":[{"parentSelectors":["Detail"],"type":"SelectorLink","multiple":false,"id":"Downloadlink","selector":"div.btn-blue a","delay":"500"},{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"List","selector":"ul.ct-line li","delay":""},{"parentSelectors":["List"],"type":"SelectorText","multiple":false,"id":"Title","selector":"a","regex":"","delay":""},{"parentSelectors":["List"],"type":"SelectorText","multiple":false,"id":"Date","selector":"div.t4","regex":"","delay":""},{"parentSelectors":["List"],"type":"SelectorLink","multiple":false,"id":"Detail","selector":"a","delay":""}],"_id":"zhaogu"}

開抓:

  1. 點擊Scrape
  2. 設置抓取規則(默認即可),點擊Start Scraping ; 啊哈,在彈窗顯示知乎粉絲頁面後,抓取結果就直接出來了,如圖:

3. 快樂地導出數據吧,點擊export data as CSV,即導出為CSV格式

三、下載報告(旋風/迅雷等支持批量下載的軟體)

具體的原理可以移步我在知乎的數據抓取教程主貼:

零基礎如何學爬蟲技術? - 知乎


百度下載慧博智能策略終端,各種公開資料隨便免費下


原諒我看成了如何批量下載A片………


同花順東方財富都有免費的資料庫軟體,可以下載


wind


請大神指教下,如何自動抓取二級頁面裡面的信息,謝謝


有必要那麼麻煩么 直接總二郎神批量導出一下不就可以了么


銳思資料庫。


某寶上有出售上市公司歷年年報、中報和招股書的的網店,問問他們有沒有2000年前招股書,直接下單買吧,真不貴。


推薦閱讀:

蘭亭集勢今晚(北京時間2013年6月6日)在美上市,值得買入嗎?
我爸聽說有一個保健品的銷售公司準備 4 月份在美國上市,現在可以買員工內部股價,該不該入手好?
公司上市前為何要實施股權激勵計劃?股票的來源都有哪些?可以提高公司的估值嗎?

TAG:Python | 首次公開募股IPO | 爬蟲計算機網路 | 招股書 |