標籤:

Python數據抓取(3) —抓取標題、時間及鏈接

本次分享,jacky將跟大家分享如何將第一財經文章中的標題、時間以及鏈接抓取出來

(一)觀察元素抓取位置

  • 網頁的原始碼很複雜,我們必須找到特殊的元素做抽取,怎麼找到特殊的元素呢?使用開發者工具檢視每篇文章的分隔發現都以dl-item做區隔,我們可以知道可以透過dl-item提取一個一個的列表,既然知道我們要存儲的位置在 dl-item下,我們就可以把dl-item下的結構拓展出來,我們接下來就可以根據不同的標籤取得不同的內容,我們把一個個的dl-item列出來

(二)爬蟲撰寫

import requestsnfrom bs4 import BeautifulSoupnresponse = requests.get(nhttp://www.yicai.com/data/)nresponse.encoding = utf-8nsoup = BeautifulSoup(response.text,html.parser)nnfor news in soup.select(.dl-item):n print(news.select(h3)) n

  • 去掉要抓取內容中的中括弧[0]

for news in soup.select(.dl-item):

print(news.select(h3)[0])

  • 取得裡面的文字內容

for news in soup.select(.dl-item):

print(news.select(h3)[0].text)

  • 抓取a 下的鏈接,發布來源及發布時間

for news in soup.select(.dl-item):n h3 = news.select(h3)[0].textn a = news.select(a)[0][href]n h4 =news.select(h4)[0].textn print(h4,h3,a) n


推薦閱讀:

Abaqus中如何根據不同的材料來創建對應的set?
Python 初學者想通過 Django 框架寫一個博客,一個月內完成任務,大致的學習路線怎麼安排?
Tornado 非同步非阻塞淺析
左手用R右手Python系列——多進程/線程數據抓取與網頁請求
有哪些值得推薦的Python學習網站?

TAG:Python |