Python中用BeautifulSoup解析中文網頁里的中文都是亂碼,怎麼回事?
12-28
我想用BeautifulSoup抓取一個網頁裡面的表格數據,但是抓下來的中文全是類似「
????????????????????¨?????????????¨??????????é??é??????」的亂碼。我的代碼如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2
from bs4 import BeautifulSoup
html=urllib2.urlopen("http://www.515fa.com/che_1978.html").read()
soup=BeautifulSoup(html,from_encoding="utf-8")
print soup.prettify()
運行出來
嘗試了sys.setdefaultencoding("utf-8")或者把from_encoding改成「gb18030」都沒有用,請問大神這要如何是好?
應該是這個網頁head文件裡面沒有編碼,
需要自己指定『UTF-8』才行。
我只會requests這個庫自己指定編碼的方法。
大概你想這麼做?
網頁源碼里查看下網頁的編譯方式,再直接指定相應的編譯方式
推薦閱讀:
※python中selenium下如何獲取網頁中對應標籤的文本信息?
※每月一萬元,每天監控一千萬個網頁的變化,有什麼可能的解決方案?
※關於python中beautifulsoup的問題?
※能否用爬蟲抓取論文參考文獻?
TAG:Python | 爬蟲計算機網路 | beautifulsoup | Python庫 |