怎樣將xml批量導入excel？

01-28

事情是這樣的，手上有幾千個url，url對應的是xml，想要把這些xml包含的數據導入到excel裡面去，目前嘗試下來有一下三種途徑：
1.excel導入數據&>來自網站，然後在彈出的瀏覽器里輸入url，即可導入成功，但是這樣要一次一次來做，沒有辦法批量完成，求大神指教怎樣批量完成。
2.execl導入數據&>來自其他源&>來自xml數據導入，然後貼上url，也可導入完成，但是同樣無法批量完成。
3.將url直接下載下來，然後將這些xml文件在同一張表中打開，本來覺得簡單又可行，可是發現下載這些url對應的文件名完全一樣，因此產生了無法區分的問題。

這個問題可以用VBA來處理，寫一個循環與判斷語句就行了，不過麻煩的是，有些網站是不支持EXCEL去讀取導入並循環更新的

EXCEL讀取網頁的時候，對於表的處理是先判斷網頁的框架，然後再判斷表在哪一個框架裡面的，然後定義一個表的號碼，這樣就比較容易導入，如果表是用其它語言寫的，動態的，或不是框架裡面的，往往就沒辦法處理

我來回答這個問題。

什麼是xml，什麼是excel？

她們兩種都是一種文件格式，屬於文本文件。計算機裡面要存放數據，一般都是存放在文件中，有些是文本文件，有些是二進位文件，比如圖片是二進位文件，你用文本編輯器打開會看到亂碼，而一些文件打開，你大致讀得懂就是文本文件。資料庫存放的數據底層也是存放在文件裡面。

好！xml是一種擴展標記語言，是html的超集，具體請百度。你可自己定義標記，比如&<愛我&>才怪&，哈哈哈哈，大致是這樣。這樣的文本文件有層次結構，熟稱文檔對象模型DOM，或者直接叫文檔樹，有父母，兄弟，兒子，孫子等。這種格式的產生是為了數據的傳輸，因為http協議，一般我們做網站的時候要傳數據，xml就是一種很好的選擇，因為便於提取，雖然現在大部分已經用json了。我就不展開了，也可以把這個問題改為，怎樣將json批量導入excel？

為什麼要將數據導入到excel？

現在你要提取到excel，就是說你想整理這些數據，因為excel的功能就是簡單化數據處理，而不需要手動編程。。。你要提取愛我，才怪，這些你喜歡的標記裡面的內容或者屬性，便於統計整理。直接在文本編輯器編輯是不可能的，因為你打開xml文件是很難整理的。

而excel文件有個excel軟體在支持它，因為excel就像小型的資料庫，有行列嘛，想想access，然後還有mysql資料庫，現在的mongo db，redis等，其實就是一個數據的存儲地，但是有了一些其它的功能。。

如何導入excel？

切入正題，來回答乎主的問題。怎麼把xml提取到excel？

嗯，寫程序就行了。可以用Vb寫，這樣打開excel運行宏就行了，不過數據量一大就會特別慢。有一個懶人爬蟲軟體及搜客就經常有這種xml轉excel的需求，因為設計者當初把數據傳輸格式定為xml，所以有一班不是很專業，又很專業的人，寫了一些Vb程序，還行。

但是，用JAVA，Go，Python解析xml是特別容易的，而且速度快。

程序演示

我已經寫好了一個軟體，請上github尋找:GitHub - hunterhug/xmlmerge: 及搜客XML合併程序這個程序已經封裝成exe在Windows下可以直接運行。我來演示一下操作。

注意，這個程序只能處理及授課軟體生成的xml,有格式要求！！！

注意，這個程序只能處理及授課軟體生成的xml,有格式要求！！！
這是程序目錄結構

-- exerun5.0 運行目錄& -- xmlchange.exe 可執行文件& -- files 需處理的XML(遞歸子文件夾）& -- jingjie_詳情_175894040_1117385545.xml& -- jingjie_詳情_175894040_111738554f.xml& -- jingjie_詳情_1758940s_1117385545.xml& -- source 源程序& -- xmlchange.py 源代碼& -- setup.py 打包配置& --run.bat 批處理運行腳本 -- data 演示數據&

使用方式

xml格式是由及搜客懶人軟體生成的，格式如下：

格式必須滿足：

& & &177304011& &2015-11-27 14:10:33& &&& &&<標題&>澳洲直郵悉尼發貨 Woolworths 全脂高鈣成人奶粉 1kg&& &&<標題&>澳洲直郵悉尼發貨 Woolworths 全脂高鈣成人奶粉 1kg&& &&<標題&>澳洲直郵悉尼發貨 Woolworths 全脂高鈣成人奶粉 1kg&& &

必須有有一個根元素包裹所有的子元素，然後必須有&&&三個子元素，數據則是在&中。&中可以嵌套&但是模式需要有重複，否則excel裡面會亂版。

好醜，哈哈哈哈，然後運行程序。

生成了一個excel文件，這個處理的速度特別快，達到多快，麻煩大家幫我測試一下，或者有什麼bug也可以提出。

源代碼展示

# -*- coding:utf-8 -*- # https://docs.python.org/2/library/xml.dom.html#dom-nodelist-objects import xml.dom.minidom import os.path import time from openpyxl import Workbook start = time.clock() wb=Workbook() # sheet=wb.create_sheet(0,"爬蟲抓取表") sheet=wb.create_sheet("爬蟲抓取表",0) # 2.3.5 i = 1


def get_xmlnode(node,name):

    return node.getElementsByTagName(name) if node else []
def files(rootdir):

    file = []

    for parent,dirnames,filenames in os.walk(rootdir):

        for filename in filenames:

            if filename.endswith(".xml"):

                file.append((parent+"/"+filename).replace("\","/"))

    return file
def writedata(i,j,item):

    if i == 1:

        try:

            sheet.cell(row = i,column= j).value = item.tagName

            sheet.cell(row = i+1,column= j).value = item.firstChild.data.strip()

        except:

            sheet.cell(row = i,column= j).value = item.tagName

            attrtext = []

            for key in item.attributes.keys():

                attrvalue = item.attributes[key]

                attrtext.append(attrvalue.value)

            sheet.cell(row = i+1,column= j).value = ",".join(attrtext)

    else:

        try:

            sheet.cell(row = i+1,column= j).value = item.firstChild.data.strip()

        except:

            attrtext = []

            for key in item.attributes.keys():

                attrvalue = item.attributes[key]

                attrtext.append(attrvalue.value)

            sheet.cell(row = i+1,column= j).value = ",".join(attrtext)
def curitem(nodelist,v1,v2,v3,tag="item"):

    if nodelist:

        for node in nodelist:

            nodelist2 = node.getElementsByTagName(tag) if node else []

            islast = curitem(nodelist2,v1,v2,v3)

            if islast==1:

                items = node.childNodes

                j=4

                for item in items:

                    global i

                    writedata(i,j,item)

                    j=j+1

                sheet.cell(row=i+1,column=1).value = v1

                sheet.cell(row=i+1,column=2).value = v2

                sheet.cell(row=i+1,column=3).value = v3

                i=i+1

        return 2

    else:

        return 1
def begin():

    sangjin = """

	"""

    print(sangjin)
begin()

print("開始處理......")

path = "../爬蟲生成表.xlsx"

xmls = files("../files/")

erpath = []

en = 0 #錯誤數
sheet.cell(row=1,column=1).value = "線索ID"

sheet.cell(row=1,column=2).value = "網址路徑"

sheet.cell(row=1,column=3).value = "爬取時間"

for filename in xmls:

	try:

		doc =xml.dom.minidom.parse(filename)

		root = doc.documentElement

		noderoot = get_xmlnode(root,"item")

		clueid = get_xmlnode(root,"clueid")

		v1=clueid[0].childNodes[0].data

		clueid1 = get_xmlnode(root,"uri")

		v2=clueid1[0].childNodes[0].data

		clueid2 = get_xmlnode(root,"createdate")

		v3=clueid2[0].childNodes[0].data

		curitem(noderoot,v1,v2,v3)

		print("處理成功："+filename)

	except Exception as e:

		#raise

		en = en+1

		erpath.append(filename+"

"+str(e))

		pass

wb.save(path) total = len(xmls) if erpath: print("-"*50) print("提取失敗的文件:") print(" ".join(erpath)) print("-"*50) print("總共處理XML條數："+str(total)) print("提取XML失敗條數："+str(en)) print("處理成功的XML條數："+str(total-en)) print("生成記錄數："+str(i-1)) print("-"*50) end = time.clock() print("程序總共運行時間 : %.03f 秒" %(end-start)) print("處理結束........") input()

只使用了xml和excel的庫：

import xml.dom.minidom from openpyxl import Workbook

代碼使用遞歸形式解析，很短很短，看看就知道了：

doc =xml.dom.minidom.parse(filename) root = doc.documentElement noderoot = get_xmlnode(root,"item") clueid = get_xmlnode(root,"clueid") v1=clueid[0].childNodes[0].data clueid1 = get_xmlnode(root,"uri") v2=clueid1[0].childNodes[0].data clueid2 = get_xmlnode(root,"createdate") v3=clueid2[0].childNodes[0].data curitem(noderoot,v1,v2,v3) print("處理成功："+filename)

為了照顧那個懶人軟體，所以解析了clueid等標記，因為它自帶的，而主要的爬取數據是放在item標記裡面，如果你要處理自己的xml文件，請聯繫我，因為你也許看不懂代碼，哈哈哈哈。

------------------------------------我是分割線----------------------------------------------------------------------------

我到現在還沒有解決乎主的問題。。。。。

手上有幾千個url，url對應的是xml，怎麼解決。i

可以直接爬取下來。將url寫在文件里，按行讀取url，然後寫個循環使用http get方式獲取下來。

給個例子吧，Python爬取數據萬能函數：

上面如果要使用Post進行數據抓取，請直接寫map，然後放在第三個參數。如果daili不是空的，就使用代理。著個涉及到反爬蟲的機制，如果有足夠多的人點贊，我就繼續寫。

代理文件daili.txt放在和源文件同級目錄，格式如下：

1.179.176.37:8080@HTTP#泰國 TOT公共有限公司 1.179.146.153:8080@HTTP#泰國 TOT公共有限公司 1.179.198.37:8080@HTTP#泰國 TOT公共有限公司 1.234.45.50:3128@HTTP#韓國 SK電訊 1.255.53.81:80@HTTP#韓國 SK電訊 5.22.195.148:80@HTTP#【匿】伊朗 5.135.161.61:3128@HTTP#法國 5.141.9.86:8080@HTTP#俄羅斯 5.160.247.16:8080@HTTP#伊朗

處理後會保存在daili1.txt裡面，可以打開看看。

這種代理IP去哪裡找呢？免費代理ip_httpip代理地址_qq代理伺服器

---------------------------------我又是分割線------------------------------------------------

寫了這麼多，貌似只講了一小部分。大家可以看我寫的另一篇文章，我沒時間寫太多，所以大部分都在腦里，有空會多來知乎吹水，剛剛入扎。

傳送門：

Python3中級玩家：淘寶天貓商品搜索爬蟲自動化工具（第一篇）

------------------------------爬蟲技巧補充-----------------------------------------------

處理其他格式的xml，請仿照程序修改！！！

由於沒有你的url，只能提供思路給你參考一下：

針對你的第1、2點，可以嘗試下錄製宏，或者直接編寫VBA。
針對第3點，可以使用批量重命名工具進行重命名再進行合併。
（提供一個選擇給你：Win7xfolder-批量重命名 by 小眾軟體）

很簡單，使用交流 - 集搜客社區這裡有工具和教程，不過樓主最好用2010以上的excel版本，太老的版本不一定合適

題主可以試試我導入CSV的方法，步驟類似，不需要額外的vba或者工具。

Excel batch import data from CSV files / Excel 批量導入CSV文件

題主可以試試我導入CSV的方法，步驟類似，不需要額外的vba或者工具。

Excel batch import data from CSV files / Excel 批量導入CSV文件