數據挖掘和網路爬蟲有什麼關聯區別？

02-12

[數據挖掘和網路爬蟲有什麼關聯區別？] 請問一下，數據挖掘，數據分析還有網路爬蟲有什麼區別和聯繫么？謝謝大家！

答：

data mining和web crawler是兩個不同範疇的事情。 data mining是信息提取，指的是用各種數據處理和學習方法，在數據中找規律，總結出人們需要的有用信息。它強調的是處理雜訊，表示的是一種研究方法。而web crawler指的是腳本工具，指的是通過各種腳本來截取網頁上的內容，本質是一種數據收集工具。

比如在我的文章中Context-specific grounding of web natural descriptions to human-centered situations [PDF] 和Web-video-mining-supported workflow modeling for robotic surgeries [PDF]，前者在wikihow上機器人學會幫人做事，後者是在youtube上機器人學會做手術。找到訓練樣本如對應的文本和視頻，這叫web crawler；而在文本和視頻中，學習做事的流程和邏輯，這叫做data mining.

再具體點就是，比如說context 這篇文章里，

data mining是指這整個方法

data mining的結果是人為中心的活動場景

而web crawler只是指的從webpage提取文本文件的過程，諸如下紅色方框里的內容

結果是文本corpus

希望把問題說清楚了，歡迎進一步的討論。有興趣可以關注我的研究主頁 Rui Liu - Robot Knowledge，很大一部分research是研究怎麼樣信息獲取。