數據挖掘和網路爬蟲有什麼關聯區別?

[數據挖掘和網路爬蟲有什麼關聯區別?] 請問一下,數據挖掘,數據分析還有網路爬蟲有什麼區別和聯繫么?謝謝大家!

答:

data mining和web crawler是兩個不同範疇的事情。 data mining是信息提取,指的是用各種數據處理和學習方法,在數據中找規律,總結出人們需要的有用信息。它強調的是處理雜訊,表示的是一種研究方法。而web crawler指的是腳本工具,指的是通過各種腳本來截取網頁上的內容,本質是一種數據收集工具。

比如在我的文章中Context-specific grounding of web natural descriptions to human-centered situations [PDF] 和Web-video-mining-supported workflow modeling for robotic surgeries [PDF], 前者在wikihow上機器人學會幫人做事,後者是在youtube上機器人學會做手術。找到訓練樣本如對應的文本和視頻,這叫web crawler;而在文本和視頻中,學習做事的流程和邏輯,這叫做data mining.

再具體點就是,比如說context 這篇文章里,

data mining是指這整個方法

data mining的結果是人為中心的活動場景

而web crawler只是指的從webpage提取文本文件的過程,諸如下紅色方框里的內容

結果是文本corpus

希望把問題說清楚了,歡迎進一步的討論。有興趣可以關注我的研究主頁 Rui Liu - Robot Knowledge,很大一部分research是研究怎麼樣信息獲取。

推薦閱讀:

TAG:數據挖掘 | 爬蟲計算機網路 | 人工智慧 |