使用Hadoop能做哪些比較有趣的事情?

背景:
計科研一,最近雲計算課程需要完成一個大作業,老師要求使用Hadoop做一些有意義的東西,我之前自己玩的時候只做過WordCount和排序這些簡單且沒有意義的程序。
現在我想用爬蟲爬取一些有用的數據,然後使用HDFS+Mapreduce進行數據分析,沒有什麼好的想法,請各位有經驗的知友給建議幾個有意思的小項目來做。


100+ Interesting Data Sets for Statistics - rs.io

拿去,也許能給你的數據分析項目提供點思路。

Hadoop 只是一個工具,數據分析重要的是靈感和方法。


提供一個思路,既然是爬蟲 要玩就玩大一點,Apache Nutch你值得擁有 分散式爬蟲,底下執行引擎仍然Mapreduce,寫起來也不複雜,推薦用java。 爬下來以後是二進位數據,然後轉化為文本文件,然後呢,可以用pig 轉化為結構化數據,最後做一些可視化啊什麼的。就是難度有點大。


推薦閱讀:

python關於xpath的一個問題:如何提取某標籤下所有內容?
如何處理python爬蟲ip被封?
怎麼用python爬qq空間的說說列表並保存到本地?
假如你有海量的QQ或者sina微博社交數據,能做哪些有趣的事情?
Python 爬蟲如何機器登錄新浪微博並抓取內容?

TAG:Java | Hadoop | 爬蟲計算機網路 | 大數據 |