一台筆記本怎麼學習Hadoop?

本人小本一隻,最近在看機器學習相關的演算法,想要用map-reduce來實現書中的演算法,也找到了一些相應的數據(大概幾十G),可是聽說Hadoop的配置是需要幾台機器做集群的,一台機器還不如不用Nosql,想問問各位大神有沒有什麼好的建議。

補充一下,機器是mac,所以基本上性能什麼的,就先不提了。


既然是Mac,用VirtualBox裝個Linux,自己搭個小集群玩玩還是可以的。

如果想試試分散式,2-3個虛擬機也能跑的動,每個虛擬機1G內存足夠了。

至於你說的Nosql,是另一個問題。都是工具,沒有最好,只有最適合應用場景。

既然你還是學生,可以兩個都學,對比。


一台機器可以簡單練習一下hadoop的安裝和配置,可以採用偽分散式的方式安裝,詳細做法詳見http://hadoop.apache.org。另外,最好電腦上裝Linux系統或者裝虛擬機,不建議使用Cywin,否則將會遇到一堆毫無價值的問題。


如果你的筆記本電腦配置強悍,8核CPU+8G內存,可以安裝個VMWare Esxi 5 虛擬化平台(免費),就可以像一台伺服器那樣操作。

給虛擬機分配資源,管理網卡,

你同時還可以安裝Cloudera的VMWare虛擬機鏡像,他們已經把Hadoop安裝好了,你需要拿過來用就OK了。

很好很強大。

不要使用Cywin!!!


使用Docker在本地搭建Hadoop分散式集群

最近按照這個教程在自己的Ubuntu中搭建成功了,還在慢慢折騰中,希望對你來說有用


到雲上去開兩三台機器做 hadoop 集群吧,筆記本只作為控制的客戶端。花不了多少錢。


建立偽分散式系統


Linux + 安裝配置,祝遇到問題越多越好...


我的是聯想G460,四年前的電腦了,我換了固態硬碟,裝的win8系統,然後用vmware虛擬機運行ubuntu搭載hadoop,跑1G左右的數據15分鐘,期間可以看電影上網。但是之前的機子實在是不行,所以固態硬碟還是蠻厲害的,希望對你有幫助


mac跑個虛擬機還是沒問題的,我mac才8G內存,多的時候也是跑3個虛擬機的hadoop集群,只不過內存小一點而已,一台機器不如不用nosql不知道是哪裡得來的理論,據我所知多數人都是從單機環境跑來的,畢竟寫程序在環境運行,單機環境足以。

不過剛開始不建議裝cloudera的,吃內存太大,建議裝apache版本吧,自己配置還能有直觀的感受一些具體的參數。


你要有個8G以上內存,100g左右的空閑硬碟空間,不要上來就用Cloudera類的工具,先裝原生,再用Cloudera等。


推薦閱讀:

我想買台電腦,請問是買iMac好還是自己配一台好?
怎麼讓伺服器絲般順滑的重啟?
通過哪些技術手段可以找回丟失的筆記本電腦?
請問各位,斐訊k2路由器真的有後門嗎?
Xbox 除了用來玩遊戲,還能用來做什麼?

TAG:數據挖掘 | 計算機 | 機器學習 | Hadoop | 分散式 |