Hadoop環境搭建筆記整理(一)——VM下的centos7安裝及jdk配置

最近在實習,實習項目與大數據相關,做一些筆記和bug的整理,版本號可能有時會不對應,但不影響參考,我會說明自己的版本是什麼。

一、是什麼和做什麼

1.

(1)什麼是hadoop?

Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。用戶可以在不了解分散式底層細節的情況下,開發分散式程序。充分利用集群的威力進行高速運算和存儲。Hadoop是一個能夠讓用戶輕鬆架構和使用的分散式計算平台。用戶可以輕鬆地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點:

高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。

高效性。Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。

高容錯性。Hadoop能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配。

低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,hadoop是開源的,項目的軟體成本因此會大大降低。

Hadoop帶有用Java語言編寫的框架,因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫,比如 C++。

(2)什麼是VM

虛擬機(Virtual Machine)指通過軟體模擬的具有完整硬體系統功能的、運行在一個完全隔離環境中的完整計算機系統。

虛擬系統通過生成現有操作系統的全新虛擬鏡像,它具有真實windows系統完全一樣的功能,進入虛擬系統後,所有操作都是在這個全新的獨立的虛擬系統裡面進行,可以獨立安裝運行軟體,保存數據,擁有自己的獨立桌面,不會對真正的系統產生任何影響 ,而且具有能夠在現有系統與虛擬鏡像之間靈活切換的一類操作系統。虛擬系統和傳統的虛擬機(Parallels Desktop ,Vmware,VirtualBox,Virtual pc)不同在於:虛擬系統不會降低電腦的性能,啟動虛擬系統不需要像啟動windows系統那樣耗費時間,運行程序更加方便快捷;虛擬系統只能模擬和現有操作系統相同的環境,而虛擬機則可以模擬出其他種類的操作系統;而且虛擬機需要模擬底層的硬體指令,所以在應用程序運行速度上比虛擬系統慢得多。

流行的虛擬機軟體有VMware(VMWare ACE)、Virtual Box和Virtual PC,它們都能在Windows系統上虛擬出多個計算機。

2.第一節課做的事情是在windows環境下下載VMware Workstation Pro,裝centos7鏡像。

二、安裝步驟

1.VMware 虛擬機:面向桌面、應用、公有和混合雲(VMware Workstation Pro下載地址)

注意事項:

內存和硬碟分配要得當,網路適配器根據自己所做工程的需求選擇NAT或橋接。

2.Download CentOS(CentOS 下載地址)

注意事項:

a.安裝時默認最小化安裝,這種安裝方法速度較快但沒有圖形界面。更改時選擇GUI安裝。

b.選擇服務項目時,默認資料庫工具為mariadb,如果後期使用其他資料庫,記得不要勾選此服務,如果忘記關閉方法在後面說資料庫的內容的章節將會提到關閉方法。

c.可選擇不建立用戶,如選擇建立用戶最好勾選賦權給當前用戶

3.centos7下的jdk安裝及配置

(1)至官網處下載jdk,或使用系統自帶的openjdk(但系統自帶的jdk一般版本較低,所以最好選擇oracle jdk)

(2)卸載openjdk(使用系統jdk跳過此步驟)

查看Linux自帶的JDK是否已安裝 ,用命令 Java -version

Java version "1.6.0"

OpenJDK Runtime Environment (build 1.6.0-b09)

OpenJDK 64-Bit Server VM (build 1.6.0-b09, mixed mode)

先查看 rpm -qa | grep java

顯示如下信息:(可能還有更多,卸載時注意帶openjdk字樣的全部卸載,其他不可以卸載)

java-1.4.2-gcj-compat-1.4.2.0-40jpp.115

java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5

卸載:

rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115

rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5

(我的系統openjdk是1.8,但後來沒有選擇使用)

(3)創建文件夾並配置

註:在普通用戶和root用戶下安裝jdk需要root用戶授權,可以選擇在普通用戶終端「su root」或者直接進入root用戶設置,在這裡我選擇進入root用戶設置。如果使用普通用戶授權則需要授權文件夾。

a.創建/app目錄,把該目錄的所有者修改為erica,創建lib目錄

mkdir /app

chown -R erica:erica /app

mkdir /app/lib

b.把下載的安裝包解壓並遷移到/app/lib目錄下

cd /home/neusoft/install-pack(找到下載的文件,這一句不一定這樣寫)

tar -zxf jdk-8u55-linux-x64.tar.gz(解壓)

mv jdk1.7.0_55/ /app/lib

ll /app/lib

c.更改環境變數vim /etc/profile(gedit/etc/profile)

JAVA_HOME=/usr/java/jdk1.8.0_131

JRE_HOME=/usr/java/jdk1.8.0_131/jre

PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib

export JAVA_HOME JRE_HOME PATH CLASSPATH

註:JRE_HOME必須設置,不然可能遇到無法存儲變數的問題

d.編譯並驗證

source /etc/profile(必須輸入,不然會無法應用配置)

java -version

4.更新openssl

CentOS自帶的OpenSSL存在bug,如果不更新OpenSSL在Ambari部署過程會出現無法通過SSH連接節點,使用如下命令進行更新:yum update openssl

三、遇到的bug

配置變數有錯導致無法應用配置。

推薦閱讀:

Ubuntu搭建Hadoop的踩坑之旅(一)
開始新的征程~VMware12安裝OS X10.11過程記錄
教程 :: 在Windows下使用VirtualBox部署Ubuntu虛擬機
總結篇4-1 虛擬機擴展2——解釋運行高級語言
反虛擬機技術總結

TAG:大數據 | 虛擬機 |