大數據方面核心技術有哪些?


簡單說有三大核心技術:拿數據,算數據,賣數據。

首先做為大數據,拿不到大量數據都白扯。現在由於機器學習的興起,以及萬金油演算法的崛起,導致演算法地位下降,數據地位提高了。舉個通俗的例子,就好比由於教育的發展,導致個人智力重要性降低,教育背景變重要了,因為一般人按標準流程讀個書,就能比牛頓懂得多了。谷歌就說:拿牛逼的數據餵給一個一般的演算法,很多情況下好於拿傻傻的數據餵給牛逼的演算法。而且知不知道弄個牛逼演算法有多困難?一般人連這個困難度都搞不清楚好不好……拿數據很重要,巧婦難為無米之炊呀!所以為什麼好多公司要燒錢搶入口,搶用戶,是為了爭奪數據源呀!不過運營,和產品更關注這個,我是程序員,我不管……

其次就是算數據,如果數據拿到直接就有價值地話,那也就不需要公司了,政府直接賺外快就好了。蘋果落地都能看到,人家牛頓能整個萬有引力,我就只能撿來吃掉,差距呀……所以數據在那裡擺著,能挖出啥就各憑本事了。算數據就需要計算平台了,數據怎麼存(HDFS, S3, HBase, Cassandra),怎麼算(Hadoop, Spark)就靠咱們程序猿了……

再次就是賣得出去才能變現,否則就是搞公益了,比如《疑犯追蹤》裡面的李四和大鎚他們……見人所未見,預測未來並趨利避害才是智能的終極目標以及存在意義,對吧?這個得靠大家一塊兒琢磨。

其實我覺得最後那個才是「核心技術」,什麼Spark,Storm,Deep-Learning,都是第二梯隊的……當然,沒有強大的算力做支撐,智能應該也無從說起吧。


NoSQL,分散式計算,機器學習,還有新興的實時流處理,可能還有別的。


總的來說大數據有5個部分。數據採集,數據存儲,數據清洗,數據挖掘,數據可視化。數據採集有硬體採集,如OBD,有軟體採集,如滴滴,淘寶。數據存儲就包括NOSQL,hadoop等等。數據清洗包括語議分析,流媒體格式化等等。數據挖掘包括關聯分析,相似度分析,距離分析,聚類分析等等。數據可視化就是WEB的了。


目前大數據技術平台有很多,歸納起來可以按照以下方式進行分類:

  (1)從大數據處理的過程來分:包括數據存儲、數據挖掘分析、以及為完成高效分析挖掘而設計的計算平台,它們完成數據採集、ETL、存儲、結構化處理、挖掘、 分析、預測、應用等功能。

  (2)從大數據處理的數據類型來劃分:可以分為針對關係型數據、非關係型數據(圖數據、文本數據、網路型數據等)、半結構化數據、混合類型數據處理的技術平台。

  (3)從大數據處理的方式來劃分:可以分為批量處理、實時處理、綜合處理。其中批量數據是對成批數據進行一次性處理,而實時處理(流處理)對處理的延時有嚴格的要求,綜合處理是指同時具備批量處理和實時處理兩種方式。

  (4)從平台對數據的部署方式看:可以分為基於內存的、基於磁碟的。前者在分散式系統內部的數據交換是在內存中進行,後者則是通過磁碟文件的方式。

  此外,技術平台還有分散式、集中式之分,雲環境和非雲環境之分等。阿里雲大數據平台構建在阿里云云計算基礎設施之上,為用戶提供了大數據存儲、計算能力、大數據分析挖掘、以及輸出展示等服務,用戶可以容易地實現BI商業智能、人工智慧服務,具備一站式數據應用能力。在以前的一篇推送(「基於阿里雲大數據技術的個性化新聞推薦」)中,描述了基於阿里雲大數據技術的個性化新聞推薦系統分析設計與部署方法。

  不同的大數據技術平台提供了對這些處理過程的支持,有的平台可能會支持多個過程,但是側重點也不同,支持的深度也有所不同,因此有必要熟悉各種平台的功能,並做出比較分析,以便在實際應用中選擇適合於自己需求的技術平台!

推薦大家看下:大數據技術平台的分類,學習指南之精華篇! - 大數據 多智時代


Tree New Bee


目前,大數據領域每年都會湧現出大量新的技術,成為大數據獲取、存儲、處理分析或可視化的有效手段。大數據技術能夠將大規模數據中隱藏的信息和知識挖掘出來,為人類社會經濟活動提供依據,提高各個領域的運行效率,甚至整個社會經濟的集約化程度。那麼下面我們就說說大數據方面的核心技術有哪些:

1. 大數據生命周期

· 底層是基礎設施,涵蓋計算資源、內存與存儲和網路互聯,具體表現為計算節點、集群、機櫃和數據中心。在此之上是數據存儲和管理,包括文件系統、資料庫和類似YARN的資源管理系統。然後是計算處理層,如hadoop、MapReduce和Spark,以及在此之上的各種不同計算範式,如批處理、流處理和圖計算等,包括衍生出編程模型的計算模型,如BSP、GAS 等。

· 數據分析和可視化基於計算處理層。分析包括簡單的查詢分析、流分析以及更複雜的分析(如機器學習、圖計算等)。查詢分析多基於表結構和關係函數,流分析基於數據、事件流以及簡單的統計分析,而複雜分析則基於更複雜的數據結構與方法,如圖、矩陣、迭代計算和線性代數。一般意義的可視化是對分析結果的展示。但是通過互動式可視化,還可以探索性地提問,使分析獲得新的線索,形成迭代的分析和可視化。基於大規模數據的實時交互可視化分析以及在這個過程中引入自動化的因素是目前研究的熱點。

· 2.大數據技術生態

· 大數據的基本處理流程與傳統數據處理流程並無太大差異,主要區別在於:由於大數據要處理大量、非結構化的數據,所以在各處理環節中都可以採用並行處理。目前,Hadoop、MapReduce和Spark等分散式處理方式已經成為大數據處理各環節的通用處理方法。

· 3.大數據採集與預處理

在大數據的生命周期中,數據採集處於第一個環節。根據MapReduce產生數據的應用系統分類,大數據的採集主要有4種來源:管理信息系統、Web信息系統、物理信息系統、科學實驗系統。對於不同的數據集,可能存在不同的結構和模式,如文件、XML 樹、關係表等,表現為數據的異構性。對多個異構的數據集,需要做進一步集成處理或整合處理,將來自不同數據集的數據收集、整理、清洗、轉換後,生成到一個新的數據集,為後續查詢和分析處理提供統一的數據視圖。針對管理信息系統中異構資料庫集成技術、Web 信息系統中的實體識別技術和DeepWeb集成技術、感測器網路數據融合技術已經有很多研究工作,取得了較大的進展,已經推出了多種數據清洗和質量控制工具。

· 4.大數據存儲與管理

按數據類型的不同,大數據的存儲和管理採用不同的技術路線,大致可以分為3類。第1類主要面對的是大規模的結構化數據。針對這類大數據,通常採用新型資料庫集群。它們通過列存儲或行列混合存儲以及粗粒度索引等技術,結合MPP(Massive Parallel Processing)架構高效的分散式計算模式,實現對PB 量級數據的存儲和管理。這類集群具有高性能和高擴展性特點,在企業分析類應用領域已獲得廣泛應用;第2類主要面對的是半結構化和非結構化數據。應對這類應用場景,基於Hadoop開源體系的系統平台更為擅長。它們通過對Hadoop生態體系的技術擴展和封裝,實現對半結構化和非結構化數據的存儲和管理;第3類面對的是結構化和非結構化混合的大數據,因此採用MPP 並行資料庫集群與Hadoop 集群的混合來實現對百PB 量級、EB量級數據的存儲和管理。一方面,用MPP 來管理計算高質量的結構化數據,提供強大的SQL和OLTP型服務;另一方面,用Hadoop實現對半結構化和非結構化數據的處理,以支持諸如內容檢索、深度挖掘與綜合分析等新型應用。這類混合模式將是大數據存儲和管理未來發展的趨勢。

· 5.大數據計算模式與系統

· 所謂大數據計算模式,即根據大數據的不同數據特徵和計算特徵,從多樣性的大數據計算問題和需求中提煉並建立的各種高層抽象(abstraction)或模型(model)。例如,MapReduce 是一個並行計算抽象,加州大學伯克利分校著名的Spark系統中的「分布內存抽象RDD」,CMU 著名的圖計算系統GraphLab中的「圖並行抽象」(Graph Parallel Abstraction)等。傳統的並行計算方法,主要從體系結構和編程語言的層面定義了一些較為底層的並行計算抽象和模型,但由於大數據處理問題具有很多高層的數據特徵和計算特徵,因此大數據處理需要更多地結合這些高層特徵考慮更為高層的計算模式。

根據大數據處理多樣性的需求和以上不同的特徵維度,目前出現了多種典型和重要的大數據計算模式。與這些計算模式相適應,出現了很多對應的大數據計算系統和工具。由於單純描述計算模式比較抽象和空洞,因此在描述不同計算模式時,將同時給出相應的典型計算系統和工具。

· 6.大數據分析與可視化

大規模數據的可視化主要是基於並行演算法設計的技術,合理利用有限的計算資源,高效地處理和分析特定數據集的特性。通常情況下,大規模數據可視化的技術會結合多解析度表示等方法,以獲得足夠的互動性能。

在科學大規模數據的並行可視化工作中,主要涉及數據流線化、任務並行化、管道並行化和數據並行化4 種基本技術。微軟公司在其雲計算平台Azure 上開發了大規模機器學習可視化平台(Azure Machine Learning),將大數據分析任務形式為有向無環圖並以數據流圖的方式向用戶展示,取得了比較好的效果。在國內,阿里巴巴旗下的大數據分析平台御膳房也採用了類似的方式,為業務人員提供的互動式大數據分析平台。


大數據與之前的數據處理相比,區別就是數據量增大了。因此大數據核心應該是一些有別於傳統的,適合大量數據處理的工具。如分散式計算的hadoop,spark,storm,分散式文件系統hdfs,分散式消息隊列例如kafka,非關係型資料庫例如redis,hbase。

基本上,大數據處理可以概括為:針對特別大量的數據,採用分散式計算工具處理數據。


atitit .大數據的方法,技術.attilax總結 大數據包含哪些方面 v3 rb2..docx

7. 三大核心技術:拿數據,處理轉換,算數據 2

8. 大數據有5個部分。數據採集,數據存儲,數據清洗,數據挖掘,數據可視化 2

9. 關聯技術 2

10. 數據採集技術 (非常重要) 2

10.1. 數據採集----自動化web操作/瀏覽器引擎 自動化ui數據採集 可以對常見的sns im軟體操作採集數據 2

10.2. 數據採集---安卓等設備模擬器技術 2

10.3. 截屏與ocr技術 方便對屏幕數字化處理為文字 3

10.4. 導出 、分享 有些程序自帶導出分享功能,方便多了 3

10.5. Ocr技術 面對c端數據採集,可能需要ocr 3

10.6. 註冊機/登錄器/發帖機/ 3

10.7. 破解圖片驗證碼../手機驗證碼.。。數據採集過程中可能遇到驗證碼 3

10.8. 數據導出,可能要使用分享給你,也可能沒有分享,只能ocr模式轉換 3

11. 數據清洗技術 3

11.1. 數據分類 根據分類不同來不同的垃圾文件判斷標準 3

11.2. 數據清洗 識別垃圾數據清理 3

12. 數據結構化轉換與數據存儲(重要) 3

12.1. 數據壓縮技術 數據存儲 3

12.2. 數據格式轉換技術 非結構化轉換為部分結構化 比如tag技術 4

12.3. 數據分類技術 多維度分類 4

13. 大數據索引技術 壓縮文件索引技術 (很重要) 4

13.1. 大數據導入,需要自動化ui技術 4

14. 數據挖掘與可視化(相對不那麼重要) 4

15. 其他可能需要的技術 4

15.1. 語音識別技術 4

15.2. 手寫識別技術 4

15.3. 水軍好評差評 4

15.4. 雲計算、移動互聯網 4

15.5. 物聯網. 5

15.6. 非結構化nosql資料庫技術 5

16. 參考: 5

作者Attilax , EMAIL:1466519819@qq.com 來源:attilax的專欄 地址:http://blog.csdn.net/attilax

7. 三大核心技術:拿數據,處理轉換,算數據

8. 大數據有5個部分。數據採集,數據存儲,數據清洗,數據挖掘,數據可視化

9. 關聯技術

10. 數據採集技術 (非常重要)

10.1. 數據採集----自動化web操作/瀏覽器引擎 自動化ui數據採集 可以對常見的sns im軟體操作採集數據

刷票器/

10.2. 數據採集---安卓等設備模擬器技術

有些app只能運行在安卓等特定環境需要使用模擬器採集數據

10.3. 截屏與ocr技術 方便對屏幕數字化處理為文字

10.4. 導出 、分享 有些程序自帶導出分享功能,方便多了

10.5. Ocr技術 面對c端數據採集,可能需要ocr

10.6. 註冊機/登錄器/發帖機/

10.7. 破解圖片驗證碼../手機驗證碼.。。數據採集過程中可能遇到驗證碼

10.8. 數據導出,可能要使用分享給你,也可能沒有分享,只能ocr模式轉換

11. 數據清洗技術

11.1. 數據分類 根據分類不同來不同的垃圾文件判斷標準

11.2. 數據清洗 識別垃圾數據清理

數據

12. 數據結構化轉換與數據存儲(重要)

12.1. 數據壓縮技術 數據存儲

12.2. 數據格式轉換技術 非結構化轉換為部分結構化 比如tag技術

12.3. 數據分類技術 多維度分類

13. 大數據索引技術 壓縮文件索引技術 (很重要)

13.1. 大數據導入,需要自動化ui技術

14. 數據挖掘與可視化(相對不那麼重要)

15. 其他可能需要的技術

15.1. 語音識別技術

15.2. 手寫識別技術

15.3. 水軍好評差評

15.4. 雲計算、移動互聯網

技術的發展,使得大量數據的生產和連通變成現實;

15.5. 物聯網.

15.6. 非結構化nosql資料庫技術

非結構化資料庫技術的發展,使得數據收集的要求大大降低;

16. 參考:

窺視互聯網金融:談談大數據

Hadoop並非完美:8個代替 HDFS 的絕佳方案


大數據的核心技術上面各位大神都寫的很清楚了,我只提一點,拿數據即大數據採集這個是大數據最基礎的步驟。傳統軟體系統的數據採集的方式方法有軟體介面對接方式和開放資料庫方式。第一種軟體介面對接方式,是需要各個軟體廠商提供數據介面,實現數據彙集,人力物力花費比較大。第二種開放資料庫方式,這是最直接的一種方式了,但一般來說來自不同公司的系統,不太會開放自己的資料庫給對方連接,因為這樣會有安全性的問題。

第三種,基於底層數據交換的數據直接採集方式—博為軟體101異構軟體採集技術,原理是通過獲取軟體系統的底層數據交換、軟體客戶端和資料庫之間的網路流量包,進行包流量分析採集到應用數據,同時還可以利用模擬技術模擬客戶端請求,實現數據的自動寫入。

技術特點如下:

1)獨立抓取,不需要軟體廠家配合;

2)實時數據採集;數據端到端的延遲在數秒之內;

3)兼容Windows平台的幾乎所有軟體(C/S,B/S); 作為數據挖掘,大數據分析的基礎;

4)自動建立數據間關聯;

5)配置簡單、實施周期短;

6)支持自動導入歷史數據。


這個問題相對還是比較容易回答的,最基本的原因,數據的海量存貯,然後是大數據量的分析.


推薦閱讀:

大眾眼中的大數據是怎樣的?
測試比較 Hive, impala 和 shark/spark 的性能,可以從哪些具體方面入手?
數據分析師是程序員嗎?
近期的約網車服務通過隱藏號碼來保護隱私,這在技術上是如何實現的?對其他服務行業有怎樣的啟示?
單台伺服器中如何存放幾千萬張圖片?

TAG:互聯網 | 大數據 |