208個最新最全大數據/人工智慧專有名詞術語 中英對照(上)

本文為36大數據原創,禁止轉載。

寫在前面

一個產業的蓬勃發展離不開基礎知識點的整理與沉澱。

我們相信這一份「208個關於大數據和人工智慧的專用名詞術語」中英文對照版 ;會成為大家以後日常工作中常用的工具,無論是你在翻譯、寫產品文檔、寫論文、又或者嘗試國外新技術的時候都會用得上。所以,我們很高興可以把它整合併且分享出來,並且按照字母進行了排序。由於文字太多,今天先放出從A-I部分..

A

Apache Kafka:命名於捷克作家卡夫卡,用於構建實時數據管道和流媒體應用。它如此流行的原因在於能夠以容錯的方式存儲、管理和處理數據流,據說還非常「快速」。鑒於社交網路環境大量涉及數據流的處理,卡夫卡目前非常受歡迎。

Apache Mahout:Mahout 提供了一個用於機器學習和數據挖掘的預製演算法庫,也可用作創建更多演算法的環境。換句話說,機器學習極客的最佳環境。

Apache Oozie:在任何編程環境中,你都需要一些工作流系統通過預定義的方式和定義的依賴關係,安排和運行工作。Oozie 為 pig、MapReduce 以及 Hive 等語言編寫的大數據工作所提供正是這個。

應用程序開發(APP DEV):應用程序開發是根據用戶要求建造出軟體系統或者系統中的軟體部分的過程,包括需求捕捉、需求分析、設計、實現和測試的系統工程。一般是用某種程序設計語言來實現的。通常採用應用程序開發工具可以進行開發。

Apache Drill, Apache Impala, Apache Spark SQL:這三個開源項目都提供快速和互動式的 SQL,如與 Apache Hadoop 數據的交互。如果你已經知道 SQL 並處理以大數據格式存儲的數據(即 HBase 或 HDFS),這些功能將非常有用。抱歉,這裡說的有點奇怪。

Apache Hive:知道 SQL 嗎?如果知道那你就很好上手 Hive 了。Hive 有助於使用 SQL 讀取、寫入和管理駐留在分散式存儲中的大型數據集。

Apache Pig:Pig 是在大型分散式數據集上創建、查詢、執行常式的平台。所使用的腳本語言叫做 Pig Latin(我絕對不是瞎說,相信我)。據說 Pig 很容易理解和學習。但是我很懷疑有多少是可以學習的?

Apache Sqoop:一個用於將數據從 Hadoop 轉移到非 Hadoop 數據存儲(如數據倉庫和關係資料庫)的工具。

Apache Storm:一個免費開源的實時分散式計算系統。它使得使用 Hadoop 進行批處理的同時可以更容易地處理非結構化數據。

人工智慧(Artificial Intelligence):研發智能機器和智能軟體,這些智能設備能夠感知周遭的環境,並根據要求作出相應的反應,甚至能自我學習

聚合(Aggregation) : 搜索、合併、顯示數據的過程

演算法(Algorithm):演算法可以理解成一種數學公式或用於進行數據分析的統計學過程。那麼,「演算法」又是何以與大數據扯上關係的呢?要知道,儘管演算法這個詞是一個統稱,但是在這個流行大數據分析的時代,演算法也經常被提及且變得越發流行。

異常檢測(Anomaly detection) :在數據集中搜索與預期模式或行為不匹配的數據項。除了「Anomalies」,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通常可提供關鍵的可執行信息

匿名化(Anonymization) :使數據匿名,即移除所有與個人隱私相關的數據

應用(Application) :實現某種特定功能的計算機軟體

分析法(Analytics):用於發現數據的內在涵義。讓我們試想一個很可能發生的情況,你的信用卡公司給你發了封記錄著你全年卡內資金轉賬情況的郵件,如果這個時候你拿著這張單子,開始認真研究你在食品、衣物、娛樂等方面消費情況的百分比會怎樣?你正在進行分析工作,你在從你原始的數據(這些數據可以幫助你為來年自己的消費情況作出決定)中挖掘有用的信息。那麼,如果你以類似的方法在推特和臉書上對整個城市人們發的帖子進行處理會如何呢?在這種情況下,我們就可以稱之為大數據分析。所謂大數據分析,就是對大量數據進行推理並從中道出有用的信息。以下有三種不同類型的分析方法,現在我們來對它們分別進行梳理。

B

批處理(Batch processing):儘管批量數據處理從大型機(mainframe)時代就已經存在了,但是在處理大量數據的大數據時代面前,批處理獲得了更重要的意義。批量數據處理是一種處理大量數據(如在一段時間內收集到的一堆交易數據)的有效方法。分散式計算(Hadoop),後面會討論,就是一種專門處理批量數據的方法。

行為分析(Behavioral Analytics):你有沒有想過谷歌是如何為你需要的產品/服務提供廣告的?行為分析側重於理解消費者和應用程序所做的事情,以及如何與為什麼它們以某種方式起作用。這涉及了解我們的上網模式,社交媒體互動行為,以及我們的網上購物活動(購物車等),連接這些無關的數據點,並試圖預測結果。舉一個例子,在我找到一家酒店並清空購物車後,我收到了度假村假期線路的電話。我還要說多點嗎?

商業智能(Business Intelligence):我將重用 Gartner 對 BI 的定義,因為它解釋的很好。商業智能是一個總稱,包括應用程序、基礎設施、工具以及最佳實踐,它可以訪問和分析信息,從而改善和優化決策及績效。

生物測定學(Biometrics):這是一項 James Bondish 技術與分析技術相結合的通過人體的一種或多種物理特徵來識別人的技術,如面部識別,虹膜識別,指紋識別等。

描述性分析法(Descriptive Analytics):如果你只說出自己去年信用卡消費情況為:食品方面 25%、衣物方面 35%、娛樂方面 20%、剩下 20% 為雜項開支,那麼這種分析方法被稱為描述性分析法。當然,你也可以找出更多細節。

大數據科學家(Big Data Scientist):能夠設計大數據演算法使得大數據變得有用的人

大數據創業公司(Big data startup):指研發最新大數據技術的新興公司

B位元組 (BB: Brontobytes):約等於1000 YB(Yottabytes),相當於未來數字化宇宙的大小。1 B位元組包含了27個0!

大數據 (Big data):指的是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

數據科學平台(Data science platforms):是數據科學家創造和測試數據科學解決方案的工作平台。按照高德納的定義,數據科學平台是「由緊密相關的多項數據處理核心技術模塊組合而成的軟體系統,以支持各類數據科學解決方案的開發及其在業務流程、周邊基礎設施和產品中的應用。

C

點擊流分析(Clickstream analytics):用於分析用戶在網路上瀏覽時的在線點擊數據。有沒有想過即使在切換網站時,為什麼某些谷歌廣告還是陰魂不散?因為谷歌大佬知道你在點擊什麼。

聚類分析(Cluster Analysis):是一個試圖識別數據結構的探索性分析,也稱為分割分析或分類分析。更具體地說,它試圖確定案例的同質組(homogenous groups),即觀察、參與者、受訪者。如果分組以前未知,則使用聚類分析來識別案例組。因為它是探索性的,確實對依賴變數和獨立變數進行了區分。SPSS 提供的不同的聚類分析方法可以處理二進位、標稱、序數和規模(區間或比率)數據。

比較分析(Comparative Analytics):因為大數據的關鍵就在於分析,顧名思義,比較分析是使用諸如模式分析、過濾和決策樹分析等統計技術來比較多個進程、數據集或其他對象。我知道它涉及的技術越來越少,但是我仍無法完全避免使用術語。比較分析可用於醫療保健領域,通過比較大量的醫療記錄、文件、圖像等,給出更有效和更準確的醫療診斷。

關聯分析(Connection Analytics):你一定看到了像圖表一樣的蜘蛛網將人與主題連接起來,從而確定特定主題的影響者。關聯分析分析可以幫助發現人們、產品、網路之中的系統,甚至是數據與多個網路結合之間的相關連接和影響。

Cassandra:是一個很流行的開源數據管理系統,由 Apache Software Foundation 開發並運營。Apache 掌握了很多大數據處理技術,Cassandra 就是他們專門設計用於在分散式伺服器之間處理大量數據的系統。

雲計算(Cloud computing):構建在網路上的分散式計算系統,數據是存儲於機房外的(即雲端),軟體或數據在遠程伺服器上進行處理,並且這些資源可以在網路上任何地方被訪問,那麼它就可被稱為雲計算。

集群計算(Cluster computing):這是一個來描述使用多個伺服器豐富資源的一個集群(cluster)的計算的形象化術語。更技術層面的理解是,在集群處理的語境下,我們可能會討論節點(node)、集群管理層(cluster management layer)、負載平衡(load balancing)和並行處理(parallel processing)等等。

分類分析(Classification analysis) :從數據中獲得重要的相關性信息的系統化過程; 這類數據也被稱為元數據(meta data),是描述數據的數據。

商業分析(Commerce analytics):指的是包括審視預計的銷售額、成本和利潤是否達到公司預計目標;如達到,則此產品概念才能進一步發展到產品開發階段。

聚類分析(Clustering analysis) : 它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在於分析數據間的差異和相似性。

冷數據存儲(Cold data storage) :在低功耗伺服器上存儲那些幾乎不被使用的舊數據。但這些數據檢索起來將會很耗時。

眾包(Crowdsourcing):從一廣泛群體,特別是在線社區,獲取所需想法,服務或內容貢獻的實踐。

集群伺服器(Cluster server):把多台伺服器通過快速通信鏈路連接起來,從外部看來,這些伺服器就像一台伺服器在工作,而對內來說,外面來的負載通過一定的機制動態地分配到這些節點機中去,從而達到超級伺服器才有的高性能、高可用。

對比分析(Comparative analysis) :在非常大的數據集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果。

複雜結構的數據(Complex structured data) : 由兩個或多個複雜而相互關聯部分組成的數據,這類數據不能簡單地由結構化查詢語言或工具(SQL)解析。

計算機產生的數據(Computer generated data) :如日誌文件這類由計算機生成的數據。

並發(Concurrency) : 同時執行多個任務或運行多個進程。

相關性分析(Correlation analysis) : 是一種數據分析方法,用於分析變數之間是否存在正相關,或者負相關。

客戶關係管理(CRM: Customer Relationship Management) :用於管理銷售、業務過程的一種技術,大數據將影響公司的客戶關係管理的策略。

雲數據(Cloud data):是基於雲計算商業模式應用的數據集成、數據分析、數據整合、數據分配、數據預警的技術與平台的總稱。

D

數據分析師(Data Analyst):數據分析師是一個非常重要和受歡迎的工作,除了準備報告之外,它還負責收集、編輯和分析數據。

數據清洗(Data Cleansing):顧名思義,數據清洗涉及到檢測並更正或者刪除資料庫中不準確的數據或記錄,然後記住「臟數據」。藉助於自動化或者人工工具和演算法,數據分析師能夠更正並進一步豐富數據,以提高數據質量。請記住,臟數據會導致錯誤的分析和糟糕的決策。

數據即服務(DaaS):通過給用戶提供按需訪問的雲端數據,DaaS 提供商能夠幫助我們快速地得到高質量的數據。

數據虛擬化(Data virtualization):這是一種數據管理方法,它允許某個應用在不知道技術細節(如數據存放在何處,以什麼格式)的情況下能夠抽取並操作數據。例如,社交網路利用這個方法來存儲我們的照片。

臟數據(Dirty Data):臟數據就是不幹凈的數據,換言之,就是不準確的、重複的以及不一致的數據。顯然,你不會想著和臟數據攪在一起。所以,儘快地修正它。

暗數據(Dark data):公司積累和處理的實際上完全用不到的所有數據,從這個意義上來說我們稱它們為「暗」的數據,它們有可能根本不會被分析。這些數據可以是社交網路中的信息,電話中心的記錄,會議記錄等等。很多估計認為所有公司的數據中有 60% 到 90% 不等可能是暗數據,但實際上沒人知道。

數據流(data stream):最初是通信領域使用的概念,代表傳輸中所使用的信息的數字編碼信號序列。然而,我們所提到的數據流概念與此不同。

數據湖(Data lake):即一個以大量原始格式保存了公司級別的數據知識庫。這裡我們介紹一下數據倉庫(Data warehouse)。數據倉庫是一個與這裡提到的數據湖類似的概念,但不同的是,它保存的是經過清理和並且其它資源整合後的結構化數據。數據倉庫經常被用於通用數據(但不一定如此)。一般認為,一個數據湖可以讓人更方便地接觸到那些你真正需要的數據,此外,你也可以更方便地處理、有效地使用它們。

數據資源管理(Data Resources):是應用信息技術和軟體工具完成組織數據資源管理任務的管理活動。

數據源(Data Source):顧名思義,數據的來源,是提供某種所需要數據的器件或原始媒體。在數據源中存儲了所有建立資料庫連接的信息。就像通過指定文件名稱可以在文件系統中找到文件一樣,通過提供正確的數據源名稱,你可以找到相應的資料庫連接。

數據挖掘(Data mining):從一大群數據中以複雜的模式識別技巧找出有意義的模式,並且得到相關洞見。

數據分析平台(Data analyst platforms): 主要通過集成企業內部運營支撐系統和外部數據,包括交易型大數據(Big Transaction Data)和交互型大數據(Big Interaction Data),通過多種雲計算的技術將之集成和處理,向企業內部和外部企業客戶提供有極大商業價值的信息支撐和智能解決方案,基於大數據平台建設的數據倉庫的基礎上,提供報表工具,分析工具,結合企業的實際需求進行的解決方案實施服務;企業的管理人員、業務分析人員等可以通過web、手機或其它移動設備訪問,以便隨時了解企業的關鍵指標和進行深度業務分析。

分散式文件系統(Distributed File System):大數據數量太大,不能存儲在一個單獨的系統中,分散式文件系統是一個能夠把大量數據存儲在多個存儲設備上的文件系統,它能夠減少存儲大量數據的成本和複雜度。

儀錶板(Dashboard) :使用演算法分析數據,並將結果用圖表方式顯示於儀錶板中。

數據存取(Data access):是指資料庫數據存貯組織和存貯路徑的實現和維護。

數據傳送(data transfer):是指在數據源和數據宿之間傳送數據的過程,也稱數據通信。

數據聚合工具(Data aggregation tools) :將分散於眾多數據源的數據轉化成一個全新數據源的過程。

資料庫(Database) :一個以某種特定的技術來存儲數據集合的倉庫。

資料庫管理系統(DBMS: Database Management System) :收集、存儲數據,並提供數據的訪問。

數據中心(Data centre) : 一個實體地點,放置了用來存儲數據的伺服器。

數據管理員(Data custodian) :負責維護數據存儲所需技術環境的專業技術人員。

數據道德準則(Data ethical guidelines) :這些準則有助於組織機構使其數據透明化,保證數據的簡潔、安全及隱私。

數據訂閱(Data feed) : 一種數據流,例如Twitter訂閱和RSS。

數據集市(Data marketplace) :進行數據集買賣的在線交易場所。

數據建模(Data modelling) :使用數據建模技術來分析數據對象,以此洞悉數據的內在涵義。

數據集(Data set) :大量數據的集合。

數據虛擬化(Data virtualization) :數據整合的過程,以此獲得更多的數據信息,這個過程通常會引入其他技術,例如資料庫,應用程序,文件系統,網頁技術,大數據技術等等。

去身份識別(De-identification) :也稱為匿名化(anonymization),確保個人不會通過數據被識別。

判別分析(Discriminant analysis) :將數據分類;按不同的分類方式,可將數據分配到不同的群組,類別或者目錄。是一種統計分析法,可以對數據中某些群組或集群的已知信息進行分析,並從中獲取分類規則。

分散式文件系統(Distributed File System) :提供簡化的,高可用的方式來存儲、分析、處理數據的系統。

文件存貯資料庫(Document Store Databases) :又稱為文檔資料庫(document-oriented database), 為存儲、管理、恢復文檔數據而專門設計的資料庫,這類文檔數據也稱為半結構化數據。

數據治理(Data Governance) :數據治理是指從使用零散數據變為使用統一主數據、從具有很少或沒有組織和流程治理到企業範圍內的綜合數據治理、從嘗試處理主數據混亂狀況到主數據井井有條的一個過程。

數據轉換服務(Data Transfer Service): 主要用作在不同的資料庫之間轉換數據,比如在SQL Server和Oracle之間轉換數據。

數據集成(Data integration):是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。

E

ETL:ETL 代表提取、轉換和載入。它指的是這一個過程:「提取」原始數據,通過清洗/豐富的手段,把數據「轉換」為「適合使用」的形式,並且將其「載入」到合適的庫中供系統使用。即使 ETL 源自數據倉庫,但是這個過程在獲取數據的時候也在被使用,例如,在大數據系統中從外部源獲得數據。

企業級應用(Enterprise applications):其實是一個軟體行業內部通用的一個術語。如果解釋成通俗易懂的話來說,那就是一個企業範圍內所使用的、基於計算機的穩定的、安全的和高效的分散式信息管理系統。

探索性分析(Exploratory analysis) :在沒有標準的流程或方法的情況下從數據中發掘模式。是一種發掘數據和數據集主要特性的一種方法

E位元組(EB: Exabytes):約等於1000 PB(petabytes), 約等於1百萬 GB。如今全球每天所製造的新信息量大約為1 EB。

提取-轉換-載入(ETL: Extract, Transform and Load) : 是一種用於資料庫或者數據倉庫的處理過程。即從各種不同的數據源提取(E)數據,並轉換(T)成能滿足業務需要的數據,最後將其載入(L)到資料庫。

企業生產力(Enterrrise productivity):企業在一定時期為社會提供某種產品或勞務的能力。

F

模糊邏輯(Fuzzy logic):我們有多少次對一件事情是確定的,例如 100% 正確?很稀少!我們的大腦將數據聚合成部分的事實,這些事實進一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種這樣的計算方式,與像布爾代數等等中的「0」和「1」相反,它旨在通過漸漸消除部分事實來模仿人腦。

故障切換(Failover) :當系統中某個伺服器發生故障時,能自動地將運行任務切換到另一個可用伺服器或節點上。

架構(Framework):又名軟體架構,是有關軟體整體結構與組件的抽象描述,用於指導大型軟體系統各個方面的設計。

流量監控(Flow monitoring): 流量監控指的是對數據流進行的監控,通常包括出數據、入數據的速度、總流量。微信用戶可以在騰訊手機管家4.7上實現流量的精準監控。

容錯設計(Fault-tolerant design) :一個支持容錯設計的系統應該能夠做到當某一部分出現故障也能繼續運行。

金融(Finance):是人們在不確定環境中進行資源跨期的最優配置決策的行為。

G

遊戲化(Gamification) :在其他非遊戲領域中運用遊戲的思維和機制,這種方法可以以一種十分友好的方式進行數據的創建和偵測,非常有效。

圖形資料庫(Graph Databases) :運用圖形結構(例如,一組有限的有序對,或者某種實體)來存儲數據,這種圖形存儲結構包括邊緣、屬性和節點。它提供了相鄰節點間的自由索引功能,也就是說,資料庫中每個元素間都與其他相鄰元素直接關聯。

網格計算(Grid computing) :將許多分布在不同地點的計算機連接在一起,用以處理某個特定問題,通常是通過雲將計算機相連在一起。

H

Hadoop 用戶體驗(Hadoop User Experience /Hue):Hue 是一個能夠讓使用 Apache Hadoop 變得更加容易的開源介面。它是一款基於 web 的應用;它有一款分散式文件系統的文件瀏覽器;它有用於 MapReduce 的任務設計;它有能夠調度工作流的框架 Oozie;它有一個 shell、一個 Impala、一個 Hive UI 以及一組 Hadoop API。

人力資本(Human capital):是指勞動者受到教育、培訓、實踐經驗、遷移、保健等方面的投資而獲得的知識和技能的積累,亦稱「非物力資本」。

硬體設施(Hardware): 計算機系統中由電子,機械和光電元件等組成的各種物理裝置的總稱。

高性能分析應用(HANA):這是 SAP 公司為大數據傳輸和分析設計的一個軟硬體內存平台。

HBase: 一個分散式的面向列的資料庫。它使用 HDFS 作為其底層存儲,既支持利用 MapReduce 進行的批量計算,也支持利用事物交互的批量計算。

Hadoop :一個開源的分散式系統基礎框架,可用於開發分散式程序,進行大數據的運算與存儲。

Hadoop資料庫(HBase) :一個開源的、非關係型、分散式資料庫,與Hadoop框架共同使用。

分散式文件系統(Hadoop Distributed File System):是一個被設計成適合運行在通用硬體(commodity hardware)上的分散式文件系統。

高性能計算(HPC: High-Performance-Computing) :使用超級計算機來解決極其複雜的計算問題。

部署在雲上的Hadoop(Hadoop in the cloud):某些雲解決方案完全基於某個特定服務,該服務將會載入並處理數據。例如,藉助 IBM Bluemix,您可以基於 IBM InfoSphere BigInsights 配置一個 MapReduce 服務,該服務可以處理高達 20GB 的信息。但 Hadoop 服務的大小、配置與複雜性是不可配置的。其他基於服務的解決方案也提供同樣類別的複雜性。

I

基礎設施即服務(Infrastructure As a Service):消費者通過Internet 可以從完善的計算機基礎設施獲得服務。這類服務稱為基礎設施即服務。

基礎設施即代碼(Infrastructure As a Code):一種通過源代碼就可以解析計算和網路架構的一種方式,然後就可以認為是任何一種軟體系統。這些代碼可以在源代碼管理中被保存以確保可審性和再塑性,受限於測試實踐和持續交付的所有準則。這是十幾年前就被用在處理成長中的雲計算平台的方法,也將會是日後處理計算架構的主要方式。

內存計算(In-memory computing):通常認為,任何不涉及到 I/O 訪問的計算都會更快一些。內存計算就是這樣的技術,它把所有的工作數據集都移動到集群的集體內存中,避免了在計算過程中向磁碟寫入中間結果。Apache Spark 就是一個內存計算的系統,它相對 Mapreduce 這類 I/O 綁定的系統具有很大的優勢。

物聯網(IoT):最新的流行語就是物聯網(IoT)。IoT 是嵌入式對象中(如感測器、可穿戴設備、車、冰箱等等)的計算設備通過英特網的互聯,它們能夠收發數據。物聯網生成了海量的數據,帶來了很多大數據分析的機遇。

內存資料庫(IMDB: In-memory) :一種資料庫管理系統,與普通資料庫管理系統不同之處在於,它用主存來存儲數據,而非硬碟。其特點在於能高速地進行數據的處理和存取。

法律上的數據一致性(Juridical data compliance) :當你使用的雲計算解決方案,將你的數據存儲於不同的國家或不同的大陸時,就會與這個概念扯上關係了。你需要留意這些存儲在不同國家的數據是否符合當地的法律。

如果你覺得有用就轉一份留存吧,我們明天將放出J-Z部分。敬請期待。

End.


推薦閱讀:

從大數據+AI 談談概念與場景
1億數據,告訴你哪裡是上海買房TOP 10 站點!
哪個商圈能夠投你所好?讓這張數據地圖給你指路
來自58的啟示:如何從零開始做出數據可視化的動效圖?

TAG:大数据 | 人工智能 | 算法 |