《Scikit-Learn與TensorFlow機器學習實用指南》第1章 機器學習概覽

來源:ApacheCN《Sklearn 與 TensorFlow 機器學習實用指南》翻譯項目

譯者:@SeanCheney

校對:@Lisanaaa @飛龍

大多數人聽到「機器學習」,往往會在腦海中勾勒出一個機器人:一個可靠的管家,或是一個可怕的終結者,這取決於你問的是誰。但是機器學習並不是未來的幻想,它已經來到我們身邊了。事實上,一些特定領域已經應用機器學習幾十年了,比如光學字元識別 (Optical Character Recognition,OCR)。但是直到 1990 年代,第一個影響了數億人的機器學習應用才真正成熟,它就是垃圾郵件過濾器(spam filter)。雖然並不是一個有自我意識的天網系統(Skynet),垃圾郵件過濾器從技術上是符合機器學習的(它可以很好地進行學習,用戶幾乎不用再標記某個郵件為垃圾郵件)。後來出現了更多的數以百計的機器學習產品,支撐了更多你經常使用的產品和功能,從推薦系統到語音識別。

機器學習的起點和終點分別是什麼呢?確切的講,機器進行學習是什麼意思?如果我下載了一份維基百科的拷貝,我的電腦就真的學會了什麼嗎?它馬上就變聰明了嗎?在本章中,我們首先會澄清機器學習到底是什麼,以及為什麼你要使用它。

然後,在我們出發去探索機器學習新大陸之前,我們要觀察下地圖,以便知道這片大陸上的主要地區和最明顯的地標:監督學習vs非監督學習,在線學習vs批量學習,基於實例vs基於模型學習。然後,我們會學習一個典型的機器學習項目的工作流程,討論可能碰到的難點,以及如何評估和微調一個機器學習系統。

這一章介紹了大量每個數據科學家需要牢記在心的基礎概念(和習語)。第一章只是概覽(唯一不含有代碼的一章),相當簡單,但你要確保每一點都搞明白了,再繼續進行學習本書其餘章節。端起一杯咖啡,開始學習吧!

提示:如果你已經知道了機器學習的所有基礎概念,可以直接翻到第2章。如果你不確認,可以嘗試回答本章末尾列出的問題,然後再繼續。

閱讀全文?

github.com圖標
推薦閱讀:

字元編碼的奧秘
請問安裝完anaconda後在開始的菜單中沒有Anaconda文件夾怎麼辦?
基於Python的三峽發電量估算系統
Scrapy抓取噹噹網82萬冊圖書數據
深度 | R vs Python:R是現在最好的數據科學語言嗎?

TAG:Python | 機器學習 | sklearn |