標籤:

不懂編程照樣用機器學習

目前機器學習的軟體方案大多基於文本編程軟體python,由google的tensorflow到facebook的pytorch都是如此,如果想從事機器學習的理論研究或軟體開發,那學習python確實很有必要,但並不是說必須先學會用python編程才可以把機器學習技術應用到工作中去,在圖形化編程軟體中也有機器學習模塊,如機電測試領域的數據採集與分析軟體labview在2017版推出了配套的機器學習工具包(http://www.ni.com/pdf/manuals/377061a.html),相比2012年由愛好者製作的機器學習工具包,不過labview的強處是驅動硬體進行數據採集,其學習難度與面向對象編程的文本編程軟體python相比也沒有明顯優勢,如果重點在數據挖掘而不是驅動硬體採集數據,可以使用rapidminer,這應該是上手速度最快的機器學習軟體了,通過簡單的模塊拖拽並使用默認參數就可以得到分析結果。

安裝使用

要體驗rapidminer,首先得到官網註冊賬號(www.rapidminer.com),登錄後即可見到下載選項,其中社區版可以免費使用,雖然功能受到一定限制但已經可以滿足大部分用戶的需求,如果選擇付年費(2500美金)則能使用更多的cpu並在單次分析中處理更多樣本數據。

注意安裝rapidminer前要先安裝java,然後就和windows安裝一般軟體沒有差異。安裝完了打開得到界面如下圖所示,上方是工具欄,左上是數據集文件目錄,左下是圖形化的功能模塊(比如分類運算元),使用時直接拉入中間的流程區即可,右上是點擊運算元後的參數設置,右下是點擊運算元後的說明。

典型的應用比如有監督分類(區分合格品與不良品),是訓練集(分合格與不良兩組,包含多種樣本屬性的數據集合)設置屬性後(從屬性值中標定哪個是要預測分類,即「合格/不良」),輸入分類運算元(比如此處我們選擇支持向量機,用於尋找區分兩組數據的規律),兩者結合得出模型,再把測試集(未知結果但想分類的樣本,屬性值與訓練集必須一致)輸入模型得出結果進行驗證,如果效果符合預期則可用於預測後續新樣本的分類。可以看見整個流程清晰而直觀,軟體流程與機器學習的邏輯高度一致。

當然就這麼聽我說一遍並不能讓沒有機器學習基礎的同學馬上學會,想詳細了解該軟體的同學可以跟著下面的官方教程走一遍。

rapidminerchina.com/pag

還要注意的是,單純學會一門軟體的操作,並不足以讓你真正入門機器學習,你還是需要閱讀綜述書籍以得到更全面的系統性的知識,比如明了分類和聚類的差別後,才能在軟體中正確選用對應模塊最終解決實際問題。這個軟體可以提供一個直觀的全局的印象,知道一個機器學習的過程都包括哪些方面,各起什麼作用,就像一個解析度不高的地圖一樣,讓你在閱讀綜述書籍時更有針對性,更不容易被大堆的公式嚇退。建議在體驗軟體的同時,搭配閱讀周志華老師的《機器學習》,如果想進一步了解rapidminer在不同行業的機器學習應用案例,可閱讀《RapidMiner Data Mining Use Cases and Business AnalyticsApplications》。

擴展插件

除了典型的機器學習應用,如針對結構化表格化的樣本數據的分類,rapidminer也可以進行非結構化數據的處理,比如圖像和視頻的處理,這需要下載對應插件,在下列鏈接登記申請原因等備註後可以得到30天的試用時間。下載後解壓到plugins文件夾,此文件夾是用於存放rapidminer擴展插件的地方。

burgsys.com/image-analy

splab.cz/en/research/da

之後可以到下列鏈接的頁面最下方點擊下載,得到前面所說的《RapidMiner Data Mining Use Cases and Business AnalyticsApplications》搭配的例子(壓縮包中rmp文件是編製後保存的程序記錄,需放入前述數據集所在的文件夾,請在軟體界面左上的數據集文件夾右鍵選擇打開文件夾,如刷新不現可關閉軟體後重新打開;其餘文件夾為例子所用的案例圖片,解壓後放在方便取用的地方即可)。

rapidminerbook.com/inde

壓縮包中5-7.rmp對應書中的城市與鄉村照片分類,我們略作修改以進一步體驗rapidminer的功能。首先在左上方的數據集找到此5-7.rmp雙擊打開,其包括兩個部分,左邊的mcio的功能是打開多個文件夾(每文件夾對應1類圖片,你可以直接選擇前述案例中的圖片,也可以自行準備至少2類差別較為明顯的照片)並按一定方式統計每個照片的全局變數,通過把一個照片轉換成一行由多個特徵值組成的數據,來把非結構化的圖片結構化,然後就可以使用前文所述的機器學習分類功能(此案例中用的決策樹)。我們把此案例的決策樹刪掉(右鍵點擊選擇delete),然後在左下的功能模塊區的輸入框打write,會提示全部可選的包含write字樣的模塊,左鍵選擇write excel,按住後拖到中間的流程區,用左鍵分別點擊mcio的輸出和write excel的輸入連接兩個模塊,再左鍵點擊mcio併到右上的參數區設置不同照片文件夾的路徑,並點擊write excel併到右上的參數區設置excel保存路徑,最後點上方工具區的三角符號,軟體即運行並把圖片組轉為表格並輸出excel。

你可以打開此excel,觀察到不同樣本已轉化為統計值的表格。這時候就使用前文所述的標準機器學習流程(讀取表格,應用演算法,得到模型,並應用到新數據進行分類)。

總結

綜上所述,使用此軟體可以避免花額外的時間學習編程,通過簡單的拖拽即可體驗機器學習,方便我們把精力放在現實問題的解決而不是軟體學習上。

推薦閱讀:

緒論:計算機時代,電力專業該如何轉型
微軟確認新一代HoloLens正在研發中 有望2018年問世
「Google,不許聯想」
智能行業如何發展?
思維的革命-從 「機械性思維」 到「資訊理論思維"(筆記)

TAG:人工智慧 |