零基礎如何做好數據分析?

剛剛大學畢業,上學期間專業是會計學,找了個還算靠譜的公司,頭開始說讓我做會計的工作,可是後來卻讓我做數據分析,問題是現在這個部門就我一個人,一切從零開始,可是因為所學專業不同,對這一塊著實很不了解,從數據的收集開始,到整理歸類發現其隱藏的信息,再到做出分析報告,我都沒有概念,也不知道從哪裡開始去學習,怎樣完善知識體系,還請牛人給提一些建議。

另外,本公司主要生產飼料,獸葯,原料葯,中藥提取物,現在我這部門還掛靠在集團採購中心下面,公司意思也是讓我先從採購角度入手,為採購提供數據支持,分析市場行情判斷採購節點。

公司裡面真是沒一個人做過之前工作,以前大多憑經驗,公司已經在籌備上市,今年為第一個考察期,所以想任何工作儘可能更加專業化發展,不再依靠經驗而是靠數據說話,現在數據方面沒有引進外部人才還只是自己摸索,不被重視,但我認為這個工作如果能夠做好,是完全能成為對公司高層做出決策提供重要依據的,苦於毫無經驗,望能在這裡尋求答案。

再次說明,大學專業為會計學,不僅對數據分析毫無概念,並且在之前對公司所屬的行業都沒有了解過。


題主所說的零基礎,按我的理解,是「零數理統計基礎」或者「零編程基礎」。那麼,這樣的「零基礎」有沒有可能學會數據處理呢?

誠然,要掌握專業的數據分析和挖掘技能,乃至於成為數據科學家,是非常非常艱難的。

但是,如果你的目標是從零基礎、在短時間內提升數據獲取、數據分析、數據可視化的水平,在同學同事面前吹牛、老闆面前裝逼、加薪升職、迎娶白富美、嚇跑高富帥、走向人生輝煌的話,我可以負責任地告訴你:這是完全可能的。

為什麼我這麼肯定呢?因為這半年來,我眼睜睜地看著我的朋友大鵬——沒錯就是養豬O2O的那個——自學成才,有了長足的進步。

大鵬的經歷讓我相信,他可以的,你也可以!

(我真的沒有黑大鵬的意思:D)

---------------

以下是廣告,但可能是一則對你很有用的廣告:D

事情是這樣的:

某天大鵬來找我,說:「我要做數據愛好者交流社群,跟你、跟數據團一起。」

我:「瓦特?你懂數據嗎?」

大鵬大概早就預料到我的反應,只見他不緊不慢地掏出一台「外星人」……

等我被閃瞎的狗眼恢復到能視物的時候,就看見了這麼幾張圖:

實話說,這些圖並沒有什麼高級的。我真正吃驚的是,在大鵬演示的過程中,從爬數據、分析到出圖,他竟然一直在點滑鼠,沒有寫代碼。嗯,可能也稍微寫了兩句,趁我對外星人放星星眼的時候。

我震驚地問:「這些都是你做的?」

大鵬說:「是啊,又不是很難。」

我激動地說:「你行啊!數據社群神馬的可以有啊!算我一個!……等等,社群不就是弄個網站、QQ群讓大家在裡面聊天嗎?現在有很多這樣的社群啊,我們有啥獨特的東西不?」

大鵬說:「不僅僅是社群,我還會不定期分享數據、做公益課程和免費的公開課。一言難盡,還是看圖吧。」

我說:「嗯,看上去很不錯的樣子。可是上這個課需要外星人這樣的配置嗎?」

大鵬哈哈一笑:「對社員和學員來說,現在市面上能買到的電腦基本都夠用。」

我問:「那我們第一步干點啥呢?」

大鵬說:「先做公益課程吧。第一節課叫做:上海夜晚去哪浪。我會在騰訊課堂做一個30分鐘以內的直播,就在這周二(2016.7.5)晚上7:30。教大家POI數據爬取、熱力圖製作和GIS基礎。聽完這節課,就可以做出我最開始給你展示的那些圖了。」

我說:「好呀,那要怎麼加入這個社群,怎麼上課呢?」

大鵬說:「簡單,加QQ群唄:568563805。」(註:一群已滿,此為二群)

歡迎大家沒事去湊湊熱鬧,順便學點東西:D

這是一篇廣告。

嗯,就是醬紫。


我是一名在讀研究生,學習商科,主要方向是供應鏈與物流,學校在德國很普通。現在對將來畢業後的工作前景一片迷茫,所以想要趁著正式步入職場前能在各方面更完善自己,更何況將來不論在哪個領域工作,我認為數據分析都無疑是一項重中之重的技能,不僅是技術層面,更包括思維層面。

對數據科學領域的崇拜已經不是一天兩天了,之前總覺得它屬於另一個自己摸不到的世界。

兩個月前,我感興趣並且也是這學期剛剛開始讀的運營方向課程中出現了一些最優化和圖論等內容,跟我本科學習的知識存在嚴重脫節,再加上德語授課的緣故,聽得更是雲里霧裡,只得課餘時間在互聯網上尋找相關的中英文資料彌補知識漏洞。正是在找資料的過程中,發現了這部分內容與數據結構和演算法等數據科學領域的課程有關,所以就產生了想要更多地去了解相關知識的想法。

之所以把數據分析作為切入點,一方面是因為它與我的專業最相輔相成,用切切實實的數據為改進運營效率做支撐;另一方面是想藉此機會進一步提升自己的邏輯思維及數據處理與展示方面的能力。而且我本身就對語言學習很感興趣,編程也是一門語言呀,在促進專業學習和提升自身能力的同時再多掌握一門計算機語言,何樂而不為呢。

除此之外,也希望自己將來有能力在業餘時間做些小項目養活自己,活得更獨立更洒脫,爸媽也不用再擔心我沒男盆友了。

在聽了《零基礎入門大數據分析的方法論》後,這讓我覺得只要肯堅持,按照規劃的學習路徑,我也可以在大數據方面取得點兒小成績。

因為這段時間對數據科學方面關注較多,看到不少前輩都提到了數學的重要性,所以首當其衝地就是把扔掉了多年的數學撿起來,現在正每天利用課餘時間看推薦的那本《深入淺出統計學》。

為了接下來的每一步和大數據思維社群里志同道合的小夥伴一起進步,2017年我將按照以下的實踐計劃,踏踏實實的過好這一年。

我的知識基礎

我算是實打實的零基礎,沒學過一丁點兒編程,數學方面也比較吃虧,因為之前讀本科的時候不了解數學在現實中的應用,總覺得數學就是數學,缺乏學習的動力,因此學得淺忘得快

所以,這份計劃以及接下來記錄的點滴也正好可以給那些像我一樣零基礎的童鞋們一個參考。

我的實踐計劃

主要學習任務:

  1. 從零學會大數據核心:數據分析 系列課程

  2. Udacity-Data Analyst相關課程

  3. Excel知識

  4. 統計學知識

跟著每個月的課程走,和社群里的小夥伴們一起進步,是計劃的主線。我個人認為,入門一個新領域時,有一個前輩幫你及時糾正錯誤方向,還有一群互相鼓勵的小夥伴們是很有必要的。

我根據Udacity的Data Analyst課程描述,給自己列示出了並不包含在這個系列中但可以作為夯實基礎用的入門課程,如果實踐效果好的話,後期也打算完成這個系列的其他課程,因為每門課程結束後都會有一個項目需要你獨立完成來檢驗學習效果。

至於EXCEL,很慚愧,我到現在都只會一些最基本的功能,然而它卻是一個很強大的工具,在數據分析領域用途也很多,所以想要花時間一點一點把它學好。

最近看了很多前輩對於數學在數據分析學習過程中重要性的回答,一句話概括就是:如果真想做好這方面,數學上是一定要下功夫的。再加上我接下來的專業課學習對數學也有較高的要求,所以一舉兩得吧。也想在這裡奉勸大家,不管你覺得自己正在學習的數學有多無用,都踏踏實實地學,學好數學絕對是你今後的加分項。

由於只能用課餘時間學習數據分析的相關內容,計劃的制定不得不考慮學校的課程和考試安排,因此某些月份安排的學習內容會少一些。

2016.12

《R語言實戰》 第1、2章

《深入淺出統計學》C1 - C9

《從零學會大數據核心:數據分析》第2講 實踐報告

閱讀官方教材,通過學校的EXCEL考試

Udacity-Intro to Statistics(2unit/week, L1 - L4)

2017.01

《R語言實戰》 第3、4章

《深入淺出統計學》C10 - 15

《從零學會大數據核心:數據分析》第3講 實踐報告

Udacity-Intro to Statistics(2L/w, L5 - L6 Final)

Udacity-Intro to Computer Science(2u/w)

2017.02

《R語言實戰》 C5 C6

《從零學會大數據核心:數據分析》第4講 實踐報告

2017.03

《R語言實戰》 C7 - C12

《從零學會大數據核心:數據分析》第5講 實踐報告

網易雲課堂-Excel Power Pivot數據建模分析(基礎篇)

Coursera-Mastering Data Analysis in Excel

Udacity-Intro to Descriptive Statistics

Udacity-Programming Foundations with Python

2017.04

《R語言實戰》 C13 - C15

《深入淺出SQL》C1 - C6

《從零學會大數據核心:數據分析》第6講 實踐報告

網易雲課堂-Excel Power Pivot數據建模分析(進階篇)

Udacity-Intro to Inferential Statistics

2017.05

《深入淺出SQL》C7 - C12

《從零學會大數據核心:數據分析》第7講 實踐報告

Udacity-Intro to Data Science

Coursera-Data Visualization with Advanced Excel

2017.06

《數據挖掘導論》C1 - C5

《從零學會大數據核心:數據分析》第8講 實踐報告

Udacity-Intro to Data Analysis

Coursera-Problem solving with Excel

2017.07

《數據挖掘導論》C6 - C10

《從零學會大數據核心:數據分析》第9講 跟小夥伴們一起做項目

Udacity-Data Analysis with R

每月月末我會寫一份當月學習總結,囊括對知識的掌握和時間安排方面的感悟,並及時對計劃做出適當的調整,詳細規划下個月學習任務的時間安排。

同時,也會把學習過程中新發現的優質資源分享給大家。至於按時完成任務的獎勵,容我再想想哈

這次的計劃只寫到2017年7月份,主要是因為這對目前的我來說仍是一個陌生的領域,2017年下半年具體需要做哪些努力,還要根據到時候我具備的能力,以及對這個領域更深入的認識再具體制定。

如果大家對我的計劃有什麼更好的建議歡迎提出,免得我在錯誤的道路上離目標漸行漸遠。

以上學習實踐筆記來自 大數據思維社群 會員 mumu (簡書賬號:Laecheln)。

mumu是我見過最認真的實踐主義者,是那種想到了就去做,而且做事的態度特別認真。

別看她平日在社群里不怎麼說話,但是每次課程後都會把實踐筆記寫的特別認真。社群里小夥伴遇到的問題,她也會認真幫忙回答。

這樣認真有態度的人,我幾乎可以看到她的未來有多麼輝煌。相信,時間是最好的朋友,見證一個實踐主義者是怎麼一步一步靠知識走向成功。


看了一圈問題下的回答,很多都很好,但是都沒有回答題主的困惑。我覺得題主的問題其實很有代表性,所以以此為例提供更具體的解決思路。

----

首先題主對於數據分析的認識非常到位,所以前提問題已經解決了。從題主的描述中,我們也可以窺見,國內的公司的數據化運營做的還很不到位,即使是一個快上市的公司,也沒有一個,哪怕一個數據分析師,真是可怕……

所謂數據分析/數據科學,其實從能力上主要是三方面:統計、計算機、相關領域/行業。統計和計算機的需求,其實是看問題看需求,不一定會很高,甚至很多時候不一定超過高中水平。而相關行業/領域的問題才是數據分析的起點。

以本問題為例。題主被要求做藥品原材料的採購,題主說對此行業沒有太多了解,其實不一定完全是壞事情,因為傳統的行業經驗不一定是對的。你可以先從觀察歷史銷售數據的趨勢開始,看單個變數隨著時間變化的情況,用Excel做各種描述,比如算平均值、算中值等等,或者畫基本的直方圖、散點圖、折線圖、餅圖等符合你需要的圖。再然後,你可以找歷史變數與變數之間的關係,看看哪兩個可以更相關,跑一些簡單的線性回歸,或者計算一下相關係數等。再然後,如果發現變數與變數相關,可以試圖想想兩者之間有沒有關係,這樣慢慢就建立起來了對數據特徵的感覺。

對數據特徵的了解是數據分析的第一步。這個過程中也許你會發現很多異常,也許沒有。這個時候你就要開始思考要往哪個方向去了,比如說,題主希望預測銷量,幫助採購部門合理採購。那麼這裡就需要去思考如何做預測。預測通常建立在模型估計的基礎上,在描述統計之後。這裡可能會不可避免地需要統計學和機器學習知識了,以及對應的演算法實現。再然後,如果要給採購部門或者CXO講故事,那麼需要比較好地辨析因果,這就需要更多專業知識了。

從題主公司的實際情況來看,數據方面的基礎工作要做的實在太多了,把第一步的描述統計做好可能就需要好幾年的時間了,所以其實帶著會計知識、高中學的統計和基本的Excel技能,從描述起步就可以了。另外,還可以考慮諮詢一些行業專家,或者適當外包一些項目,項目不一定要做成多好,但是可以在這個過程中跟著他們了解行業背景和相關知識,也許是最好的進步方式,比自己在一個完全沒有環境的狀態下從零開始摸索要快很多。

到目前為止我的回答假設題主的數據是比較好獲取的、整理好的財務數據或者原始數據。如果數據本身數量龐大到Excel無法處理,或者數據本身很髒亂沒辦法下手分析,請立刻和老闆商量請專業的數據工程師來做這個事情,這方面的坑非常多,必須要專業人士來做。

希望可以對題主有小小的幫助~


數據分析最重要的就是要有邏輯思辨,這其實是很多學數據分析,或者計量經濟學的人容易進入的誤區。

很多人執著於數據的處理和模型的建立,但是忽略了數據對應最基本的邏輯關係。

數據分析的目的是什麼?一般有兩種:

1. 自己已經大概知道了某種規律或特點,通過數據分析來進行驗證,並且獲得更精確的信息。

2. 自己不知道有什麼規律或特點,通過對數據分析,發現了某種規律或特點,然後進一步通過邏輯思辨來確定這種規律是數據的偶然性還是具有實際的規律。

實際上更多的情況發生,是第一種。

如果說一個企業的經營者,對身邊的某種規律視而不見,要等到數據分析出來以後,才發現原來是這樣的啊?那還怎麼混啊。

更多的是,大體情況自己已經知道,只是未必精確,通過數據分析給了更精確的信息,如此而已。


既然剛工作,你可以考慮按照這個步驟去走:

A. 先把一個行業弄懂了:

定性的弄明白

1. 業務是怎麼運行的

2. 有哪些參與方

3. 有哪些過程

4. 什麼東西是重要的

然後再去考慮定量的部分:

a. 有哪些數據,他們的定義是怎麼樣

b. 數據是如何採集的,他們的取值範圍如何,質量如何,可能有哪些潛在的偏差和遺漏

c. 行業里都有哪些常用的指標,這些指標是如何計算的,背後的邏輯是什麼,他們怎麼用

B. 做一些本行業的數據分析:

一開始可能是一些比較明確的事情:去計算一個特定的東西。這樣的時候你可以實際去操作一下數據,知道裡面有哪些常見的坑----數據是零的時候怎麼辦,數據為空怎麼辦,特別大的異常值怎麼辦等等。

第二個階段你可以做一些更開放式的問題:如何評價xxxx。這時候你需要從把基於現成的東西,組合起來,或者做一些修改,形成一些新的東西。如果你有了第一步的經驗,應該可以做一些這類的事情。

第三階段(可選):從評價類的分析,變成管理類的分析。這裡面也是一個漸變的過程,一開始能評價一個東西整體的好壞;然後到能評價每一個步驟的好壞;最後到能給出建議應該從哪一個環節,如何提升業務。

在這個過程中,你會自然而然的具有一些技能:excel也好,編程也好,其他工具也好。這些東西都只是實現你目的的手段,千萬不要本末倒置-----有些人自己對如何作分析完全沒有想法,而是點開功能菜單一個一個的試驗。如果你發現自己是這樣的人,建議你早點跟數據分析說再見。

C. (可選)做更多行業的分析:

1. 試著了解更多的行業-----了解行業永遠是最重要的,不了解行業就無法了解數據,對於不了解的數據瞎做處理,只是在製造垃圾!

2. 對這些行業做分析

3. 當你多看幾個行業,你會慢慢對他們有一些概括性的認識:

哪些東西是高度抽象的,幾乎所有行業都可以用的:比如財務上的Du Pont分析就是;

哪些行業之間比較接近,屬於同一類,分析上比較接近。

分析的工作可以分成哪些類別,比如財務、運營、客戶滿意度、風險,每一類行業更關注哪些東西。

你會開始自己根據每個行業的特別情況定義分析方法----不一定是單個指標。借鑒和修改一個行業的方法用到另一個行業。


個人感覺,熟練excel非常有必要,在理論的基礎上,運用強大的辦公軟體,數據透視,可以節約辦公時間,事倍功半


Coursera上 約翰霍普金斯大學 的數據科學家系列正在開課,我覺得從這裡入手,挺好。


不管是數據分析,數據挖掘還是數據科學家...

所有的路徑都應該是從業務開始的:

確定業務目標-&>細化業務場景-&>轉化為分析需求-&>數據準備(數據採集/整理)-&>數據建模-&>數據分析-&>數據報告/可視化

對於分析工具和具體演算法等等,其實市面上有很多,開源的商用的,面向各個行業也有。但很多人都捨本逐末了,或者一開始只盯著工具。

如果是從0開始,那最應該做的就是了解行業信息,行業內top5公司怎麼做的,行業的業務需求和趨勢是什麼。


先干好excel是王道


我也給你推薦一款工具吧,開源的,以工作流思路來進行數據挖掘和數據分析的。

KNIME:KNIME | Open for Innovation

Wiki介紹:KNIME


我也是一樣的,目前正在一家剛起步的電商網站做這個,每天都不知道分析些什麼,很是苦惱,這裡面的資料我都好好看下,感謝大家。


在實際工作中利用好Excel做數據分析是最常見…若學好…其實也是基本夠了


採購下面的會計人... 不知道你們公司的財務有沒有分析部門,也不知道有沒有供應鏈管理部門,如果沒有的話,你有很多事可以做

1.原料成本(採購,運輸,損耗,庫存,殘品)關注佔比大的,波動大的

2.原材料周轉率(採購周期,庫存周期)

3.原材料用量預測(買的好的時候缺貨了就鬱悶了)

4...往零庫存努力吧


我覺得首先你應該弄清楚到底分析的是什麼數據,把這些東西的邏輯理清,抓一條主線。至於數據分析無非是佔比,趨勢,增長,邊際之類的主要是弄清每個數據代表什麼,他的趨勢反映了什麼。


一樣,上一個公司做了這個,感覺很有意思,想學習,看看各位的資料,找一個數據分析的工作。


推薦閱讀:

如果我想做某個地區某個行業的市場調研(比如市場佔比、地區貢獻率、行業現狀前景等等),要去哪裡搜集數據?有什麼比較好的數據分析方法嗎?
化工博士轉數據分析師,有何看法,或者建議?
想成為數據分析師,研究生應該去讀哪些專業?求解答
Power BI將超越python和D3,成為數據可視化的福音、定性數據分析的未來?
怎樣用 Excel 做數據分析?

TAG:數據挖掘 | 數據分析 | 計量經濟學 |