通過什麼渠道可以獲取移動互聯方面領域的大數據樣本?
百度大數據聯合央視讓更多人關注大數據,最近也知道了阿里的無線數讀無線數讀-無線數據指數,可是感覺裡面的數據好像有些不夠靠譜(似乎是通過淘寶開放介面的數據來統計的)。
請問有沒有什麼途徑可以(最好免費)獲取一些基本的數據指數資料呢?主要是移動互聯方面的,比如操作系統的市場份額,不同品牌不同型號手機的出貨量之類的,或者別的基本數據。就算不是這個方面的大數據,也可以提供一下它們獲取方法,因為感覺真的很震撼。
有個同學說得挺對,問題傾向於要的是數據,而不是大數據。
大數據講究是全面性(而非精準性、數據量大),全面是需要通過連接來達成的。如果通過某個app獲得使用該app的用戶的終端信息,如使用安卓的佔比80%,使用iPhone的佔比為20%, 如果該app是生活訂餐的應用,你還可以拿到使用安卓的這80%的用戶平時網上訂餐傾向於的價位、地段、口味等等,當然你還會獲取這些設備都是在什麼地方上網,設備的具體機型你也知道。但是這些數據不斷多麼多,都不夠全面。如果將這部分用戶的手機號或設備號與電子商務類網站數據進行連接,你會獲取他們在電商網站上的消費數據,傾向於購買的品牌、價位、類目等等。每個系統可能都只存儲了一部分信息,但是通過一個連接標示,就會慢慢勾勒出一個或一群某種特徵的用戶的較全面的畫像。
而問題中所陳述的需求只是片面的數據需求,單純通過移動端的數據統計即可獲取。
用戶在自己裝的app里進行操作,數據是怎麼被採集到呢?原來是因為某些app在代碼里植入了專門做數據採集的sdk,它會記錄用戶的啟動、退出和任何想要統計的操作行為,存儲並同步到伺服器,伺服器端進行解析,之後的流程不用多說了,總之數據被採集到,就有了統計分析的原始材料。不同的設備需要用設備唯一標識進行區分,以統計該app每日的不重複活躍用戶數,以及累計的活躍用戶數。如果app1今日的啟動設備是A,B,而app2的啟動設備是B, C. 那麼如果一個統計分析平台只有app1和app2接入,從平台匯總的角度來講,今日的啟動設備就只有3個,A,B,C.
樓主需要指數化的數據,與具體的app無關,數據的「是否靠譜」就取決於數據統計平台收集數據的「能力」:
1. 因為收集數據是要靠對接的app來完成的,那麼是否接入了能夠覆蓋足夠多不重複設備的app?2. 這些app是否有更加全面的行業覆蓋度?在這點上,友盟先入為主,覆蓋的app量是較多(據說有21萬款app)的,這21萬app是否能夠覆蓋足夠廣的設備呢?具體的可以分析下。另外,友盟的app可能以遊戲居多,那麼在分析移動遊戲行業的指數,個人認為還是比較靠譜的。
如果要現成的數據報告、指數,而不是自己取原始數據分析的話(這種情況就只能想別的辦法了,比如購買,但是數據要分層有不同的私密性,要購買也是購買匯總計算好的數據,具體的可以與友盟聯繫),可以看看友盟的指數、報告或觀點等:
地址:友盟-專業的移動開發者服務平台除了友盟,百度、騰訊的移動分析,也有相應的報告、指數提供,但是覆蓋的設備量具體有多少,就不得而知了。
艾瑞分析,應該不是直接的數據採集方,數據來源不清楚,或許也是直接購買或將自己的統計標示藉助第三方打點採集,不得而知。不做評論。
親覺得無線數讀的數據「不靠譜」,主要是因為無線數讀對接的應用基本上是電商類的,而且目前基本上圍繞淘系的導購平台,除了淘寶以及阿里系的應用,其他導購類的應用體量可能較少,收集到的數據可以代表電商消費者用戶,但是可能還有一大批,永遠不上淘寶、不上已經對接的導購平台的用戶,比如網易新聞客戶端的用戶未必裝了淘寶客戶端。會缺失這部分數據。所以,需要一個接入更廣行業的app的數據統計平台(舉個例子,目前中國活躍的智能設備數量超過7億,有沒有一個平台接入的app覆蓋的不重複設備接近這個數字),且這些app總共覆蓋的人群需要足夠的廣,那麼數據相對而言就更能代表整個移動行業指數。
無線數讀產品目前略有轉型,暫時是把精力放到內部的「大數據」層面,比如針對淘系的應用,能夠通過內部的數據交換,提供對於用戶更全面的視圖,比如將設備與用戶的消費行為、屬性相結合,提供給內部業務方更靈活、全面的用戶分群,支持業務方做個性化營銷、推送服務。比如按地域、消費者層級、消費水平、類目搜索偏好、類目購買偏好、星座、性別等等維度交叉組合得到業務所需的用戶群體,然後做定向分析或推送、推薦。這些數據連接工作,在內部嘗試比較順暢,而對外提供服務還有一系列問題待解決,目前也不是業務重點吧。一.跟運營商合作,他們在用戶手機聯移動網路時,可以獲得用戶的各種數據,包括但不僅限於:用戶手機號,操作系統,mac地址,地理信息等等,至於量級別和深廣度,需看合作等級。
二.布局一切移動互聯網入口的軟硬體,如手機本身,MIUI、點心OS 等深度定製版系統,無線路由器,各種app,各種第三方SDK嵌入等。此種方式獲取的數據深度和廣度會受限於布局的範圍,這也是為什麼各互聯網大佬在這個方向上層層布局(移動互聯網船票)的原因之一吧。
三.在各app中、移動web站點中嵌入js、圖片等能執行獲取信息或直接發送請求附帶信息的元素。此類獲取信息較為零碎,收集困難,信噪較大,布局困難,但實現相對比較容易。
四.通過金錢購買,如各互聯網大佬數據,第三方統計工具如友盟等,移動互聯網廣告、數據公司,方便易得。但經媒體及提供商二次加工,數據真實性無法保障。
五.普通用戶想免費獲取數據報告(只供參考),可利用搜索引擎搜索各互聯網大佬,數據公司發布的市場化數據(大都比較寬泛,僅作為商業化運作的結果公開)。
以下網站僅作參考:百度數據研究中心 提供行業研究報告、行業分析報告(百度)
騰訊移動分析(騰訊)阿里研究-洞察數據 共享新知(阿里)
Google 搜尋趨勢(google)http://www.umeng.com/(友盟)https://www.talkingdata.net/(TalkingData)DCCI互聯網數據中心 洞察網路(DCCI)
艾瑞諮詢集團首頁(艾瑞)互聯網數據研究中心(易觀)中國互聯網流量大盤 CNZZ數據中心 最好的互聯網數據平台(cnzz)199IT互聯網TMT數據(199IT)ps:數據需要跟業務結合起來才有較大作用,目前數據收集並非難事,挖掘整理出符合業務需求的多維數據才是難事。如各大運營商手握大數據卻無較大產出可見端倪。
以上僅為移動互聯網用戶數據獲取的一點見解,僅供參考。
他們提供的服務可以記錄用戶的數據,自然也能記錄了,比如百度的遷徙數據,懷疑是百度地圖的定位數據。。不過據說不怎麼準確,大過年的,北京的遷入數據那麼高。。。
首先,題主沒有搞清楚什麼是大數據。你說的這些都是數據。
wikipedia:大數據就題主對這些個名詞範疇跟關係的理解和題主的表達方式來看,可能只是想單純了解了解。這樣來說,這些數據獲取渠道都包括但不限於:研究報告、行業網站/論壇、媒體。
完整的研究報告經常都是要收費的,對個人來說很貴。一般會提供簡版,對於題主想要了解的程度,簡版夠用了。比如:iResearch:移動互聯網_研究報告易觀智庫 - 洞悉互聯時代的機遇和風險至於像手機出貨量這樣數據,除了官方發布以外,一般只有專業的市場數據機構才可能有。而且基本上都是要收費的,價值更高。對於一般人來說,除了在艾瑞、易觀這樣的地方扒,一般也就只能看看媒體了。充其量追本溯源一下,看看「據XX消息」之類。不過中文的媒體經常抄來抄去,源頭除了廠商發布以外很多都是上面這種市場數據公司,所以可能沒多大用。
以上只適合一般的獲取數據,不一定能保證真實性。驗證數據準確性這方面我沒好的經驗,不談。
——————————————另外建議題主用好維基跟google這兩個利器,比如google的filetype, "", site, 比如維基的引用、列表、所在分類等等。。掌握以後能更有效率地扒拉出一些數據來。參見:如何用好 Google 等搜索引擎?
其實 @夏允澈 的回答已經切中要點了,但我想只靠「廣告聯盟」四個字很難讓互聯網廣告圈外的人了解具體情況,我這具體說一下。
題主想要了解移動端海量數據怎樣獲取的,我只做過PC端,就以PC端來說,實際上移動和PC差不多,本質上都是 「流量交易」。 唯一區別就是移動端主要靠的是各種APP,而PC端靠倆神器:瀏覽器 and cookie。互聯網公司想要獲取你的數據,需要你去訪問它的服務(存在形式有網站、電腦客戶端、移動APP等)。然後把你的一些訪問數據記錄下來(例如:你在什麼時間,在網站的哪個頻道哪個頁面用什麼樣的瀏覽器點擊了某個新聞或廣告圖片多少次)。吸引你去訪問它們的服務的方式主要有兩種, 1.你自己直接去用它們的服務,如,你去百度搜索天氣預報,你註冊QQ並用它聊天。這種方式獲得的用戶數據有限,比如,你用QQ聊天,騰訊只能知道你的年齡、性別、你的朋友圈子等數據,假如騰訊想要知道你最近想買什麼商品,你最近都在瀏覽哪些類型的網站怎麼辦呢?所以想要獲取更全面的數據,從而發現更多商機,還需要第二種方法。 2.流量交易@夏允澈 說的「廣告聯盟」就是他的主體部分。簡單說就是某個公司通過一個流量交易平台(廣告交易平台,adexchange)把自己的一些帶連接的文字 or 圖片 放在別人的網站或客戶端上,吸引你去點擊,從而使你去訪問它們的服務。在這裡你需要清楚三個概念流量買家、流量賣家 還有 流量交易平台。這三種角色里誰最賺,誰獲取的用戶數據最多?當然是流量交易平台。比如你在優酷的視頻網站點擊了京東通過騰訊(流量交易平台)發布的廣告,那騰訊也許就會知道你喜歡看什麼視頻,目前想買什麼商品,然後再結合它自己有的你在QQ上的數據,它可以對你專門建立一個 興趣 模型,通過不斷獲取你的其它數據來優化這個模型,把你分析的越來越透徹。當然,中國的網民數量N多億。通過這些方法它拿到海量數據,然後根據那些海量數據分析出你題目中的操作系統市場份額真的是輕而易舉的事情。這裡再補充一個知識點,可以讓你更好的了解什麼廣告交易平台,Google 將要推出的「實時競價」與百度的競價排名有何區別?,在這個回答中我解釋了下什麼是 實時競價(即RTB廣告),當然,RTB只是廣告聯盟運營的廣告中的一種,但通過這個例子可以很容易理互聯網流量都是怎麼交易的。再上一張圖,能更直觀些,看到嗎?這是在CSDN的網站,京東通過mediv再通過google放了一個京東的廣告,你把滑鼠移到這個圖片上你會看到圖片連接的主域是google,你點擊這個廣告最終會跳到京東的頁面。通過這個過程,google、mediav、京東 都可以獲得你的一些數據,只是獲取的多少有差別罷了。題主,你題目中想要免費獲取一些數據,這個比較難。在互聯網圈子裡,就倆東西貴,流量 and 數據。
對於數據,覺得主要通過以下兩方面可以得到:
- 聯繫提供數據的廠商,協商獲取 (如大廠商的出貨量,但估計不可能,因為這種數據可能屬於企業機密)
- 查找哪些網站或線下資料提供想要的數據,爬蟲抓取或人工分析獲取 (主要應用統計學抽樣分析。前者如爬取淘寶中的銷量數據等,後者可以感受下 走捷徑有時候其實就是一條彎路 這篇文章的做法)
舉個具體的例子 (不是移動互聯網方面的,見諒):
我對知乎很感興趣,很想知道知乎每天新增的問題數量、一天中發問題的時間分布、每年發問題的時間分布、問題的 id 規則等。這些數據知乎團隊可以輕鬆得到,但部分數據肯定不會輕易提供,所以上述提到的方法 1) 就不能考慮下。這時只能通過人工分析知乎網站提供的通過瀏覽器查看所有問題的方法,然後寫爬蟲進行抓取分析。廣告聯盟
拖庫。。。
友盟會定時發布一些報告,也能看到一些當前的數據。另外如果你在友盟有統計的APP,可以看到參考數據。以友盟的使用規模在國內應該很有參考價值了
國家統計局網站、一些組織協會(如CDAC)還有一些諮詢機構(如麥肯錫、尼爾森、德勤、艾媒諮詢)這些數據來源都挺不錯的,之前寫論文的時候經常用。
199it上可以看到一些艾媒、易觀等公司發的數據報告
推薦閱讀:
※如何看 YunOS 3.0?
※如何評價 Apple Pay 移動電子支付?
※為什麼這麼多互聯網公司,沒有一個做出像樣的 o2o 平台?
※根據我國現有的互聯網發展趨勢,各位大蝦覺得未來的3---5年互聯網行業最稀缺的技術性人才將會是哪些?
※陌陌為什麼要放棄「陌生人交友概念」?這是一個正確的選擇嗎?