機頂盒數據能否被「反向收集」成為大數據?

1、從技術的觀點來看機頂盒,為什麼不能直接把用戶的「操作過程」反向搜集,成為可以評估的大數據嗎?包括電視台方面的設備改造,難度大嗎?

2、現在一般通用的機頂盒,和ac尼爾森的數據搜集設備,技術差距有多大?


關注了這個問題,也沒敢答,可是兄弟們回答也太不靠譜了。


我是PM,做的就是傳統電視分析收視率、點播、回看的統計軟體

令人欣喜的是——我們的收視行為已經可以被大數據記錄,成為優化節目製作的小白鼠了!


機頂盒的數據,目前是有收集的。別把傳統行業想的那麼弱好么
首先運營商會記錄每個用戶的行為日誌

原始數據
這些日誌分四種:
1 ) 用戶信息日誌
2)收視日誌
3)訂購消費日誌
4)節目數據
你還記得你辦理機頂盒的時候填寫的聯繫方式和姓名的,對的,沒有錯,那個就是用戶信息的日誌。

其他具體的日誌內容呢,我就不多說了,差不多有一百多項的統計欄位.
分別會把你看了什麼,看了多少次,點播了什麼,回看了什麼,購買了什麼統統記錄下來
日誌呢也統計的很細,會精確到秒級的數據
這個是原始的數據,通過原始數據我們可以得到用戶行為的分析啦,可以看到哪些節目觀眾比較喜歡,哪些頻道比較受歡迎。甚至還可以分析到用戶都是從哪些頻道流失到了哪些頻道。

自主採集
還有一種呢,就是題主說的用戶操作過程反向收集,這個可以實現,需要在機頂盒系統內嵌入代碼
,你可以想像一下網頁檢測每個頁面被點擊的過程。你進入到了哪個界面,點擊了哪些東西,都是在做什麼操作。
但是呢,這個檢測還比較弱,還不能做到與我們的網站統計軟體一樣分析出用戶的行為習慣,所以這邊面我們也會努力的!!!

數據分析
這些數據呢可以為我們提供寶貴的分析源,下圖是某頻道的在線人數
通過對節目單的對比,我們可以發現該頻道每天晚上是放兩個電影,所以導致了這樣的在線人數,對的你沒有猜錯,這是CCTV6!


想一想,對比一下就知道哪天的電影受歡迎了有沒有。


在處理數據的過程中,會有很多雍余的數據出現,例如你去睡覺了,機頂盒沒關。這種數據就是我們說的臟數據.
當然,我們已經有了一些學習與進步,在處理數據的時候會有一些判斷,能夠使數據變得更精準,如何清洗掉無用的數據也是一個重要的因素.

大數據
最後,我們說大數據,並不單單是說數據足夠大就叫大數據,我們通過對一個節目在多個平台的播放情況進行監測與分析,我們通過對各個渠道觀眾的畫像與剖析。
最終我們得出一些有用的結論幫助我們讓節目製作的更好,那才是我們的目標!
網上也有很多現成的例子,我就不多做解釋了,大家有興趣可以去搜一搜類似小時代的受眾群體,龍門鏢局的受眾群體等等,這些我們都是可以通過實打實的數據來分析出來,當我們的機頂盒統計足夠完善的時候,真正的的可以通過大數據來為節目與電影的製作做出決策參考之一.
目前我們的系統也已經開發了1.0版本,已經對一些節目的製作提供了幫助,希望以後可以越來月完善!

關於收視率
至於另外一些朋友說的,收視率的問題,具體的收視率如何採集請點擊: 電視節目的收視率如何計算?
一些傳統的巨頭不能代表整個行業,目前誰來做收視率都是會受到質疑。
很多人腦都不能衡量數據交給機器來分析我覺得會更困難,所以一些機器分析的結果有時候還需要通過發問捲來驗證。


可以搜集,大部分省一級的有線電視網都完成了雙向化的改造,技術上不存在問題。實際上國內很多的有線電視運營商已經在搜集了(比如歌華),也有一些公司在提供數據採集和分析方面的技術。只不過因為種種原因,這些數據沒有公布出來,也就沒法有效的利用。

原因之一,有線電視運營商看不到提供這些數據的好處。有線運營商只傳輸節目,把幾十個頻道打包在一起每月收你幾塊到幾十塊錢。具體某個節目的收視率對他們的收入沒有影響,不管你是喜歡看《爸爸去哪兒了》還是《中國好聲音》,每月交的收視費都一樣的不是?

之二,對外發布這樣的數據,可能還會有意想不到的風險。很多的有線運營商已經是上市公司了,像用戶開機率這樣的數據一旦公布出來如果不好看的話對股價會有很直接的影響。

之三,增加機頂盒廠家的工作量。機頂盒廠家需要集成額外的數據採集模塊,成本最終會反應到機頂盒的採購價格上。數據採集必然佔用本就不多的網路帶寬。這些都是運營商來買單的。

之四,這些數據可能很難賣出大價錢來。就算索福特或者AC尼爾森願意花錢買,出的那點錢估計還不夠運營商塞牙縫的。

之五,有線運營商都是廣電系統出身的,政企不分,要做這樣的數據運營,他們缺乏相應的人才儲備,同時由於上述的一些原因,做這件事情的動力又嚴重不足,所以不願意做就很正常了。

說起來中國移動、中國電信這種行動電話運營商手上更應該有大量有用的數據。比如某個區域內不同時間的終端數量,通話時長甚至是這些人的身份信息等等。。。你看他們把數據公布出來了嗎?


終於看到一條和我專業相關的了!

簡單回答:技術0差距,完全沒難度!
和電視台信號源完全無關,我們本身機頂盒就已經可以完成記錄用戶轉台的時間,停留的長度,並且可以把數據回傳。尼爾森的收視儀也就是這個功能?

然而,為什麼不呢?(沒錯,以下才是正文?)

尼爾森公司是做什麼的呢?
他們是做第三方收視率監測
關鍵詞不是「收視率監測」,而是「第三方」

我們設想一下,如果機頂盒是收視率來源,數據會怎麼樣?
以廣州為例。
先科普一下,廣州有兩個機頂盒供應商,分別是廣州有線和廣東有線,而由於歷史原因,這兩個公司分別遞屬於廣州電視台和廣東電視台。
冰雪聰明的你可能已經想到,廣州有線機頂盒測出來的收視率,當然是廣州台比較高;廣東有線的機頂盒,當然是廣東台的數據比較好?收視率高,意味著廣告可以賣更貴,意味著電視台收入高?
既當球員又當裁判,必然是不行的?

其實,幾年前當央視收購索福瑞,成立中國最大的收視率調查公司央視—索福瑞的時候,業界就有過類似質疑。

最後再科普一個,現在尼爾森、索福瑞的收視率樣本,都是有償樣本,意思是,作為被調研人,是籤合約收錢的,是有義務保證自己是公平公正的。

------------補充----------
關於有同學提出當地機頂盒就是由「第三方」提供的,但請留意,目前應該還沒有一個全國性的第三方吧?
還是以廣東為例,如廣東的收視以廣東的數據為准,湖南的收視以湖南數據為准,那會導致廣東沒人看湖南衛視,湖南也沒人看廣東衛視?
就像中國和韓國隊踢球,裁判是不會用中國人或韓國人的,以免地方保護?


作為廣電的乙方多年了,試說一下我所知的情況吧。說不清楚的地方業內朋友不要見怪。
問題問得太籠統了,要知道有線電視系統並不是只有一個機頂盒那麼簡單。需要搞清楚的是以下幾個問題。
1、系統是誰的?
2、它能收集哪些數據?
3、哪些數據是有價值的?
4、具體怎樣來收集這些數據?

一般來說,由於之前的准入限制,主要佔領有線電視市場的還是廣電,現在搞三網合一,電信也進來了,但目前市場份額暫時還不多,我也不了解,這裡就不談了。負責有線電視系統運營的,通常都是各省市屬下的有線電視公司。關鍵一點,運營商只是提供電視頻道,每月收取月租,至於每個頻道收視率如何,他是不關心的。

談機頂盒要收集數據,要分清楚,機頂盒是單向還是雙向的。
單向是指只能看廣播電視,或者附帶能收到一些廣播數字信息的機頂盒。
雙向機頂盒,實質就是在單向機頂盒上增加一個回傳通道,除了具備單向功能之外,最大的特徵就是能夠作視頻點播,當然這裡面會有收費項目,這也是運營商所關心的。
一般來說,單向機頂盒沒有回傳通道,只能通過網路信號收集信息,不是不行,要花很大力氣,而且只能對定向幾個點監測,沒可能全面鋪開。
而雙向機頂盒通道是現成的,只要機頂盒存好數據,就能向服務端發送。因此談到大數據收集,基本上是基於雙向機頂盒了。

雙向機頂盒有哪些功能呢?這些功能裡面有哪些信息呢?
廣播頻道:用戶的換台信息,在每個頻道駐留的時間信息。
視頻點播:用戶所點播過的節目信息,用戶快進快退信息,用戶退出時的書籤信息。
電視回看:用戶所點播的回看時間點信息,用戶快進快退信息,用戶退出時的書籤信息。
其他資訊類增值業務:用戶瀏覽頁面的信息。

上面這些信息哪些是有價值的呢?
前面說了,運營商不關心每個頻道的收視率,可能換台信息對電視台或者是電視台的廣告商來說很有價值,但運營商沒有動力來做這一塊。而因為有第三方統計存在,電視台也不會花錢讓運營商來收集這些數據。
資訊類的頁面,瀏覽量比起普通網站來很少,價值也不大。
因此,比較有價值的,就是點播類節目的信息了。其中,用戶的快進快退,以及書籤信息相對來說,也是沒太大價值的。
而收集點播信息有什麼價值呢?就是根據用戶的點播習慣,推薦出他感興趣的影片,從而增加運營商的收入。

其實跟題主想像的不同,如果只是需要點播類的信息,不需要在機頂盒上專門來收集。因為每次點播,後台已經有記錄了。以下就是一個普通的點播流程,裡面涉及到多個不同系統。運營商想拿到數據,可以在BMS, BOSS,或者portal中提取都可以。具體怎樣做,就是具體項目具體來談了。
而這些數據只是普通數據,放在普通的資料庫中,不算是大數據。而要對這些數據作分析,比如說要做推薦什麼的,就另當別論了。


最後談一下現狀吧。互動點播推薦相對於其他推薦系統如亞馬遜,淘寶等推薦準確率相對會低。主要原因是一般購物賬號都是個人的,但看電視一般都是一家子來看,爺爺跟孫子在同一台電視上點了不同節目,後台是不知道的,根據這些數據來做推薦,準確率肯定是大打折扣的。


反對得票最高的。說說自己,國內排名靠前的某數字電視增值服務公司的碼農。現在正在做的就是關於收視率統計的項目,項目涉及多個一級廣電和IPTV服務商。說說自己的認識
第一,技術上實現起來沒什麼難度,也不存在不穩定的情況。數據上傳從技術上來說太容易解決了。如果上傳不穩定就是數字信號或者網路不穩定,網路不穩定怎麼看電視啊。而且即使網路偶爾不穩定,技術上也可以暫存,等網路好了再上傳。
第二,說到數據量過大的事情。我們現在兩套方案,一種是什麼數據都記錄,由運營商來篩選出有用的數據。還有一種是運營商想採集某個節目或者某個時間段的收視率,就要求機頂盒按照規定上傳。這樣就不存在數據過大伺服器壓力太大的情況了。而且,本身運營商的帶寬就夠大了的,這點數據量實在不算什麼,畢竟收視率就是一串數字不是上傳海量圖片。
補充一下,之前做過終端管理項目,功能如同某位所說,機頂盒幾乎如同肉雞。運營商可以針對某一個機頂盒完成所有他們想完成的功能,包括你本地沒有的功能。所以,技術進步其實也就是讓人們越來越沒有隱私。


1.技術上沒問題,雙向網+機頂盒管理系統+portal,機頂盒狀態和用戶行為數據都能採集到;

2.尼爾森主要是做收視率調查和分析,類似於央視索福瑞,在收視率這個問題上自然是第三方來做會公正一點,而為什麼廣電也好電信也好,這個數據都不公開,其實上面很多人都答偏了,因為題主沒問這個問題,題主想說的是用大數據來做分析和評估,實際上目前有部署這種系統的運營商也是拿數據來干這些事,分析的結果是用來形成業務營銷策略,做運營支撐的,所以這個數據肯定不會公開,而採集是一部分,更重要的是背後這個分析系統,目前這個系統國內電信運營商做得比廣電有線運營商好太多了,廣電系目前連做了數據採集的都很少,即使做了也是搜集很簡單的數據,分析系統也很弱;

3.就數據採集技術來說,和國外差距不大,但從數據分析和應用來看,至少差了五六年吧;

4.這事和電視台關係不大,機頂盒這玩意基本上是運營商在管(互聯網ott的不在討論範圍內),因此這個數據也到不了電視台手裡,即使運營商把數據賣給電視台,某些電視台拿著用處也不大,尤其是目前節目制播分離的制度下,你可以看到很多好節目都不是電視台製作的,比如好聲音。


作為互聯網廣告的從業者和大數據精準廣告的碼農,說兩句

首先,技術上沒有問題,實時分析可能有困難,但離線數據分析在這個數據量級上絕對沒問題,也不象上面回答說的需要全球ipo的機房。百度阿里的數據量級就能勝任。更別說谷歌了。

其次,關於第三方監測的問題,如果沒有第三方監測,現在互聯網廣告怎麼做下去,怎麼取信廣告主?

最後再說一句,任何保守陳規的公司都會被後來者打的粉碎,柯達如此,諾基亞也如此。

互聯網進入電視行業,基於用戶觀看行為的分析和廣告投放僅僅是個時間問題。現在不過是黎明前的黑暗罷了。其實太陽已經冒頭了。


這部分的大數據已經用起來了。例如中央台就通過機頂盒數據給出春節聯歡晚會每個時段的實時收視率。我記得每半小時的數據量是上T的。


鑒於幾位朋友說答非所問,我就回答的更直接一些,歡迎大家補充。

——————————————————————

令人遺憾的是——你看電視再多,也可能不會成為大數據的一份子。因為大數據統計,是採取樣本分析法的。

以下是答題。
問題1:從技術的觀點來看機頂盒,為什麼不能直接把用戶的「操作過程」反向搜集,成為可以評估的大數據嗎?包括電視台方面的設備改造,難度大嗎
答:機頂盒可以是實現反響搜集,並且已經在應用之中。目前以尼爾森公司這方面做得比較領先。改造難度不大,甚至不需要改造,只是機頂盒不一樣罷了。

2、現在一般通用的機頂盒,和ac尼爾森的數據搜集設備,技術差距有多大?
答:技術上沒什麼差別,差別是穩定性。
普通機頂盒造價便宜的很,監測收視率的機頂盒造價要高得多。索福瑞和尼爾森的都是。最重要的就是數據回傳的穩定性。10倍價格吧。
如果數據中斷,對於時時收視率監控的影響是很大的。
數據的可靠性是數據公司安身立命的根本。當然,如果全國人民的數據都搜集,時間和人力的成本實在太高,所以,他們是這麼做的——

————————————————————————————————

以下為一問一答時間:(在知乎上養成的習慣);

Q1、你說有樣本,樣本怎麼選擇呢?
A1:額……讓我們講個故事……很久很久以前,你在看什麼節目,是靠電話訪問的。在美國,調查公司會打電話到樣本戶家裡,問他們在看什麼電視節目,看了多長時間,進行統計
然後時代進步了,採用了日記卡形式。就是給你發個卡,你只要看電視,就需要15分鐘記一次你在看什麼。
之後呢,就發明了收視率測量儀,時時回傳數據。這時候對樣本戶是要求高度保密的。
現在呢,因為數字電視,發明了所謂的「海量樣本收視系統」
簡單的說,原來成都有300個樣本戶,現在數字電視能有3000戶。
選取樣本是不會告訴你的,隨機抽取給你發機頂盒,你都不知道你家在不在收視率統計範圍中,避免了樣本污染問題。

Q2:我天天開著電視,只看一個頻道,他的收視率是不是高了?
A2:
為了保證穩定性和準確性,所以就需要進行專門的樣本監測。
樣本呢,不會很多,因為統計全國人民看電視的大數據,公司估計要全球IPO了才能買得起那麼多機房。
所以呢,尼爾森和索福瑞都在取樣,選取不同職業、年齡、身份的人作為樣本。
真相只有一個,只有他們,才對收視率有影響。
諾,就是這個玩意兒,一般人都木有見過哦。所以你天天看電視,對大數據和收視率都是木有用的。

以北京為例,歌華有線是主要的數字電視,其也擁有相關的數據。但光有數據是沒有用的,只有能做分析才有用。現在的分析,採用機器+人工分析兩種形式。機器會進行初步的篩選。比如您一天開電視不換台,數據就會被清洗出去了。
要知道,收視率一般都是1%,2%這個樣子的,《我是歌手》第二季歌王之戰,全國網收視率為3.24……過去,一個樣本能提高的收視率確實不少,但現在樣本戶多了,所以1個用戶對整體的影響不大。

Q3:那些不是數字電視的,怎麼計算收視率?
首先,索福瑞採用的收視率是基於有線電視,尼爾森是數字電視。
我能告訴你的是,北京地區70%以上的家庭都是數字電視(印象中,請知友印證),而2015年政策規定傳統有線電視要停模,全部轉為數字電視。

3、說點題外話
目前收視率受到質疑,主要是因為污染樣本太嚴重。
比如一個不知名電視劇,如果搞定了收視率樣本,就能搞定廣告主投放廣告,電視台就能以小博大發橫財,這種掮客也不少。
機頂盒的大數據,最相關的應用還是收視率,未來的收視率會更加豐富。
未來,網站、APP、電視盒子會成為重要的影視數據統計來源,索福瑞和尼爾森也在轉型。
電視已是黃昏行業,浪潮之巔的大數據,充滿想像。


說說我知道的。
很多省在平移的時候已經加入了用戶行為的收集模塊,有的已經大批量發貨,有的只是選取了部分盒子添加了此功能。想是涉及隱私數據採集,所以數據採集者也不願大張旗鼓,不明真相的群眾,以為這塊市場空白了。
搜集的信息主要是節目停留時間,音量,信號強弱,進出的應用。功能沒有難度,運營商對此也很有興趣,但對於收集的數據怎麼折現還沒有清晰的思路。
現在也有些做網路電視的公司也做這方面的大數據採集了,他們都是繞過了運營商,在網路電視裡面加了這個功能。到目前都處在炒作的階段


數據肯定是有搜集。

機頂盒現在的當務之急是提高片源的數量和質量。

至於那些勾引用戶購買服務,默不作聲不做提示就自動續費的機頂坑(中國電信itv說的就是你),估計他們的心思不在這個上面。

要真是做分析,對用戶不見得是好事。


我倒是想過。但是這玩意不是在客廳就是在卧室,殺傷力太大了,如果帶上麥克風和攝像頭,那簡直要人命,沒人敢用。


一、我知道北京歌華有線已經在做這個了。馬上歌華有線要發布北京地區全樣本收視數據。
但正如有的問題回答的,目前只有雙向可回傳數據的機頂盒能夠採集到家戶電視使用的行為,包括收看直播,回看,點播等等的數據,已經可以實現實時的分時段統計。(北京地區有400萬戶左右)
但目前數據的「有效性」、「準確性」還面臨三個難題。
1、家戶收視行為推及到人的問題
因為從電視收視領域來看,到用戶個人的數據才是有價值的,包括到人的基本人口統計學特徵數據,性別、男女,以及職業、受教育程度、收入等。只有擁有了這些,數據才有意義。
大數據時代,不僅數據要是海量的,更重要的是,使用海量數據想要達到的是精準,更精確的洞察受眾的終端使用行為,從而更好的成為對節目、廣告等的評估指標。
但從雙向機頂盒回傳的數據單位是戶而不是人,如何把海量數據與抽樣數據進行匹配,如何把家戶數據推及到個人,是業界一直以來的難題,也是關鍵所在,只有測量到用戶個體的行為,才能夠真正的成為」大數據「。
2、反映市場整體收視行為的問題。
目前市場上還有相當一部分受眾使用的單向的機頂盒,他們的收視行為是無法得到回傳並使用分析的。如北京市場目前還有120萬戶左右的單向機頂盒。而他們的收視行為同樣重要,因為只有樣本量覆蓋分層的全面,準確,才能夠真正反映市場的全貌,如在傳統的抽樣收視調查意義上,幾百戶就足以反映市場的全貌,靠的就是抽樣樣本的準確。這一部分單向機頂盒無法被反向收集,很大程度上影響了「大數據」的準確,也使得已有的大數據不能反映收視市場的全貌。
3、同源樣本的收視行為監測問題。
隨著OTT和IPTV的發展,收視的終端平台不斷豐富,受眾的收視行為越來越多樣化,同源樣本在多平台的收視行為如何被「反向收集」,他們的跨平台多種媒體的收視行為如何來「收集」和評估,權重如何分配,也是業界面臨的重要問題。


二、尼爾森的動向
尼爾森在數據電視領域的所做,已經甩開索福瑞好幾條街了。尼爾森目前在全國已經拿到了210萬戶的樣本,在有的市場,比如南京,還將拿到全樣本。
尼爾森也已經敏銳的意識到了把海量樣本和抽樣樣本匹配的問題,比如在北京地區,他們既與歌華有線合作,拿到了2萬5千戶的雙向機頂盒回傳數據,並且利用技術和調查做了到人的推及,而且還抽取了500戶單向機頂盒用戶的數據,試圖將單向和雙向機頂盒數據融合,從而實現大數據反映市場的全貌。
順便說,尼爾森的數據還是非常可靠的,尤其在數字電視廣告監測領域,跟他們有過合作,數據準確、及時,嚴謹,甩開其他合作公司幾條街,為他們點贊。


完全可以的,有線網已經在改造為雙向,而且機頂盒越來越強大,更不要說 OTT 盒子天然就可以干這個。

可惜手機沒法發圖片,前幾天我就拍了一些廠商提供的統計系統,挺強大的。湖南衛視就是晚間檔霸主~


無論是以前的電視卡,還是現在的數據盒,收視率都是抽樣調查,每個城市的樣本本身就不多,夠不成大數據,更何況不是樣本的你。


這個還真是有,用來做推薦系統以及用戶行為分析。問題是能接觸到原始全量用戶數據的也不過幾家而已。尼爾森,除非他們有合作,否則也不可能拿到這些用戶數據的。
國外也有很多公司做,如 FASTWEB - ADSL, fibra ottica, telefono e TV


實驗室接過某地廣電的一個項目,收集了一些用戶的全部觀看記錄,包括什麼時候看了什麼頻道,精細到每一次換台操作。


網路電視的興起。監測IP也變得可行,內容的抓取也不是多難的事。目測是可行的。
現在的android機頂盒真心蠻便宜。前段時間買了台回家【主場機頂盒】,發現,廣電---你們收費這麼貴這麼多廣告真的好么??人家不僅便宜還免費!!!


這個價值很大的,基於ip的都可以實現數據採集分析,一種是部署到機頂盒上的探針,還有就是直接在ip上做dpi抓包分析,如果機頂盒epg支持網頁分析,其實會更好,這個方法是最全面和豐富的,但是實現改造的難度都比較大,依賴於機頂盒瀏覽器支持的情況


只要是雙向盒子(網路或者窄帶)沒什麼難度。很多廣電都做了收視率調查,可以採集部分數據。我們現在正在做採集的事情(採集的數據會更多,直播信息只是一個小子集)。我覺得重要的是怎麼用這些數據(比如定向廣告推送、個性化推薦之類),這個才是問題,不是所有的廣電都能做好。
另外,前面有人說的機頂盒攝像頭。。據我所知還真有廣電有這個業務,當然估計沒什麼人用。


推薦閱讀:

TAG:收視率 | 機頂盒 | 大數據 |