讀書筆記-為數據而生:大數據創新實踐(一)

讀書筆記都是看書時的思考,沒有其他文章那樣的方法論和系統。

書名:為數據而生:大數據創新實踐;作者:周濤注;

看這幾章節的時候,正好分別碰到了幾個朋友有數據收集方面的問題。數據收集,對於互聯網來說是相對容易的事,但是對初創公司,特別是線下公司,數據收集本身就是數據使用的最大門檻。

我的筆記用破折號——表示,並且標重點。

案例:「抓獲」過度醫療和騙保行為

背景:醫院為了創收和規避醫療風險,醫生為了獲取一些不正當的利益,都導致了過度治療的傾向:重複進行昂貴、大範圍的身體檢查,開出價格高昂、超出需求的處方單,等等。更有甚者,患者和醫療一起合謀騙取醫保費用,因此有了專業的看病團、住院團和昂貴藥品的回收商。

方法:

1、95%以上的異常行為都可以通過數據挖掘的辦法自動進行識別,比如一位男性被診斷患有子宮肌瘤;一位42歲的女性患者,五次診療記錄中有三次都是兒童這些。

——基礎數據收集:患者方面,年齡,性別數據要收集。醫療設備、病狀、藥物的適用病症、各項標籤要打好。對雙方的匹配度進行計算。

最開始的基礎數據收集,很難收集全,那麼要從用戶場景入手,採用5W+1H的方式。

Why、What、 Where、When、Who、How六個方面作為基礎元素,對每個基礎元素做擴展。

Who:病人,擴展屬性:性別、年齡、收入、場合。

How:醫療設備,擴展屬性:胃鏡、腸鏡等。

進階的數據收集思路見下文。

2、針對同一病種,不同醫院在藥物、治療方案和檢驗檢測手段上的使用頻度分布,以觀察異常性。舉個例子,如果對於所有淺表性胃炎患者,行業平均使用A葯的比例是0.49%,而某醫院的用藥比例達到17.61%,那就是明顯的異常

——用均值和相對值來做比較和判斷;這是一種基本的數據分析方式;數據分析的思路要活用,這個案例很多,不在這說了。

3、可以得到不同等級的醫院收費高低和過度醫療傾向性的一個排名。甚至可以自動「抓獲」一些具有特別明顯過度醫療傾向的醫生。

——應用:可以看到這套數據的應用用戶至少有五類:一類是病者(數據產生者),可以看到自己的醫療是否合理,話說我要得大病了,肯定會去買這個數據;第二類是對醫生(數據產生者),可以得到每種葯/設備的合理使用頻次,作為參考;第三類醫院管理醫生,協調資源(資源管理者);第四類,用於監管部門監管醫院(資源管理者);第五類:廠商,醫藥和設備的廠商(數據產生上游)。

最近來諮詢我的朋友,有很大一種情況就是,不知道數據怎麼用,不知道用於幹什麼。有一個朋友,團隊技術很厲害,跟景區合作,可以做360°的景區景象還原。但是當他們開始做數據的時候,就不知道怎麼做了,那麼就需要梳理,景區內都可以產生什麼樣的數據,哪些人產生數據,哪些人需要管理資源,這些人都需要數據的反饋。

4、假設存在一群專業的騙保患者和騙保醫生,表現在數據上,就是一個患者如果經常去高度疑似騙保醫生那裡去看病,或者一個醫生經常診治高度疑似騙保患者,那麼他們「騙保的可能性」也會提高

——社交網路分析,了解下。

5、效果新識別的違規或騙保金額佔比為3%~6%,也就是說每一個億的新農合報銷中,有300萬以上都是違規甚至欺詐。「針對一個很小的縣級城市,我們一年都能夠為醫保部門節省數百萬經費。」

——最近發現,政府和管理機關,也是數據的大頭客戶。因為政府手上把握大量資源,就會有魚目混雜的人想要獲取這些資源。就連我自己,都接受過政府的諮詢(害羞臉?(? ???ω??? ?)?)。

6、真正要解決醫療中的亂象,優化配置有限的醫療資源,需要用大數據的手段把每一個醫療的元素都實時定量地管理起來,包括對每一盒藥品針劑、每一台醫療設備,它們的進銷存情況和運轉使用情況,都需要在線實時記錄。「未來,例如藥品的進銷存數據,例如把葯高價賣給病人後立刻低價回收,都無所遁形,因為進銷存數據對不上啊——賣出去的葯比從藥廠進的葯還多了。」

——當有了效果後,就會對基礎數據的收集,有一個全新的、更大的框架性思維,從而去收集更多的數據。

數據收集是層層遞進的關係,每個行業都有每個行業的思路。前段時間和一個運動行業的ceo交流運動數據如何做,我給她我對於醫療健康行業的數據收集思路

第一步:現在的健康行業,都在用用戶行為的結果數據。比如,你跑步多少分鐘,跟自己比快多少,跟別人比快多少;

第二步:對結果數據細分,從各種角度細分。細分的好的,就已經是現在的健康app行業做的很不錯的了。比如跑步app的配速圖,就是一個很好的細分,有經驗的人會告訴你,這個配速如果變一下,第二公里跑快點,會讓你整體成績提高。

第三步:引進更多結果數據:()

比如,改變配速,可以通過人的意識改變,但是,也可以通過提高肌肉力量整體改變,比如引入下肢脂肪率,核心力量脂肪率,可以通過脂肪率的改善,來改變配速。

能夠把數據做到這一步,已經可以起到非常大的作用了。

第四步:引入原因數據:

為什麼脂肪率能改善呢?為什麼肌肉力量能改善呢?引入對脾胃、器官等影響脂肪率的原因的數據監測等(我不專業,純舉例)。這些是現在的健康app還到不了,只能作為方向。也沒必要糾結到這一步。

案例:

一家名為「醫修寶」的公司,用微信平台幫助醫院便利地管理所有的醫療設備。短短几個月,平台上就管理了近10萬台設備,每天都有數不清的報修。因為這個平台記錄了設備的使用情況和故障情況,將來會成為醫療設備的一個全國性的大數據平台,從而讓我們知道哪些醫療設備生產和維修廠商最值得信賴,哪些醫療設備存在嚴重的資源浪費,哪些醫院的醫療設備真實使用情況和醫院信息系統的記錄嚴重不符,等等。這些洞見能夠幫助我們對極其有限的醫療資源進行優化配置,並且讓醫保欺詐的難度和風險都大大提升。

——應用於資源管理者的一個案例。

案例 :

個性化醫療對於學術界和工業界而言,都是未來醫療健康領域最具發展潛力的方向,因為我們通過對個人基因序列的分析,能夠早期預測到此人可能罹患的高風險疾病,同時在患病的時候提供更好的個性化治療方案。

————根據上文中整理,數據的價值有很多種,但是大家公認的,對不同行業來說,普遍價值比較大的,是針對數據產生者自身的,也就是針對用戶的。畢竟我們都是服務行業。

天知道我怎麼接到過那麼多在沒有用戶產生數據時就一定要做出比較大的數據價值的諮詢。

註:原酒仙網高級數據經理,現離職狀態,無收入,無工作,求打賞,求推薦工作。

可做數據產品諮詢和培訓。

知乎專欄: 數據產品的蝶變之路 - 知乎專欄

微信:

推薦閱讀:

數據科學人才: 如何順藤摸瓜提高你的競爭力
1mb(毫比特)的數據有多大?
如何看待中國近 25 年森林面積增加量世界第一?
總聽到有人說自己要X%的努力的說法,X經常等於100,120,150,200,300,500,etc...請問X到底等於多少,代表著自己很努力呢?是不是數字越大越好呢?

TAG:数据 | 大数据 | 大数据分析 |