程序員如何利用知乎來找到合適的另一半?
之前在微博看到有人利用交友網站爬到的信息,依據女性的各項資料對其進行聚類,然後找到最合適自己的她。所以我想,能不能利用用戶暴露在知乎上的信息,比如回答、得贊數及其贊同和感謝等等方面的情況,甚至所爆照片、微博等,以NLP、數據挖掘、文本分析等技術來進行【合適對象】的挖掘?
不過本人只學過基本的數據挖掘,以及Python爬蟲開源Scrapy,還有沒有大神能在大方向上建議我該學哪些、做哪些?
很好做啊,是一個推薦功能,可以看作是兼有淘寶寶貝推薦和微博好友推薦。
類淘寶:把zhihu的問題看作是商品,用戶的點擊回答贊同感謝看作反饋,協同過濾分分鐘搞定。類微博:根據social信息,二度模型分分鐘。
至於更細的文本信息,可以直接降維加上本身已經有的tag同時來做進協同過濾中…
至於圖像信息,是長相過濾么,這個歷史偏好比較難挖掘吧,而且敢放圖的一般還可以吧…也可以做一些模型…但是zhihu沒有標註信息…建議開啟這個模塊並獲得一些轉化日誌。
最後,程序員找女朋友還搞什麼推薦,廣撒網深挖洞廣積糧才是王道…我覺得靠譜的方式是
學學ElasticSearch之類的,結合Scrapy做個分散式的爬蟲,給知乎重新做一個搜索
然後沒準能混到一個知乎的實習,據路邊社報道知乎做搜索的似乎只有兩個人
然後跟後台開發混熟,拿到資料庫的許可權
然後SELECT * FROM Users WHERE Gender = "Female" ORDER BY Cup DESC
齊活
(逃
naive,妹紙就是要一個一個上,靠那些機器學習的東西來搞,還有情懷嗎?
我也很想知道如何通過知乎來找一個程序員當男盆友
這種思維的一般都是孤獨終老。
曾經看過一個美國大齡女青年在相親網站找對象的視頻。她覺得生活中去找對象和碰運氣的幾率太低了,當然她是個超理性的人,已經根據自己的要求做了數據分析。於是在相親網站找對象,做了各種數據分析,終於找到了合適的對象。
我覺得在哪裡找對象都可以,主要要知道自己要的是什麼,可以明確方向,或許更容易找到。提槍就上,廢話莫多。
我覺得這是個很有價值的問題啊,甚至可以作為Data Science課的一個course project。怎麼大家都在調侃題主呢?
先從簡單的入手吧:找點贊模式跟自己相似的妹子。
1. Data Collecting and Data Cleaning:
既然樓主用過Scrapy就好辦了。把知乎的上每個女性用戶贊過的回答的URL列表存下來。
2. Recommender System: 不用弄得太複雜。把每個用戶點贊列表和自己的點贊列表做個交集。按照交集的Size由大到小排個序。
大概排在前面的女性用戶三觀會跟自己比較吻合。
題主可以把這個最簡單的給實現了,然後再加別的features(比如分析妹子們的關注列表,甚至在她們的回答、評論)和引入些高級點的模型(XXX Regression, Collaborate Filtering等等)。做好了別忘了把它開源,放Github上與大家分享哦。估計做出來會有不少程序員用,或者往裡面添新features。這事情不靠譜,最多你就做一個無監督的學習,像你提的那樣,用聚類來做。可是我覺得12星座劃分都比這學習出來的聚類靠譜。沒法做監督學習,因為你無法得到訓練集,除非你去另開一個帖子,求助那些通過知乎找到另一半的人,留下他們倆的知乎ID,(可能會有一批喜歡秀恩愛的,不過以為混知乎的經驗來看,都是線下好上了,再來線上秀的,不知道這類算不算無效樣本)當你收集足夠多的樣本之後,你就可以應用監督學習來訓練找對象模型了。不過,建議你最好請愛情顧問,好好諮詢一下,以便於確定特徵向量。所以,對於沒有過對象的程序員,完全不靠譜,就算你有數據集,你能知道哪些特徵向量好使嗎?最後調參數,知道怎麼調嗎?
綜上所述,不靠譜,還是多去勇敢的實戰吧,別整天想有的沒的,機器學習也是需要領域知識的。我覺得可以啊,你通過數據找出最適合你的,但是只有知乎的數據是不全面的,你在知乎上表現出來的喜好性格可能不是一個完整的你,基於這些小範圍的信息得出來的結果可能並不完全適用。
再者就是你數據的處理,演算法的優化,這是個龐大複雜的工程,不是一個人的力量可以完成的,但卻是個可以完成的工程。所以如果哪天大數據發達到可以記錄人的方方面面,並且有合適的演算法找出你的另一半,並通過合理而又不被人們發覺的方式影響你們彼此,讓你們相遇,相愛。那麼那時的計算機可能就是我們的上帝了。而命運也可以從開始就被設定。我覺得能把所有女性爆照收集起來進行面部識別,瓜子臉,大胸都有加分,然後根據地理位置分類。搭個伺服器建個知乎婚戀網,成功當老闆!
就怕網上和現實不一樣啊(逃
承認吧,其實你只是想玩Scrapy和數據挖掘
我只想說聚類分析根本就不靠譜摺疊我吧= =
作為一個文科生完全不能理解程序員的這種思維……
很簡單,請把你們的微信號丟給我╮(╯▽╰)╭
狠生氣的怒答,選擇性失憶,只記得打遊戲,又懶得動腦子,答應人家看電影又不記得,請問怎麼有女朋友?
數據時代,還不學點數據技能怎麼混。不說了首頁數據呈現還沒弄好[佔個位閃┅]
如果你能模擬心動的感覺,我想你就成功了。創新是要鼓勵的,不過要記得千萬別天方夜譚,否則,孤獨終老可不太好,小夥子。
確定不是為了修電腦?
推薦閱讀:
※人工智慧機器翻譯的發展經歷了哪幾個重要階段?
※目前(2017年)機器閱讀技術發展得如何?能達到什麼水平?有哪些應用?
※你所在研究領域(MLCVNLP等AI子領域)在解決什麼問題,最新進展是什麼,有哪些重要文章?
※語音識別中如何提高同音異形字的識別準確率?