用R語言的公司多嗎?

用R語言的公司多嗎?用R做數據分析或者數據挖掘的。本科生,想自學,R和Python都學了一點點。本科統計學。R用起來順手點..沒其他編程基礎...想知道市場人才需求方向。初次提問...希望有人給點解答啦!謝謝


之前在艾瑞諮詢實習的時候,我的leader(職位是高級數據挖掘工程師)跟我說,現在在企業中,R主要是用來做可視化(ggplot2確實強大),做建模分析主要是用Python,數據預處理主要是用SQL。他解釋到:R跑的慢,而且對於演算法的優化很有限(因為已經封裝好了)。用Python做建模分析,主要是從底層編寫演算法,這樣可以針對具體的問題,對演算法進行優化。再加上Python相對R而言跑得更快,所以Python在建模方面更有優勢。


嘗試回答一下,和大家探討。

互聯網行業計算機出身的人比較多,團隊里程序員同事一般會在數據分析師的周圍,一些數據需求也會由這些程序員導出。由於計算機專業的人偏好Python,所以Python在數據導出這部分佔了很大的比重。當然前提是SQL熟悉的情況下,使用Python結合SQL寫腳本導出數據。Python功能太強大,就不一一說明了,下面說說R比較厲害可用的地方。

R主要是統計出身的人喜歡用,但是在互聯網公司,這個真的是小眾,技術規定也不希望團隊使用,個人使用就沒問題。R在數據分析師平時的工作中,主要是統計建模,和可視化處理。由於rmarkdown能寫作自動報告,因此很適合用作自動化報表的開發,結合Linux環境crontab調度,可以很好地實現自動報表的功能。

擴展來說,R自動報表和可視化的能力,也很適合搭建在線模型監測系統和AB測試模型系統。比如說每天會在伺服器里跑一個統計模型,每日更新交易數據後,第二天調度更新模型。作為統計系出身的你,應該很清楚每個模型都需要做完備的假設檢驗,而這部分最好同時結合可視化的報告與檢驗的值去觀察下結論。這時候,由於自動分析報告已經就緒,你完全可以花幾分鐘觀察一下,再決定是否去調整某些參數。這裡的每日,可以頻繁到每小時甚至更短。當然,報告每天發一次估計就足夠了。

AB測試其實也主要是利用了自動報表,每天自動分析測試結果。結合模型方法,會有相當好的監測效果。更加統計的方面,是對測試用戶的均勻抽樣,這個抽樣是否均勻,也是可以可視化報告展現的。對應不同的測試要求,抽樣頻次同樣可以不同。真實情況中,測試抽樣用戶集的情況,直接影響是否正確實驗的成敗,我認為是非常非常重要的。不然,AB測試的結果不會可靠。


python+R+SQL/NoSQL,數據分析師的標配吧


正好在一家互聯網公司用R做數據分析,就來回答一下吧。

之前一直用R+SQL+excel來做數據分析,一些涉及到統計模型的東西用R做確實很方便,用SQL做初步過濾,用R做數據清洗和預處理,再用R邊探索數據邊建模,模型跑完後結果再寫回到資料庫里。模型測試成熟後可以用python或者R寫腳本,做成自動化分析,看個人喜好。

但是後來部門調整後,需要接觸hadoop平台上的其他業務數據,(沒錯就是大數據&>_&<)每次抓的數據量比以前大很多。用R做的時候內存吃不消。這時候就接觸到spark,Spark是支持python的,這時候python 就有用武之地了。對的,大數據平台下python使用得更多一些。

至於中小量的數據處理和分析,個人覺得,用R或python都可以。因為都是載入在單機內存中運算的,只要內存吃得消,都能算。但是python作為一門編程語言確實和其他語言平台結合地更好一些。

互聯網行業行業本身的行業風格是偏向自由靈活化,只要能分析出合理需要的結果,是不太在意你用R用python用SAS的(SAS可能會在意,畢竟是需要花錢購買的,成本在那裡)。

金融行業呢,不太了解,據說還是SAS,也見到過需要R的。

以上


用R做數據分析和數據挖掘的電子商務公司還是比較多的,比如阿里、京東、1號店等,分析團隊中部分同事會使用R作為分析工具。

分析挖掘工具有很多,R是其中之一。

R語言環境很好搭建,只要一台內存較大的Linux伺服器就行,在上面安裝 RStudio Server(支持多人通過瀏覽器界面登錄使用),並且使得該環境與資料庫伺服器通信即可(可讀可寫)。

基本流程是,從資料庫載入數據到R環境,分析/挖掘在R中完成,並且可將結果回寫到資料庫中。

這是針對數據分析和挖掘挖掘而言。

不過,用R來做報表和報告是不合適的,用來作為抓取數據的程序也是不合適的,這些都是開發工作,請交給程序員來完成(數據分析師可以作為產品設計師/數據產品經理提出需求)。

R,是統計分析的語言,是「分析」工具,不是「開發」工具!


上面的回復多數是從數據分析的角度評論R,我想從數據分析之後的角度comment一下:

我們數據分析之後需要將分析出來的結果做成報告( 或者是模型,儀錶盤等), R做報告的時候可以用R markdown,python可以用IPython。如果是做模型或者儀錶盤的話,雖然R也有很多包可以完成這個任務,但是你會發現python會有更多resource可以融合,使用更靈活,而R里的各種包里function是固定好的,相對更依賴製作package的作者。總的來說,用R做數據分析和報告都很便捷,需要熟練掌握,在這個基礎上儘力學好python。這樣的話在以後做任何數據產品的時候將會更得心應手。


自己一直是R為主,python為輔的搭配。過去做中低頻量化交易策略的研發,R處理起來沒問題。16年加入目前的公司後,我們做了一個主打銀行理財的數據平台,其中有不少涉及較複雜統計分析模型但更新頻率較低(非實時更新,一天或者每隔一兩個小時更新一次)的模塊,都應用R來實現,十分的便利。此外,很多回答里也說到了,R可以方便地開發可視化原型和撰寫技術文檔/工作文檔,這點我們也大量地應用在了工作中。再者,搭建RStudio server版本,並搭配git,可以方便地開展協作。

再說說R的劣勢。R的最大劣勢是天然的,畢竟不是編程語言,因此在效率極端重要的場合,就不太適用。另外,由於R只能單線程,且每個實例佔用的內存都不小,因此難以應用於並發的場景。

以上供參考。


先說點虛的,R語言從世界編譯語言排行44上升到12名;

然後,以我目前了解,無論是電子商務、通信、金融都有很多實用R,因為它的開源性以及眾多包和介面,使得很多人都在實用。

最後,前幾天看到一些JD,上面寫著實用R語言18個月,薪資15-25K。


R和Python都要會就對了!


公司大了,用什麼的都有,英雄不問出處,好的分析結果也不局限與某一工具與語言,追隨趨勢的一個好處就是有問題的時候更容易搜到答案。回歸到問題本身:

  1. R開源且免費,所以很多公司把R集成到了自己的系統、平台、產品中,例如最新版的SQL Server和Azure等;
  2. CRAN和Github上有很多package,這些package提供了一些常用軟體的R介面,使得R具備了讀取、處理相應格式數據的能力,往往具有1+1&>2的效果,例如一些GIS軟體和Weka等;


想問下樓主,現在是什麼情況,有沒有什麼好的學習方法推薦


正準備學習R,

python之前就會


分析用r,開發用c sharp,做量化的


在美某對沖基金 Quant主要用R IT用Python的多


留名


R vs python 各有長短,學起來了,很多兩者通用。


用很多


R是一款效率很高的開源軟體。在編程語言中排名在前五(忘了在哪個網站上看到的數據)

我們公司是這樣的,你樂意用什麼你就用什麼。同時,給團隊也是這樣建議的,你覺得你牛X,只要能完成任務,好,用EXCEL我也不會反對的。我們是一家商業智能的公司,R普遍都會用,一半人都是非常精通的(就8個人的團隊),畢竟都是統計學出身。


用R的人還蠻多的。

數據分析師這個工作性質,大家協同作戰的場景少,多數情況下是每個人一個課題然後自己研究自己的,基本上是各種工具都有,不太可能形成一個公司的分析師統一用一種工具。

如果說一個公司的分析師一種工具的使用佔比達到60%即認為該工具為這個公司的工具的話,排名應該是excel、sas、r或者python....


我本科也是統計學,不錯我們主要學spss和sas,r是自學的


推薦閱讀:

SVD 降維體現在什麼地方?
随机梯度下降是坐标下降的一种?
國內真正的大數據分析產品有哪些呢?只求乾貨爆料,不要廣告商!
最近开始学习机器学习,不知道看哪本书比较好(PRML ESL or MLAPP)?
如何評價Kaggle舉辦的Rental Listing Inquiries比賽?

TAG:Python | 數據挖掘 | 數據分析 | 數據分析師 | R編程語言 |