分析、抽象代數這種課對搞 data science 幫助大嗎?

本人是數學計算機雙專業,但是大三想把重心放到計算機上,那樣就不去上實分析和抽象代數了。。。。我現在很確定master或者phd走data science 方向,所以在糾結上抽象代數,拓撲,這種課有沒有用。


我啰嗦幾點吧,有點離題:

題主你自己也說了是數學專業的學生,在我看來,抽代和實分析是數學專業的質變課,學過這兩個才算是進了近代數學的門。如果沒有學過這兩門,那麼數學專業很多後續課是很難學明白的;硬上也不是不可以,但是會很難受。

我在另一個答案里說過,理科轉行的大忌就是學理科的時候覺得自己不需要搞那麼明白,學別的時候又覺得自己理論底子好不那麼在意,最後耽誤了自己。

再說了誰知道你以後會走哪一條路呢,你在確信也抵不過命運的安排。一旦數學專業寫在了你的簡歷上,以後的工作中那些對數學要求比較高的部分可能都會沖你而來的。所以既然在學數學,就學好吧。


你問我有用沒有用,那當然說有用啦。

舉個栗子:https://izbicki.me/blog/hlearn-cross-validates-400x-faster-than-weka。一句話概括就是:有人用Haskell寫了個比Weka快400倍的樸素貝葉斯cross validation,然後發到了ICML13上:https://izbicki.me/public/papers/icml2013-algebraic-classifiers.pdf 。

具體細節是這樣的:有人在用haskell寫一個機器學習庫的時候發現,因為樸素貝葉斯在不同樣本點上訓練出來的模型構成了一個群,可以很容易地定義加法運算合併起來,免去了重複訓練的需求。於是在做k-fold cross validation的時候只需要在每一折上單獨訓練,從而把複雜度從O(kn)降低為O(n)。如果能發現其他模型有類似的代數性質,也可以使用同樣的方法降低cv的開銷。

不過作者認為,他發現這個性質主要是因為haskell語言本身的抽象性更容易把這樣的代數性質給表現出。

同一個作者的這篇小文章也挺有意思:https://izbicki.me/blog/gausian-distributions-are-monoids


實分析一定要上。基於測度的概率論哪個統計系PhD都是必修吧……

抽代和拓撲就隨便了,統計即使用到也頂多作為單開一門課前兩周的內容,到時候找本教材現補也行。


現在數據分析中很火的一種方法是拓撲分析,其基礎是代數拓撲。不懂代數,也不懂拓撲,基本抓瞎。另外,不學實分析,大概都不好意思說自己是數學專業的吧。

我的看法是,計算機技能是可以短時間來補的,數學技能的基礎只能在學校完成。


抽象代數非常有用,而且對於計算機裡面的組合數學,如果你知道抽象代數,裡面有些點就像降了一個維度看問題。在其他方面,比如密碼學,有了抽象代數,再學代數數論就好多了。

另外我看你這麼問,感覺明明是自己在時間安排與學習上遇到了困難,才會開始用「有沒有用」來做判斷。也就是你需要加強時間的統籌和安排。

但是你都是要做Phd的人,而且還是數學計算機雙學位,那就把他們都搞定吧,先後順序不重要,反正都要學。不要說,這個沒有用所以我不學,這是一種逃避困難的借口,不過如果你糊弄過去其實也沒關係。你都說要做Phd了,反正欠下的債以後都會加倍還的。

最不濟你看我一計算機小碩士還是業餘時間不務正業玩點口譯的人都學過抽象代數。您這種以數據科學為藍本的有志之人,怎麼也得碾壓掉一枚碩士才是……


看了樓下的回復剛剛,不知樓下度過Rick Durrent的 Probability: Theory and Example 沒,讀了這個你就知道學好實變多重要了。

個人覺得你還是測度論和勒貝格積分學好吧,一勞永逸,個人覺得本科沒學過實變真的不能說自己是數學系的。

抽帶和拓撲先算了吧

data science的話要用高等概率論的,該等概率論要用測度論所以你要上本科的實分析,另外data science需要optimization的東西也用實分析,只要以後做跟數學哪怕只有一點相關的都用實分析。。。

抽代和拓撲個人感覺不是直接相關吧,我覺得用剩下的學分都修統計的課和計算機的課會更好

每個人的路自己走,你管人家鄙視不鄙視幹什麼,學好你自己的就行了


就連我這個搞物理的都覺得抽代是一把鋒利無比的武器,切的開量子力學電動力學廣義相對論等一切硬石頭.......


本科的一般拓撲,測度,抽代是三大基石,差一門後面學代數幾何,隨機分析就想吐


先佔坑,回頭填。

Short Version:百分之90沒用。


data science從業者絕大部分都是在call別人寫好的函數好吧

很多學物理化學的也在做 也不乏做的不錯的


不重要,學術上有用group based diffusion kernel 做計算模型的,但是數據必須要滿足群結構,spectral learning 中做tensor decomposition 會用到一些代數幾何工具 ,但這些這些在學術界都是冷門apporach想用到工業界就更不現實了.其實你做data science 應用性這麼強的東西分支連測度語言都不需要懂.


推薦閱讀:

喜歡量化自己的生活是一種什麼體驗?
大數據網站有哪些?
需要做財務數據分析,有什麼好用的工具?
遊戲修改器的製作原理?

TAG:數學 | 數據 | 數據分析 | 數學建模 | 計算機科學 |