如何從股票數據中預測股票漲跌？

01-05

請數據挖掘的高人回答，如何從股票數據中預測股票漲跌？數據來源包括wind、網友投票等等。個人覺得，這個領域很好玩。

股票9原則.

1.業績預增

2.中小盤

3.上方套牢盤少的

4.大股東大幅增持的

5.跌破員工持股價的

6.熱門行業計算機軟體傳媒電子醫藥

7.熱門行業

8傳統行業轉型

9.站上30日均線的。

我告訴你，這樣是不行的!

什麼國外的趨勢，全是騙人的，忽悠的好題材。

我04年學人工智慧的時候同學的畢業項目就是，在他之前的研究多了去了。這個研究不是最近才有的，少說20年了。

1）能研究出來悄悄地自己買股票不就行了，還需要做個網站叫你去點？

2）軟體開發能力稍微強一點的自己爬微博數據不就行了，還需要做個網站叫你去點？連文本分析都不會還在那裡吹海量數據挖掘，我也是笑死了。

回到正題，我只說3點。

1）說股價不能預測的都是傻逼。

2）說股價可以預測的都是裝逼。

3）能夠預測股價的不會告訴你。

雖然說不能靠大數據來準確預測股市，但是可以用來參考呀！配合自己的經驗和感覺，把概率提高也不失為一種好方法。我做了個軟體,用好幾年的數據來做分析，現放到網上，歡迎大家來提意見。舉個例子吧，統計過去200天的數據，發現股票如果股票現價距20天前收盤價已經上漲了40%，其5天後下跌3%的概率高達80%，這類股票我就不去碰。網址 http://www.kaixinlc.com

我覺得單純的預測股價有意思但意義不大，比如預測明天會漲，那怎麼指導操作呢。如果早上買入跌了，後來收盤相對昨天是盈利了，但這種預測不能指導實盤啊。

所以我覺得得配合盈虧比來講會更有說服力，優礦上最近看到一篇用神經網路預測股價的，勝率勉強跑贏拋硬幣，看看吧。

Python機器學習 - 擬合具有非平穩特徵的神經網路對股票進行預測

這裡提到了預測，你想到了什麼。當然是人工智慧的基礎知識：概率。

概率是我們需要掌握的重要知識，導致認知偏差的重要原因就是相信直覺，而忽視概率。

當我們運用概率知識，了解到這件事情的真實難度，就會知道有些事情不在我們的能力範圍之內，早早地避開它們，顯然是明智的選擇。

金融學裡，有一個假說，叫「隨機漫步假說」（Random walk hypothesis）：

這個假說認為，股票市場的價格，是隨機漫步模式，因此它是無法被預測的。

這是什麼意思呢？

就是說無論你是誰，預測出股票價格的概率是無窮趨近於50%，

50%是什麼意思呢？意思就是「你實際上根本猜不準」，預測正確與否，實際上完全靠運氣。跟拋硬幣一樣。

根據隨機漫步假設，對於短期價格預測，預測下一分鐘，或者下一小時，甚至第二天的價格，本質上來看，無論用什麼樣的理論和工具，最終的結果不會優於「拋硬幣撞大運」的結果。

到這來，你是不是很悲傷？本來想的股票可以預測，你卻告訴我無法預期。

但是，好消息來了！

雖然短期股票無法預測。但是，對於長期價格的預測，實際上是很容易的，因為「基本面」就放在那裡：股價最終體現的是企業價值的增長。

李笑來在《財富自由之路》中給出了股票預測的結論：

1. 短期價格預測是不可能的；

2. 長期價格預測是很可能的；

3. 預測時間期限越長，預測難度越低……

這裡的長期是指你至少持有該股票5年以上才算長期，一切不屬於「長期價值」的東西，都可以算作是「誘惑」。可以說短期的都是投機，而長期的才是投資。

現在我們已經知道股票長期可以預測，那麼一個顯然的問題是：市面上有那麼多家上市公司，而你的資金又是有限的，究竟該買哪幾家公司的股票，才能讓你未來5年賺錢的概率最大？

這個問題我在這裡有回答：猴子：哪些美股值得持有 10 年？

你問的是核心問題，知道的人必須得不告訴你。但是原理可以分享，首先預測如同天氣預報只是反饋一個概率，所以如果你的體系不是適用於概率的投資體系，那麼預不預測對你幫助都不大。

反之如果你使用的投資體系適用於概率，那麼你就必然已經了解，所謂的概率必然由過去的歷史數據產生，而且你也會知道這個概率怎麼會不斷變化，同時因為你的樣本太小而有所偏差。

如果我剛說的你都了解的話，那麼相信你至少會有一個線索去幫你找到答案。

待更新

去股吧，體味下輿論傾向，然後反向操作

rcurl抓取問財財經搜索網頁股票數據

問財財經搜索是同花順旗下的服務之一,主要針對上市公司的公告、研報、即時新聞等提供搜索及參考資料。相對於其他股票軟體來說，一個強大之處在於用自然語言就可以按你指定的條件進行篩選。而大部分現有的行情軟體支持的都不是很好，寫起來就費盡心思，還不一定能行。

然而問財有一個缺陷在於它只能獲取一天的股票相關信息。如果，我們希望實現抓取一段時間的股票歷史信息，就要通過網頁批量抓取。

事實上，我們可以通過製作一個爬蟲軟體來自己定義時間日期和搜索的關鍵詞，並且批量下載一定日期範圍的數據。

我們以抓取每天的收盤價大於均線上股票數目為例子，用r來實現抓取：

例如需要獲取10月12日的數據，在問財里輸入下面的關鍵詞即可

查看搜索結果鏈接，我們可以看到關鍵詞在鏈接中的顯示規則

因此，我們在r中可以通過製作一個時間段的偽鏈接來向伺服器不斷發送搜索請求，從而實現一段日期數據的批量抓取

url=paste("股票 - 問財財經搜索",as.character(as.Date(i, origin = "1970-01-01")) ,input2)

然後，我們查看其中一天的網頁源代碼，可以找到對應股票數據的xml源碼

因此，可以通過編寫一個html_value 函數來獲取這個xmlValue

xpath &<- "//div[@class="natl_words long_words"]/span[@class="natl_num"]"

html_value &<- function(url,xpath){

webpage &<- getURL(url)

webpage &<- readLines(tc &<- textConnection(webpage)); close(tc)

pagetree &<- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)

value &<- getNodeSet(pagetree,xpath)

##i &<- length(value)##統計滿足條件的值個數，一般情況為1

# value1 &<- xmlValue(value[[ 1]])

# value2 &<- xmlValue(value[[ 2]])

# value3 &<- xmlValue(value[[ 3]])

# value4 &<- xmlValue(value[[ 4]])

value1=character(0)

for(i in 1:length(value))value1[i] &<- xmlValue(value[[ i]])

return(value1)

}

然後封裝成一個函數，就可以任意下載一段時間內幾個關鍵詞所對應的股票數據了。

最後可以將爬取到的數據批量輸出到一個excel文件中，從而方便後續的分析。

文章寫得一般，大家見諒！有問題歡迎共同探討交流！

http://y0.cn/bigdata (二維碼自動識別)

rcurl抓取問財財經搜索網頁股票數據

只通過對股票歷史價格做分析來預測未來走勢的方法，叫做技術分析。技術分析只在市場不夠透明的情況下可以實現盈利。

真搞預測，就需要牽扯一大門學問叫做定價。怎麼定價，可以學習計量經濟學來入門。

另外說一句，天花亂墜的數據挖掘在經濟領域裡邊有時候是站不住腳的。因為數據挖掘演算法本身並不能告訴你，兩個存在強相關性的變數之間是否真的存在因果關係。所以強可解釋性是經濟學模型的一個重要要求。

中國的股市，按照這種方法預測基本不可能。

靠預測做股票，安全邊界太低，有賠有賺，只能靠投資組合行業配置來降低風險，不推薦單純靠預測重倉持有一兩隻股票。

有個裝逼的網站在搞 P quant 形態匹配來預測股價走勢。叫逼格子金融 http://www.bigazi.com 看看他們準不準。

上面很多人說不可以，實際上，通過股票數據預測漲跌，是可以的。已經有很多人正在這麼做，我們團隊，也是其中一隻。

今天我們剛剛拋出一半倉位的300042，就是這麼算出來的。統計分析真的可以幫到我們賺到錢。

前提是，你認為這樣是可能的，你才會去找出辦法，然後你得有數據，最好會數學和編程。

我再舉個具體例子，日內成交量是可以用數學方法預測的，比如早上10點，你就可以大概知道了今天一天的成交量，成交量又是和漲跌密切相關的，那麼你就知道今天手上這隻股是拋還是繼續買入了。我們網站就有我們用的股票數據，有興趣可以去看看。

Anything is possible if you think it possible

A股市場的股民和私募影響著我國的資本市場，投資成為每個人財富增值的一個渠道，越來越多的人隨著國家的政策導向發展逐漸的投資，A股市場則是投資者一個巨大的搖籃，裡面可能會出現投資界的黑馬，也會早遇到無情的下跌，甚至暴跌，那麼股民就需要一個為自己保駕護航的一個投資決策，而量化投資正好解決了這一點難題。

在量化投資正好可以簡單的來說就是數據化統計出來的一個比較有對比性的一個模型，主要是藉助計算機科技的程序來實現投資者理想的投資渠道的一個平台，這個就是大數據，那麼大數據對我們有什麼影響呢，從我們的嘗試和實踐的證明來看，把互聯網大數據的相關信息和挖掘技術用在對沖基金、和數據量化投資戰略上的方法是可行的，而在大數據量化裡面，不光要看來那個戶啊的歷史的數據，而且還有考慮量化認知的東西，還要考慮交易對手或者是資本市場。

因為現在不是一個人在玩這個遊戲，中國是上千萬的人來做這個市場，在這幾千萬怎麼相互的作用是非常的複雜的，不是金融工程、金融數學用固定的模式就可以解決的，在大數據量化的領域，目前對投資者量化是一個熱點，現在很多的機構也是有自己的量化方法，在其中的一個趨勢是把現在的行為和情緒量化起來放在裡面，看看作用怎麼樣，如果按照大數據的一個演算法來獲取信息，那麼獲取精準信息的成本將會大幅的下降，而且還會使獲取信息的層面更加的全面，在獲取信息的成本降低，大家掌握了更多的信息，其結果就是市場波動率就會下降，在大數據出現之後會抬高對沖基金門檻，隨著大數據技術的發展，你想獲取信息的渠道必須要投入更多的成本和更多的技術，從而會提高行業的門檻，但是更專業的技術力量和更強的公司可能會壟斷更多信息，導致行業出現洗牌。

而我們就拿股票來說，大數據的交易主要的優勢就在於積累了大量真實的股票價格的走勢，包括個股的量化指標，最高開始用大數據量化分析的行情軟體就當屬華爾通了，現在市面上多數的行情軟體大部分都是採用比較老式計算方法，沒有太多的創新和突破，計算出來的個股行情雖然來說還差不多，但是論準確度來講，還是不夠的，華爾通量化的大數據正好解決了這一難題，這也是該平台創新的結果，其實行業一直在發展，也一直在不斷的創新，創新催生出新的平台達到了技術的進步。

但是不管技術有多先進，數據有多精準，真正決斷的還是你自己，是否投資看自己的決策拿捏的準不準。

股票數據的核心在於股價。對股價的分析非常複雜。五日均價、十日均價反映出來是均線。當日的股價數據反映出來是K線。炒股不難。會看K線和均線是極其重要的，其他的外部數據都是參考，而且可能造成誤導。不過K線也能被莊家用來騙線，需靈活識別。

九月二十六日沙河股份開始連續的，強勁的大陽線行情。

金融分析師/預測股價公式：

P=D/（C-G）

P=每股股價

D=每股股息

C=企業的資本成本

G=預計的長期增長率

有，但市面上真正有技術含量的不多，高手在民間。