BAT 因為伺服器的故障引起過哪些問題？

01-07

請問在BAT他們的伺服器是否出現過非常嚴重的問題，如硬碟壞掉，數據丟失而且無法恢復？
有沒有產生什麼嚴重的後果？
Σ( ° △ °|||)︴我的問題是，BAT的伺服器有沒有出現過什麼問題，引起過什麼事故。或者說有什麼現成的案例。。。。。。。。。。o(╯□╰)o

不是壞過，而是每時每刻都有伺服器壞掉。而且有大量機器，你根本不敢重啟，因為重啟了很有可能就起不來了。

關鍵數據代碼都是有備份方案的，熱備+冷備，損壞了，作為 RD 根本沒有感知，OP，SYS 都幫你搞定了。

真正需要關注的是人為事故，比如有人把整個網頁庫刪除了，冷備在一個月之前之類的。

有壞，但你不知道

你們說的都是技術方案，但真實案例是有的：第一屆雙11，淘寶就完蛋啦~

淘寶昨現短暫宕機：有店主誤以為網店被封了還有這個，2015年1月份的事兒~

這個如果壞掉按照硬碟算的話，每天從數據中心推出一小車壞硬碟。。。

伺服器掛掉什麼的太正常了。

但是各個環節都有各種保障措施：

資料庫有讀寫分離，還有寫庫備份。讀庫掛了無所謂，寫庫掛了趕緊切換；

應用伺服器最簡單了，大量機器，負載均衡。掛了沒事，更新升級重啟也沒事；

機房的話，他們肯定有多個機房，一整個機房掛了也沒事。

所以重要的只讀站點（騰訊新聞之類的），掛了很難感知，層層保障，我感覺很是非常簡單的。

但是涉及交易的業務，資料庫一致性非常重要也很難做。我能想到最難的就是這塊了。

出問題還是有的，比如很多人上自己的貼吧莫名其妙進了錕斤拷吧…

BAT都有幾十萬台伺服器把，掛掉實在是太正常了。都是分散式處理，負載均衡，掛了還有其他的機器盯著。要是整個集群掛了，那就肯定是人為因素唄，問責。

請自行google raid 集群

t家的遊戲運維，表示每天都會有一些故障，隔三差五就掛一台。由於架構比較好，沒單點，負載均衡，掛個三五台也無所謂，繼續睡覺，第二天再處理。db的話，冷備熱備都有，掛掉自動切換，根本不用擔心。

1、如果是單台機器，估計運行幾年不會出什麼問題，因為機器故障也是一個小概率事件。

2、BAT的後台不是單台伺服器提供服務，而是很多伺服器組成的集群，而且不只是單個集群，會根據用戶訪問的地理位置選擇最優的集群路徑。

3、需要保證用戶在哪裡得到的訪問效果是一樣的，這就需要多個機房的數據同步，這是分散式系統中的數據一致特性。

4、單台機器掛掉不會影響整個集群的運行，這是分散式系統中的高可用特性，在單台機器故障後會進行流量摘除，整個過程是對用戶透明的。

剛在填阿里的簡歷，503了。。。

對單台伺服器來說，每時每刻都會有壞掉掛掉的。只是掛掉壞掉不會影響任何問題，設計本身就包含了對這種情況的思考和處理，永遠不會有單點故障問題。互聯網系統本身設計的時候，故障就是一種常態，對常態要是不能處理，就算不上互聯網（分散式）系統了。

大規模分散式系統的設計需要解決的問題之一就是單點故障

如果不壞，要集群，各種容錯幹什麼

集成商好好乾活的話。換硬碟都是不用重啟的。。。

要知道現在伺服器可用性達到99.99%。。。

每年還有將近一個小時時間是不可用呢。。。

更何況絕大多數都達不到。。。

時刻都有壞的危險。所以要做好預防措施啊，備份啊，報警啊....

可以用概率論來算，假設伺服器廠商號稱的穩定性是3個9（99.9%），100台伺服器一起跑、都不出問題的概率就只有一個9了。10000台的集群，結果是非常不可靠。不光是伺服器，交換機、電源、防火牆之類的，都要做好可靠性設計。

案例可以找工程師回憶錄之類的看看。

每天都有掛掉的，甚至可以說每小時都有。不過，用戶不會感知到啦。

一直都在壞，重要數據都有多副本

簡單點說，從機房來看，有分散式解決方案，有熱備冷備，有集群虛擬化，有存儲虛擬化，有私有雲，有負載均衡。有異地容災。連工廠都必須做到幾台伺服器都雙機熱備，保證24小時不間斷工作。更何況bat的幾十萬。而且bat工程師做維護和系統搭建比硬體廠家牛多了。

BAT伺服器都是由一個個數據中心組成，一個數據中心都是由成千上萬台伺服器組成，時時刻刻都會存在數據丟失，硬碟損壞，或者系統認不到硬碟，不過現在一般都會做raid，即備份，數據丟失系統會自動幫你找回來的，你根本察覺不到

看的少想的多

這就是為什麼要虛擬化啊。