BAT 因為伺服器的故障引起過哪些問題?

請問在BAT他們的伺服器是否出現過非常嚴重的問題,如 硬碟壞掉,數據丟失而且無法恢復?

有沒有產生什麼嚴重的後果?

Σ( ° △ °|||)︴ 我的問題是,BAT的伺服器有沒有出現過什麼問題,引起過什麼事故。或者說有什麼現成的案例。。。。。。。。。。o(╯□╰)o


不是壞過,而是每時每刻都有伺服器壞掉。而且有大量機器,你根本不敢重啟,因為重啟了很有可能就起不來了。

關鍵數據代碼都是有備份方案的,熱備+冷備,損壞了,作為 RD 根本沒有感知,OP,SYS 都幫你搞定了。

真正需要關注的是人為事故,比如有人把整個網頁庫刪除了,冷備在一個月之前之類的。


有壞,但你不知道


你們說的都是技術方案,但真實案例是有的:第一屆雙11,淘寶就完蛋啦~

淘寶昨現短暫宕機:有店主誤以為網店被封了 還有這個,2015年1月份的事兒~


這個如果壞掉按照硬碟算的話,每天從數據中心推出一小車壞硬碟。。。


伺服器掛掉什麼的太正常了。

但是各個環節都有各種保障措施:

資料庫有讀寫分離,還有寫庫備份。讀庫掛了無所謂,寫庫掛了趕緊切換;

應用伺服器最簡單了,大量機器,負載均衡。掛了沒事,更新升級重啟也沒事;

機房的話,他們肯定有多個機房,一整個機房掛了也沒事。

所以重要的只讀站點(騰訊新聞之類的),掛了很難感知,層層保障,我感覺很是非常簡單的。

但是涉及交易的業務,資料庫一致性非常重要也很難做。我能想到最難的就是這塊了。


出問題還是有的,比如很多人上自己的貼吧莫名其妙進了錕斤拷吧…


BAT都有幾十萬台伺服器把,掛掉實在是太正常了。都是分散式處理, 負載均衡,掛了還有其他的機器盯著。要是整個集群掛了,那就肯定是人為因素唄,問責。


請自行google raid 集群


t家的遊戲運維,表示每天都會有一些故障,隔三差五就掛一台。由於架構比較好,沒單點,負載均衡,掛個三五台也無所謂,繼續睡覺,第二天再處理。db的話,冷備熱備都有,掛掉自動切換,根本不用擔心。


1、如果是單台機器,估計運行幾年不會出什麼問題,因為機器故障也是一個小概率事件。

2、BAT的後台不是單台伺服器提供服務,而是很多伺服器組成的集群,而且不只是單個集群,會根據用戶訪問的地理位置選擇最優的集群路徑。

3、需要保證用戶在哪裡得到的訪問效果是一樣的,這就需要多個機房的數據同步,這是分散式系統中的數據一致特性。

4、單台機器掛掉不會影響整個集群的運行,這是分散式系統中的高可用特性,在單台機器故障後會進行流量摘除,整個過程是對用戶透明的。


剛在填阿里的簡歷,503了。。。


對單台伺服器來說,每時每刻都會有壞掉掛掉的。只是掛掉壞掉不會影響任何問題,設計本身就包含了對這種情況的思考和處理,永遠不會有單點故障問題。互聯網系統本身設計的時候,故障就是一種常態,對常態要是不能處理,就算不上互聯網(分散式)系統了。


大規模分散式系統的設計需要解決的問題之一就是單點故障


如果不壞,要集群,各種容錯幹什麼


集成商好好乾活的話。換硬碟都是不用重啟的。。。

要知道現在伺服器可用性達到99.99%。。。

每年還有將近一個小時時間是不可用呢。。。

更何況絕大多數都達不到。。。


時刻都有壞的危險。所以要做好預防措施啊,備份啊,報警啊....


可以用概率論來算,假設伺服器廠商號稱的穩定性是3個9(99.9%),100台伺服器一起跑、都不出問題的概率就只有一個9了。10000台的集群,結果是非常不可靠。不光是伺服器,交換機、電源、防火牆之類的,都要做好可靠性設計。

案例可以找工程師回憶錄之類的看看。


每天都有掛掉的,甚至可以說每小時都有。不過,用戶不會感知到啦。


一直都在壞,重要數據都有多副本


簡單點說,從機房來看,有分散式解決方案,有熱備冷備,有集群虛擬化,有存儲虛擬化,有私有雲,有負載均衡。有異地容災。連工廠都必須做到幾台伺服器都雙機熱備,保證24小時不間斷工作。更何況bat的幾十萬。而且bat工程師做維護和系統搭建比硬體廠家牛多了。


BAT伺服器都是由一個個數據中心組成,一個數據中心都是由成千上萬台伺服器組成,時時刻刻都會存在數據丟失,硬碟損壞,或者系統認不到硬碟,不過現在一般都會做raid,即備份,數據丟失系統會自動幫你找回來的,你根本察覺不到


看的少想的多


這就是為什麼要虛擬化啊。


推薦閱讀:

主機與伺服器的區別是什麼?我能改造主機為伺服器嗎?
龍芯為什麼不專門朝Linux伺服器領域發展?
怎麼用個人電腦建伺服器?
部門想購置兩萬四左右的伺服器,有什麼推薦?
工作站和伺服器有什麼不同?

TAG:互聯網 | 騰訊 | 百度 | 阿里巴巴集團 | 伺服器 |