BAT 因為伺服器的故障引起過哪些問題?
01-07
請問在BAT他們的伺服器是否出現過非常嚴重的問題,如 硬碟壞掉,數據丟失而且無法恢復?
有沒有產生什麼嚴重的後果?Σ( ° △ °|||)︴ 我的問題是,BAT的伺服器有沒有出現過什麼問題,引起過什麼事故。或者說有什麼現成的案例。。。。。。。。。。o(╯□╰)o
不是壞過,而是每時每刻都有伺服器壞掉。而且有大量機器,你根本不敢重啟,因為重啟了很有可能就起不來了。
關鍵數據代碼都是有備份方案的,熱備+冷備,損壞了,作為 RD 根本沒有感知,OP,SYS 都幫你搞定了。
真正需要關注的是人為事故,比如有人把整個網頁庫刪除了,冷備在一個月之前之類的。有壞,但你不知道
你們說的都是技術方案,但真實案例是有的:第一屆雙11,淘寶就完蛋啦~淘寶昨現短暫宕機:有店主誤以為網店被封了 還有這個,2015年1月份的事兒~
這個如果壞掉按照硬碟算的話,每天從數據中心推出一小車壞硬碟。。。
伺服器掛掉什麼的太正常了。
但是各個環節都有各種保障措施:
資料庫有讀寫分離,還有寫庫備份。讀庫掛了無所謂,寫庫掛了趕緊切換;應用伺服器最簡單了,大量機器,負載均衡。掛了沒事,更新升級重啟也沒事;機房的話,他們肯定有多個機房,一整個機房掛了也沒事。
所以重要的只讀站點(騰訊新聞之類的),掛了很難感知,層層保障,我感覺很是非常簡單的。但是涉及交易的業務,資料庫一致性非常重要也很難做。我能想到最難的就是這塊了。出問題還是有的,比如很多人上自己的貼吧莫名其妙進了錕斤拷吧…
BAT都有幾十萬台伺服器把,掛掉實在是太正常了。都是分散式處理, 負載均衡,掛了還有其他的機器盯著。要是整個集群掛了,那就肯定是人為因素唄,問責。
請自行google raid 集群
t家的遊戲運維,表示每天都會有一些故障,隔三差五就掛一台。由於架構比較好,沒單點,負載均衡,掛個三五台也無所謂,繼續睡覺,第二天再處理。db的話,冷備熱備都有,掛掉自動切換,根本不用擔心。
1、如果是單台機器,估計運行幾年不會出什麼問題,因為機器故障也是一個小概率事件。2、BAT的後台不是單台伺服器提供服務,而是很多伺服器組成的集群,而且不只是單個集群,會根據用戶訪問的地理位置選擇最優的集群路徑。3、需要保證用戶在哪裡得到的訪問效果是一樣的,這就需要多個機房的數據同步,這是分散式系統中的數據一致特性。
4、單台機器掛掉不會影響整個集群的運行,這是分散式系統中的高可用特性,在單台機器故障後會進行流量摘除,整個過程是對用戶透明的。
剛在填阿里的簡歷,503了。。。
對單台伺服器來說,每時每刻都會有壞掉掛掉的。只是掛掉壞掉不會影響任何問題,設計本身就包含了對這種情況的思考和處理,永遠不會有單點故障問題。互聯網系統本身設計的時候,故障就是一種常態,對常態要是不能處理,就算不上互聯網(分散式)系統了。
大規模分散式系統的設計需要解決的問題之一就是單點故障
如果不壞,要集群,各種容錯幹什麼
集成商好好乾活的話。換硬碟都是不用重啟的。。。
要知道現在伺服器可用性達到99.99%。。。每年還有將近一個小時時間是不可用呢。。。更何況絕大多數都達不到。。。時刻都有壞的危險。所以要做好預防措施啊,備份啊,報警啊....
可以用概率論來算,假設伺服器廠商號稱的穩定性是3個9(99.9%),100台伺服器一起跑、都不出問題的概率就只有一個9了。10000台的集群,結果是非常不可靠。不光是伺服器,交換機、電源、防火牆之類的,都要做好可靠性設計。 案例可以找工程師回憶錄之類的看看。
每天都有掛掉的,甚至可以說每小時都有。不過,用戶不會感知到啦。
一直都在壞,重要數據都有多副本
簡單點說,從機房來看,有分散式解決方案,有熱備冷備,有集群虛擬化,有存儲虛擬化,有私有雲,有負載均衡。有異地容災。連工廠都必須做到幾台伺服器都雙機熱備,保證24小時不間斷工作。更何況bat的幾十萬。而且bat工程師做維護和系統搭建比硬體廠家牛多了。
BAT伺服器都是由一個個數據中心組成,一個數據中心都是由成千上萬台伺服器組成,時時刻刻都會存在數據丟失,硬碟損壞,或者系統認不到硬碟,不過現在一般都會做raid,即備份,數據丟失系統會自動幫你找回來的,你根本察覺不到
看的少想的多
這就是為什麼要虛擬化啊。
推薦閱讀:
※主機與伺服器的區別是什麼?我能改造主機為伺服器嗎?
※龍芯為什麼不專門朝Linux伺服器領域發展?
※怎麼用個人電腦建伺服器?
※部門想購置兩萬四左右的伺服器,有什麼推薦?
※工作站和伺服器有什麼不同?