「6·23 工行網路系統全國癱瘓」到底是什麼原因?是對資金量縮緊的過激反應么?
小白題主謝謝大家的耐心回答,之前過度揣測了。
難得有個問題我能回答得比絕大部分人都好,難得周日有點時間,看到網上很多錯誤的評論,甚至還有說」工行停機就是為了對抗央行「,」工行沒錢了,系統弄出問題,讓大家拿不了錢「這種無稽之談,從技術角度說說銀行電腦系統出故障相關的知識吧。
為了吸引大家有耐心看這篇超長回答,先自我吹噓一下:有幾年時間我就是專門處理這種大規模停機的問題,過程總是那麼驚心動魄。當年全國各地的IT管理也沒現在這麼正規,我手上的權力大得恐怖,不少銀行的省行核心小型機我都可以root登錄(這不是不規範,因為我乾的就是root的事),如果那時候對社會不滿,處心積慮幹掉幾個省的數據不是什麼難事。你說有備份?那也是我負責的啊。醫生當殺手是妥妥的,會救數據的一定知道怎麼幹掉數據最爽。救數據困難,幹掉數據還不容易,而且可以幹得連我自己都救不回來。
本文讀者對象是非IT人員或者沒有銀行運維經驗的程序猿,其實下面這些我說的對於系統運維人員都是常識,很多術語也為了遷就非專業人士略不嚴謹(比如把應用稱為程序等),但意思大致如此,可能有遺漏,但一定沒胡編。
插入一個後記:為了更清晰的說明問題,這篇文章從第一稿到現在,作了很多的改動。後來發了在知乎日報的微博上 (知乎日報的微博 新浪微博),被轉了一千多次和幾百個評論。基於我的虛榮心,以及擔心文章中有不對的地方誤導大家,今晚把所有的評論和轉發都看了一遍。結果令我很欣慰,基本沒硬傷,還得到好多苦逼IT運維同行的讚賞,說簡直是心聲和都是真實寫照。有些言之有物的建議我也修改到了文章中了,在這裡一併感謝。
當然也有人說一些沒根據的批評風涼話,這個也沒什麼,早就習慣了,永遠都是動嘴批評的比做實事的多。他喵的,還有一些我帶過的徒子徒孫沒認出獅子的巨爪就算了,居然也給我差評,好傷心。請各位說沒幹貨的請再看看前一段的這篇文章的讀者對象。插完了。
哎,想起一些補充一些,看到一些網上評論的錯誤也再補充一些,越寫越長了。大家沒耐性的話,也只能慢慢一條一條看,不能直接跳到最後啊,哈哈哈哈。
先說結論,我對周日工行部分地區不能營業的看法:就是一次普通的中等規模的系統故障,別多想了。
1. 工行並沒有全國癱瘓,只是有部分省出問題而已,很多業務都沒問題。
2. 別的銀行也沒事,不要造謠和聯想過度。
3. 從來沒聽過因為業務原因(比如資金鏈問題)利用IT來搞事,就好像醫生不會因為對院長有意見就特意去治死病人一樣。為什麼不會? 因為與IT故障相比,有更多更好的辦法搞事。
大陸差不多規模的銀行系統故障,就今年就已經就出過兩宗(都不是工行),所以其實不是什麼很稀罕的千年一遇的災難,唯一運氣不好的是這次在錢荒的時候「頂風作案」,被大家揪個正著,覺得定有異心!
為什麼IT系統會出問題?
1. 現代IT系統非常複雜,當系統大到一定的程度,總會有失控的狀況。世界上就從來都沒有過沒錯誤的複雜程序,問題只在於這個錯誤你有沒有碰上而已。銀行的系統是由很多不同軟硬體廠商的產品拼在一起運作,複雜程度遠超過普通家用電腦,這麼簡單的家用電腦還會死機呢....
而且系統複雜到一定程度,就不是人多或者錢多就能完全解決問題的了。到底有多複雜,推薦看看《人月神話》,這本書描繪了30年前大型機軟體系統開發碰到的複雜性問題。30年後,大型機只不過是銀行系統核心中的一部分而已,想想這個複雜度,崩潰...
2. 要盡量不出問題,要錢,很多錢(比如中型銀行建設一個過得去的容災系統要上億)。但出問題只是「有可能」,花的錢可是實實在在的。換了你是領導,你也不會無限制的向裡面投錢。
3. 穩定運行的最好的辦法之一是不對系統進行改造。由於有新的業務要求,系統確實要不停的升級,很多銀行每周都在升級,每次變動對系統的穩定運行都是一個挑戰。你每天走路有時候還會摔倒,每天尿尿還會射到馬桶外呢,只要一動作,就有出錯的可能,這就是科學。
不要以為這些都是計算機科技人員笨或者懶惰造成的,我個人可能是偏見的看法:除了科研人員外,最聰明的人大多集中在金融行業和信息行業,而銀行的IT是這兩者的交集哦!我接觸過的行內人的素質都相當不錯,某維護科室GRE2400的就有一對,工作態度都很好,只是面對複雜的系統,確實人力有時而窮。維護系統不出問題的難度,大致等於一個阿拉伯人娶了四個媳婦,同時伺候著四個丈母娘和生了八個小孩,在他們一邊長大一邊變老的情況下,維持著婆媳關係,子女關係等等複雜問題,還要讓他們不吵架的難度,而且這個阿拉伯人還是沒啥錢的。
為什麼會大面積的出現問題?
前面說了為啥會壞,這裡寫為什麼大面積出問題。因為三個字:大集中。最早之前,銀行系統還沒聯網,一出問題只是某個區或者某個市。最近十多年銀行業都在搞大集中:五大行除了中國銀行之外的四家都已經完成了大集中。工行是第一家完成的,當年號稱9991大集中工程,好像是1999年開始2002年完成。(當年還有個八卦:某銀行搶閘宣稱號稱比工行早十幾天完成大集中,爭大集中的全國第一,讓我想起了十二生肖的排位故事)。包括工農建交,國開,農發,浦發,華夏,民生等大部分的銀行都是雙中心運作,一個北京一個上海(交行好像有個中心在武漢,人行好像在無錫)。中國銀行很早就集中成五大中心,2011年藍圖核心集中成單個中心,但整體至今還沒完成兩地三中心建設。
(這段憑記憶寫的,如果過時了或者有錯請各位同仁指正)
這大集中裡面的八卦故事也多去了,比如某行省級小集中之後發現某支行三任行長曆時九年監守自盜的驚天大案,某行全國大集中造成大癱瘓在櫃檯放電影給儲戶看緩解緊張情緒,最近某行大集中還有個項目經理跳樓的....
大集中有很多業務上的好處,但從系統穩定性影響範圍來說,就有點「所有雞蛋都放在同一個籃子」裡面的意味,雖然已經是好多好多好多人花好多好多錢去看好這個籃子了,但百密總有一疏,雞蛋那麼密都能孵得出小雞呢!
為什麼這種銀行故障好像越來越多了?
以前沒有微博沒有微信,只要你不是倒霉的用戶就不會知道出過問題。我要不是上微博也不知道工行出這麼大的事。以前沒有網銀沒有淘寶,你半夜不會買東西刷卡。用行話來說就是以前沒那麼多7*24的需求(一周7天,一天24小時運行)。
好多年前我在某大行省行做升級,計劃5點前搞定,凌晨3點多的時候出了大問題,如果8點前搞不定就全省這銀行就停業了,6點多的時候是行長站在後面看著我操作,最後7點多搞定。後來也就寫幾份報告搞定。換成了今天壓力估計就大了,幸好我已經洗腳上田從良,「你可以安全的關機了」....
為什麼淘寶,QQ,Google好像很少出故障?
因為四個字:歷史原因。銀行的IT建設從80年代開始,傳統的思路還是集中在單台(有的多一台做成雙機熱備)伺服器上跑程序。互聯網的IT建設大部分都從21世紀開始,大多採用的是分散式的思路:由幾百幾千台計算機同時在跑程序,其中幾台出了局部問題基本上不會影響全局。
這兩種建設系統的思路,或者說寫程序的方法和工具差異很大,類似於大家都是畫畫,水墨畫和油畫的區別。
為什麼不轉變?銀行程序的特點是要穩定,轉變模式的風險很大(有的程序部分用的還是20年前的技術)。而且轉變的動力不太夠,想想讓達芬奇轉型畫水墨畫....其實我一向建議各位技術人員鑽研技術之餘,要思考一些技術以外的問題,比如某系統要換模式,技術人員看來可能是很好玩,能學新東西了,技術上有很多好處啊,balabala。但拍板領導的考慮點是:換這個系統對我的位置有什麼影響?要花多少錢?怎麼說服大領導去申請費用?萬一做砸了怎麼應對?怎麼處理項目經費引來的各種關係戶?等等等等,想著想著就沒動力轉變了....總的來說,雖然銀行系統也在慢慢的轉變,但起碼到今天還沒轉多少。順便感嘆一下改革之難,讚頌一下鄧伯伯。
為什麼沒有應急預案或者應急預案沒有起作用?
與電信運營商,政府行業,普通企業相比,銀行是中國IT業中IT基礎最好,最嚴謹的行業。比如有的銀行還要求廠商維護人員不能操作,只能銀行員工操作。
大的變更一定會有預案,甚至換個硬碟,改個IP這種做過幾百次的操作都會有預案。但預案與真實一般都有相當差距。上面已經提到系統非常複雜,可能出現的問題如果真全部寫下來,可能有幾百幾千分支。寫的人沒心思,更加沒人會仔細看。
而且,系統的故障並不會根據你的應急預案來發生。只靠應急預案真解決問題的概率比拿著《泡妞指南》泡到美眉的幾率還低,應急預案的主要的作用有四個:應付上級監管,根據應急預案搭好可能需要的應急軟硬體環境,大致理清概要思路,以及鍛煉團隊。真有複雜問題,還是靠牛人現場解決的多。
平心而論,工行的IT能力和運維水平在四大行裡面不是第一就是第二了(不同的省份略有不同)。
銀行系統出問題的時候,我的存款會不會多了或者少了?
常見的最簡單的衡量連續運行系統的整體指標有RTO和RPO,不嚴謹的說大致就是停業多久和數據丟多少的指標。
大家可以放心存錢在銀行。一般出現問題也只是在停業(某個時間的系統不能運行)這個層面,還沒到丟數據或者數據錯的層面。就算真出了丟數據的問題,準確的數據一般可以從備份中心或者容災中心裏面撈回來。銀行系統每天晚上都要對賬,會保證數據準確。
不過為了防止系統故障刷不了卡,多辦幾個不同銀行的卡倒是有必要的,我自己的三張卡除了分布在不同銀行外,還橫跨Visa/Master/AE,總有一張能刷到啊....
為什麼要停幾個小時這麼久?
先說定位問題的時間:從發現問題上報到IT信息中心(或者在監控系統發現問題),IT中心的人開始查系統,定位故障原因,如果定位不清還要找相關的軟硬體人員到場或者遠程網路支持(基於安全原因,銀行大部分都不能遠程網路查看系統,維護人員到數據中心也需要時間,如果還堵車.....),找出問題的根源,一小時算超快的了。類似你莫名高燒,到底是哪個器官出問題,去醫院做檢查做判斷總需要時間吧?
解決問題就更不好說了,其實和大家的電腦一樣,往往重啟是最有效的方法,但很多業務系統部分出現問題是不能重啟的(可能會影響別的業務系統)。至今國外各大廠商的標準維護合同,絕大部分都沒有承諾修復時間。
根據手頭的一份略過時的銀監會突發事件應急管理規範:一個省停業6個小時以上才算I級特別重大突發事件,3小時是II級,半小時以上是III級。以管窺豹,落葉知秋,幾小時真不算什麼。
不是說有容災和備份嗎?為啥不快速切過去就好了?
這是一個很常見的誤解:出了故障的時候,有備份系統和容災系統就可以很快恢復業務。一懷愁緒,幾年離索,錯,錯,錯。
先說備份系統,常規備份系統是不能運行業務程序的:備份一般只是把數據保存多一份或者幾份,一般是在丟數據的時候才用來恢復,而且恢復的時間很多都在幾小時以上。類似大家手頭只有一個瀧澤秀明的avi文件,沒有播放軟體也沒法看啊,只不過銀行的「播放軟體」要架設起來就複雜了.....
再說容災系統,強調一個連很多IT人都不清楚的事實:銀行容災系統不會輕易啟用整體切換!前面已經說了,IT系統已經這麼複雜了,容災系統相當於再複製一套,還要處理兩個中心之間的網路和數據同步一致性問題,複雜性增加了不止一倍。切換起來非常麻煩,非常傷筋動骨,驚動非常多人力物力,不是碰到大災大難(比如地震,機房著火,恐怖分子爆炸之類)不會進行切換。
當然平時會進行容災切換演練,但一般不會拿核心系統來真實切換,原因是有風險。以前也真出現過華東某省級行(還是某省某運營商? 記不太清楚了)切換到了容災中心後切不回生產中心的悲催慘劇。最近西北某地農信社成功的把核心生產切到了容災系統上,比較不簡單,不過這畢竟是獨立法人的小銀行,大行不是這麼個玩法。
這麼說吧,迄今為止,五千年來,四大行的核心容災系統都沒出現過需要兩地切換的重大災難的場景,數據中心就和準備買iphone6的腎一樣,有兩個,沒切過,但時刻準備著切,一但切就元氣大傷....其實個人不太靠譜的猜想,就算停個三五天,各大行都不會願意全業務切換,今天這種停幾小時的算個毛有啥好切的,趕快修好系統就是了。
注意不要陷入另外一個誤區,不是說容災系統很少切換和真實演練就沒用是擺設,而是切換的成本非常高,一般不會切,但出現真的災難的時候,就能大大發揮作用了。這個好像汽車的安全氣囊,一般小問題不會彈出來,因為彈一次好貴的啊,而且彈出來也有可能弄傷乘客。不過真車禍的時候,還是靠它保命。國內IT界也有真出問題切換成功的容災案例,不過能做到這個水平的廠商也就那麼幾家了。
另外,看到有不少評論說「沒人敢擔風險切換到災備節點上」。其實一般是這樣的:建好容災系統之後往往都會寫一套DRP(災難恢復計劃)或者BCP(業務連續性計劃),就是容災系統啟動的流程方案,裡面會規定好什麼場景下由什麼人拍板切換到災備中心,一般不會真出問題才臨時來拍腦袋來想,(當然臨時調整也是有可能的),也不是誰說切換就誰去背黑鍋。
至於好多沒分清容災和備份的評論,算了,這個說起來太長篇了,不科普了。
當然,大部分的小故障會通過雙機切換,快速重啟部分應用的等方式解決。但很快解決了,你們就意識不了其實已經出過故障了嘛,是不是有點人擇原理的味道?......但總有無法快速解決的問題,這不今天就上知乎了嘛?
補充一句,當然業界有很多新技術已經把備份高可用容災等揉在一起了,但四大行應用還不多,這裡就不展開了。
升級要失敗,快速回退不就好了嘛?
看了這麼多文字很累了吧,先聽個歌,王菲《棋子》:Faye 棋子 Faye 試聽 -- SongTaste 用音樂傾聽彼此 「我沒有堅強的防備 也沒有後路可以退 想逃離你布下的陷阱 卻陷入了另一個困境 我沒有決定輸贏的勇氣 也沒有逃脫的幸運」 ----- 是的,當時就是這樣。
一個常見的誤會:升級不成功馬上回退啊。這是很理想的情形,現實的情形是這樣的:
1. 技術上無法回退。我舉個例子,你從winxp升級到win7,升到一半,藍屏了,或者報某個文件包找不到了。你會回退嗎?
2. 回退的風險更大,升級過程中很多配置,軟硬體都改掉了,改不回來了,或者耗費的時間比繼續升級更大。
3. 硬著頭皮衝過去就算超了時間的還能找個理由掩飾一下,回退了就確定升級失敗了,下次繼續升級的政治壓力會很大。
所以實際情況中,除非可以很乾凈利落的回退,而且實在升級無法成功,才會回退。真的升級切割出問題會進行回退的不超過5%.
有次在某大型升級項目的回退方案專題會議後,對方高工和我方技術負責人聊天,雙方感嘆不已,這是原話:「這麼複雜的升級,真出問題,哪能回退? 只能直接往前沖,死也只能死在前線!再大家一起出去找工作吧。」
周日工行到底出什麼問題了?
在中國,無論出現什麼IT系統問題,對外宣稱總是電腦系統升級。我以前就有個變態的習慣在處理故障中途如果有空(等別人處理或者等系統回滾什麼的時候)就打呼叫中心電話,聽那些美眉怎麼解釋系統用不了了。清一色的,100%的,毫無例外都說是電腦系統升級。當我再問為什麼大白天升級啊?為什麼之前不通知我們客戶啊?這時候就能體現呼叫中心的培訓能力的差距了。
回到今天這事,別說我現在還沒去八卦,就算知道了也不可能公開說,這是職業操守的問題。而且有的故障的真相是查不出來的(你知道你每次生病的確切原因嗎?),有的故障是查出來但不能實說(一般故障分析報告書很快就能到競爭對手手中)。這種情況下,怎麼去寫故障分析報告,是一門藝術:真相不重要,達到目的才重要。這個目的大部分是大事化小,也有小事化大的,水深著呢。
有時候看著公開的或者私下各種途徑搞到的各廠商的各種故障分析報告書,不由得拈花微笑如下圖.....
當然,管這些系統的幹活的人都對真實的原因心中有數,都會改進工作來避免問題再次發生,直到換了新人或者又麻痹起來了。人嘛,好了傷疤忘了痛是天性啊。
擔任這種救火角色雖然很有成就感,很有孤膽英雄的感覺,也鍛鍊出遇事不驚,沉著冷靜應付的本領。修鍊過程很鍛煉人,心煩多疑失眠,腿軟手抖腦袋一片空白是我以及每個帶過的工程師的必經之路。也有很苦悶的地方,看電影看到一半被叫去救火;手機永遠不能關機。當然有個好處是可以跟女孩子們說,我的手機為了你永遠不關的,有什麼問題深夜隨時給我電話,還頗有成效........
各位如果另一半是做這種工作的,要好好對待這個身上帶著定時炸彈的苦命人。特別帶著值班手機的時候,有責任心重的同事洗澡都帶手機在洗澡間,愛妻還以為他有外遇。另一個同事一值班,老婆就回娘家,因為老是午夜凶鈴啊。唉,以後等我有空寫一本回憶錄,絕對的可歌可泣,盪氣回大腸哪。
飯後補充,據說今天中行出問題了,有人問我的看法。
謝邀,我真不知道,圓明園不是我燒的,系統宕機更不是我乾的,我也不是中國銀行界宕機新聞發布官和分析員。雖然我也挺希望是。
非要我解釋一下的話,我的看法是這樣子的:
1. 每個省行大約有150套業務系統,全國31個省市自治區,只算5大銀行,不算各開發中心和總行,就有超過20000套系統,就算每天出故障率是千分之一,每天也有20套會有問題。加上謠言,看上去就會覺得怎麼最近銀行系統每天都在出問題了。
2. 媒體,包括自媒體都有一種迎合讀者,或者說根據自己的需要來裁剪事實的惡劣習慣,比如去年大家關注拐賣小孩,拚命報道;今年大家關注印度阿三強姦婦女,記者又多報道;讀者就會覺得,怎麼前陣子拐賣小孩這麼多啊,這陣子印度強姦那麼多啊,其實一直都有,大家不關心而已。銀行系統故障也大抵如此。
3.最榮幸的是有說法說我在幫銀行界洗地,感覺我的身價馬上上去了,成為御用科技文人了,謝謝大家!
資料庫升級新版本造成性能問題。屬於it系統範疇。雖然之前在測試系統上模擬過,但是生產系統畢竟無法100%模擬,所以出現問題也可以理解。出現問題後已經退回到原有舊系統。因此業務恢復了。
但是導致了營業時間無法開門的後果,已經可以算是一級事故。icbc的資料庫供應商是哪家不難猜。按照sla約定可能要賠錢了。不少人要挨罵了,甲方乙方都算。
說的已經夠細了。此事與近來沸沸揚揚的流動性問題一點關係沒有。一天要被邀請多少次回答這個問題。。。。。。大家能看看事情始末嗎?工行之前公告過今天凌晨系統改造,今天這麼全面的出問題,明顯就是IT方面出現了bug,哪兒來的想像力要往資金鏈斷了之類的事情上靠?周末不做對公的進出款,個人在周末存取那一點點錢,能影響到工行資金鏈?太搞笑了!還擠兌?ZF需要負什麼責?工行是ZF機關?我沒看出來這事兒需要ZF負責的邏輯性在哪裡,你們去開立賬戶的時候協議上面寫了ZF對你的損失負責了嗎?
本人諮詢了工行和IBM相關人士,工行今天的故障確實是升級導致的故障。和流動性緊張、擠兌無關,更和倒逼政府無關。大家別慌,別信謠傳謠,該幹嘛幹嘛。
關於電子銀行系統暫停服務的通告
工行回應:系統升級導致辦理緩慢 現已全面恢復
1.結合公告、故障的發生時間,可以肯定這是IT系統的問題,跟資金無關;
2.時間點太敏感、故障時間較長。難免有人揣測。
3.對客戶的不便,肯定是有的。(哎,下次開會,人民銀行就有新鮮的案列了——科技風險,五月份招商銀行才搞出這麼一個出來,接著四大之一又來一個。)
謝謝海菊,我剛剛上來,前面一個回答就堅決說這是謠言。工行的IT目前國內領先,出現個別問題也會儘快恢復的。現在各大銀行IT都是集中的,要出問題都是全國性的。我相信工行的系統很快會恢復。這個點你去ATM取取錢試試,應該沒有問題了
@accc 明顯極有經驗,說的非常不錯。補充幾點,並非反駁。
1、升級是在凌晨,本身沒有失敗。
軟體升級是0點到1點半。銀行上午開門以後交易量陡增,資料庫處理過緩,導致主機宕機,時間應該是9點到10點半之間。因此故障是出現在白天,很多人把這個時間理解為升級,有所混淆。銀行無論如何不可能在白天升級。
2、緊急預案已啟動。
眾所周知,10點半之後的一個小時所有服務停止,就是啟動預案的第一步。而這段時間的工作就是軟體回退(IBM DB2),11點半服務恢復正常。不得不說,這個反應已經足夠快了。
據知,災備最多恢復到上一個交易日的數據,也就意味著周日上午的數據全部消失,這是絕對不可能的,而且也毫無意義。這些數據雖然處理失敗了,但是是重要的交易憑證。
7月5日被詐騙。過來提個醒。滿足:
開通工銀E支付+知曉手機銀行登入密碼=餘額隨便使用。無需驗證碼(操作手法未知)
被騙經過:犯罪份子冒充購物網站商家,說收到客戶異常舉動,問你是否在他店消費XXXX元,接著收到簡訊支出XXXX元。去ATM查詢XXXX元消失,告知「要開通退款服務,會將錢分筆打會,已報網警」「錢都沒了,不會騙你的」之類 獲得開通工銀E支付驗證碼。 之後錢以990元每筆不斷丟失。
總結:偽造已經被騙的現象,通過幫助你追回款項來獲取你的信任。獲取想要信息。
1、為什麼會有登入密碼?
猜測:通過「幢庫」獲得。(誰讓我賬號登入密碼設置都一樣) or 某些平台泄露
2、為什麼錢突然沒了?
對方未獲取到支付密碼,但是可免密碼任意購買贖回銀行理財服務。
對方手機:15088774201(估計已經註銷或小號,打不通)
金額額近萬,已登記刑事案件。警局由於案例少,你們懂的!
------------------------------------以下為詳細經過的分界線-------------------------------------------
一直以來非常注重個人隱私保護,只進認證過的官網,正常渠道下載APP。不room。支付不是微信就是支付寶,支付密碼也都不同。私以為支付密碼掌握在自己手裡即可高枕無憂,想不到還是載再這了。
案件詳細經過:
7.5日晚8點收到(15088774201)電話 ,對方說自己是拍拍網商家,有商戶在頻繁催他們交貨,然後根據手機致電給我。問我是否本人操作,卡內餘額是否已經少了。當時我還很淡定的說那我先看看就掛斷了網路電話。因為擔心網路被劫持所以不敢用手機和電腦。
直接借保安的電瓶車去最近的農行ATM機上查詢。發現錢確實沒有了。(怪我未開通簡訊提醒的(>﹏<),後來知道次手法開通了也沒用,照樣收到簡訊,網上有類似)當時就慌了。
這時對方電話過來了,親切的問候錢是否還在。當得知錢不在時(腦補對方關心狀)安慰我說 已經報警 然後告知時等警察來處理還是他們一筆一筆講錢打回。
下班了先吃飯 待更。。。。IBM DB2 z V10 升級, 在線交易起來後, CPU資源耗完。 已經回退到V 9了, IBM中國一年白乾。且出事後,工行仍然要求IBM一定要升V 10, 非常蹊蹺。
回答得直白一點,這次完全是科技系統內部問題。工行科技華麗外衣下邋遢本質被掀開了一個角而已。科技上不顧軟體開發的本質,而一味想搞大躍進放衛星,結果正好在最敏感的時間搞出了大問題。
有人說周日凌晨升級不是最好的時間,那請問還有什麼更好的時間呢?周日作為公共假日,凌晨時間段幾乎沒有對公業務。到了上午對私業務肯定也不及平日,如果這次問題出現在工作日上午,那後果只有更加嚴重。
有人說災備怎麼做的。要知道那麼大一個系統,它的災備數據不是即時備份的,所以能不切肯定不切的。
有人說工行不是政府機構,理論上工行確實不是國家機關是有限公司,但工行的大股東是財政部。再說句直白話,如果工行資金鏈都能斷,那國內其它銀行早就倒光了。如果這一天真的發生,題主該做的不是在知乎上提問,而是趕緊拿著硬通貨跑路。銀行做系統維護操作一般是周六結算之後至周日凌晨 預留時間不會超過12個小時 之前會啟動災備預案 新上的系統模擬真實環境做加壓測試 但不管怎麼加壓 跟真實環境還是會有區別 一旦新系統切換 只能寄託災備環境 這次工行升級DB2 據說是升級後cpu負載過高 失敗後版本已經回退 IBM承諾宕機0.2秒 賠大發了 資料庫升級不同於主數據中心替換 工行有江南江北兩個數據中心要替換的話只需在一個IO比較低的時間點 將一個數據中心升級成主中心 然後將備機中心替換 測試正常後 單點中心還原成雙中心 測試再正常後 再替換之前一個 但是資料庫的升級 考慮到版本兼容問題 只能雙中心同時宕機 替換新設備 風險相當大
癱瘓的原因是:由於工行主機的CPU個數太多,觸發了DB2的一個bug.....
工行6·23事件內部通報首曝光 IBM軟體缺陷惹禍
作為銀行從業人員,說實話,在天朝國有銀行就不可能缺少流動資金
應該是系統故障,但是作為四大行,怎麼能允許這麼大的故障,時長也過長。異地災備沒建好?
一個做了10年國內4大行之一的 IT人 ,為你這篇文章點贊。
通俗易懂,深感你寫到東西自己都經歷了一遍,也一直在成長中。
方便的加下微信。 l
哇卡卡,施主~
一字不少地看完了,包括樓主推薦的那首歌也聽了個遍。
其實銀行出現宕機問題很普遍,只是發生在不同時間點不同範圍,引起的關注程度不同.這次工行的事情發生在銀行間市場利率飆升的周末,引起猜疑,對工行是個不利的IT風險和聲譽風險影響,與流動性沒有任何問題.另一方面銀行管理流動性有別的途徑,暫停放貸都比暫停取錢獲得的流動資金多.
寫的通俗易懂,也很詳實,頂一個。
越是體量大的東西越難革新啊。
推薦閱讀:
※傳聞中國政府推動銀行棄用 IBM 高端伺服器,背後會是什麼原因?
TAG:中國工商銀行 | 銀行 IT |