「你所處的網路忽然中斷,你是怎麼處理的?」作為網路工程師,這個問題經常在面試時被問到,應該怎麼回答?
這個問題通常是用於面試初中級工程師的,而另一個問題:「用戶抱怨網路很慢,你覺得是什麼原因造成的?」 則用於面試高級工程師。
這種面試題比較開放,沒有標準答案,面試官主要想通過候選人解決問題的思路與方法,考查候選人是否有運維的工程經驗、以及候選人原理是否熟悉、以及快刀斬亂麻的決斷能力。
Internet連接斷
這裡的網路斷,不是個別用戶無法上網,而是所有的用戶都受影響,很顯然應該檢查網路出口,快速登錄出口設備,檢查鏈路狀態,如果down掉了,再排查什麼原因(分析日誌log)造成的,同時電話聯繫對端運營商,讓他們一起排查,如果鏈路狀態UP,則ping 一下對端IP,如果不通,這時最好的方法是重啟設備,如果重啟還不能解決,問題很可能是對端設備、或鏈路出了問題(單通),非常小概率是本地的問題。如果可以ping 通對端,但無法ping 更遠的IP(如8.8.8.8等更多知名IP),那就是運營商的問題了。
WAN斷
而如果使用的加密隧道連接公司各個點,這裡網路斷是指這些隧道斷,那麼首先要Ping 隧道對端的IP,如果無法Ping通,再排查對端的IP連通性,如果本地端、對端都可以Ping 直連對端,則問題出在運營商。如果可以Ping通隧道對端,則最好的辦法就是重啟本地網關設備,重啟可以解決很多由於軟體Bug而造成的網路故障。
最後提到的方法,因為前幾天才遇到,Hub可以轉發spoke-spoke之間的流量,但無法發送本地hub -&>spoke 流量,介面上有很多receive error,最後重啟解決問題。第一步,確定角色定位,你是管理員還是使用者
如果你是管理員
是否有應急預案
- 有,啟動應急預案
-無,那就進行故障定位和解決,如果有知識庫和累計的經驗,可以優先按照知識庫/累積的經驗進行排查,注意你負責的管理邊界。
具體的技術,會因為網路實現的方式有差異,但是常規的就是ping、trace工具找到故障點,然後從故障點的物理層開始檢查具體故障(是否掉電、線路是否連接正常等等)
如果你是使用者,那就找網管好了
答這個問題幾個注意的地方:
1,體現出你的思維方式
2,體現出你對工具的掌握
3,體現出你有明確的責任邊界
---------------------------割----------------------------------
無意中看到這個問題,感覺一棒子被打醒,入門2年有餘,卻重來沒有思考過這個問題,真是罪過罪過,這裡來小答一發,也算是跟自己整理下思路。
工作相關,整個網路組都負責不同的網路部分(從2層到7層的都有),我主要負責無線網路及大樓的匯聚層、接入層交換機運維,涉及產品為H3C和華為兩大類。
---------------------------割----------------------------------
2017-9-5,題外話:有時候網路組經常背鍋,細心的你們會發現,不管是網頁也好,APP也罷,有些客戶端(應用)與伺服器交互的時候,如果一旦出現問題,彈出來最多是的「您的網路有問題」,「網路連接中斷」,「網路異常」,這裡面我遇到的有一半以上的和網路沒有直接關係,MMP,我要黑一波有些程序猿做APP故障判斷的時候,能不能動點腦子,只會網路異常么?跟我有一樣感覺的網工,讓我看到你們的雙手!!!
排除以上問題後的正式作答:
答主所在公司IT部門接近千人,理所應當的有一個千人群(我也不知道哪裡理所當然了),每天嘰嘰喳喳的不停,又不敢屏蔽群(曾經有因屏蔽導致有人在群里報障沒人響應,被diss的事件),所以機智的我設置了群關鍵字,大體就是:網,無線,斷;
每當哪裡哪裡報障網路中斷或諸如此類的問題時,我都會問一句:您周圍的其他同事是否正常;這是非常關鍵的一點,決定的是網路問題的嚴重性!
把網路故障分為兩大類:單點故障和大面積故障;
一、單點故障
這個好說,無非就是三要素:重啟,重連,重插拔,能解決99%的問題,剩下的1%可以通過重裝來解決,適用於有線和無線。
專業一點的方法,無非就是ping、trace,改dns等一頓騷操作,總會搞的定。
二、大面積故障
不要方(huang),確定故障是有線還是無線,或者都有問題。
1、無線問題,有線正常(大概率)
a)檢查AC控制器是否正常;
b)檢查該區域AP是否正常上線;
c)檢查認證伺服器(適用於portal及dot1x)狀態是否正常,以及與AD或LADP的連通性是否正常;
d)AP上聯交換機是否down機或斷網;
2、有線問題,無線正常(幾乎沒出現過)
有線問題一般也會導致無線ap掉線,所以本節略!
3、全斷網(小概率)
出事區域的接入機房檢查設備,我的操作都是統一的ping核心網路層,一層層往上查,接入-&>匯聚-&>核心,哪層不通就往上,直到找到故障點;
大部分情況都是交換機down機或異常重啟導致的斷網,極少的可能是堆疊分裂等問題導致的;當然也不排除人為的誤操作,敲錯命令,誤接成環的,這時候就要看配置,看三表(路由,MAC和ARP),一頓display的騷操作,才能發現問題,解決問題。
---------------------------割----------------------------------
H3C和華為的無線產品都出過幾次大事情,主要原因也是因為接入設備過多(數以萬計的無線設備接入),負載問題的導致的,當然也有BUG引發的重大事故,不管是有線還是無線,一旦出現問題,最重要的就是找到原因,迅速恢復業務,回頭在拉廠家查日誌查設備,分析故障原因,整理故障報告。
「網路忽然中斷」這個說法比較模糊,那我就按照比較嚴謹的方法,說說如果我在我家書房用筆記本電腦通過無線區域網接入中國電信的家庭寬頻會怎麼處置吧。根據實際情況,以下步驟並不一定都會進行,也不一定按順序進行。
檢查電腦狀態欄交流電源連接狀態,排除入戶交流電源中斷。
檢查戶內強電箱中負責弱電櫃供電的剩餘電流動作保護器和空氣斷路器狀態,排除弱電櫃交流電源中斷。檢查弱電櫃中 PDU 開關和指示燈狀態,排除 PDU 故障。檢查弱電櫃中 POE 交換機狀態,排除 POE 供電、AP 上聯和交換機上聯故障。檢查 AP 指示燈,排除 AP 硬體故障。檢查 Wi-Fi 連接狀態,初步排除無線客戶端無線連接故障。檢查 RSSI 和信道雜訊,進一步排除無線客戶端無線連接故障和電磁環境影響。檢查無線客戶端軟體(包括操作系統、網卡驅動、協議棧、網路應用),排除無線客戶端軟體故障。檢查路由器的 ARP 狀態、防火牆狀態、VLAN 和路由表,排除路由器軟體故障。
檢查無線客戶端到區域網網關的通信,排除其它區域網故障。檢查路由器的 WAN 口狀態,排除到數據機的連接故障。檢查數據機狀態,初步排除數據機和本地光纜故障。檢查 PPPoE 連接狀態,排除寬頻賬戶問題、PPPoE 參數錯誤和認證伺服器故障,進一步排除數據機和本地光纜故障。檢查到廣域網網關的通信,排除 BRAS 故障。致電中國電信,排除本地運營商網路故障。至此我已經可以解決狹義的「網路忽然中斷」。排除廣義的「網路忽然中斷」還需要進行以下工作。
檢查到 DNS 伺服器的通信,排除到 DNS 伺服器的通信問題。(在大陸使用境外 DNS 伺服器經常遇到這種問題。)
檢查 DNS 伺服器解析結果,排除 DNS 伺服器不可用或解析結果錯誤的問題。(不靠譜的 DNS 伺服器經常遇到這種問題。)
檢查到互聯網應用伺服器的通信,排除到互聯網應用伺服器的通信問題。(在大陸訪問境外伺服器經常遇到這種問題。)
聯繫互聯網應用的服務提供商(例如 Google、騰訊)或查看其是否發布公告,最後的選擇可以是在知乎提問,排除互聯網應用本身的服務問題。
95%這種情況重啟路由器搞定,其他情況按順序查看網線接頭,是否繳費,是否ARP病毒等等…
先ping本機,確定自己網卡是否有問題。然後ping網關,確定去網關的鏈路以及網關是否有問題。然後網關ping外部,確定去外部的鏈路是否有錯。
1.如果剛才有操作,先回滾操作。再查原因。2.否則,根據情況一步步縮小邊界,定位故障點,應急處理恢復業務,再徹底解決。3.事後制定措施,避免再次出現故障。
1.考慮是固定IP還是DHCP,如果是固定IP則檢查是否不小心把IP給設置成了DHCP選項。
2.看右下角小電腦圖標是感嘆號還是叉叉,如果是感嘆號說明物理連通性還是沒有問題,如果是叉叉則有可能是網線沒插好,或者網線在交換機上沒插好,再就是把網卡驅動更新一下
3.考慮到別人能上網而你不能,則PING一下網關是否可以通訊,DNS是否設置正確
4.如果arp設置成了MAC和IP綁定,或者是MAC網關綁定,則檢查是否有人在路由器刪掉了你的IP和網關MAC之間的綁定
5.防火牆限制了你的IP或者埠上網能力,檢查防火牆設置
(捂臉)(捂臉)(捂臉)(捂臉)(捂臉)(捂臉)(捂臉)(捂臉)
請問大家網工需要裝系統,拆主板換電源,幫別人找丟失的QQ聊天記錄嗎?還有告訴人家excel函數怎麼用印表機怎麼掃描,顯示器不亮燈等等那些騷現象,都得做嗎?
定位故障點,先重啟,重啟不行有冷備就直接換上,先搞通,然後再處理原先設備的問題。如果沒有冷備,那就看能力了。排錯最重要的是效率,先通再想
先判定是否是由於自己操作導致。
如果不是,伺服器先查看到網關是否正常,交換機查看上聯是否正常。如果網關,上聯都正常,判斷斷網範圍。
排查順序,同機房是否相通,同城同運營商是否相通,鄰省同運營商是否相通。南北同運營商是否相通。
合理使用ping mtr traueroute tcpdump wireshark第一,故障出現前是否有任何變更操作,如果有,優先回退,因為相當一部分故障是由於變更引起的;
第二,根據不同的故障來源(用戶申告或網管告警),判斷故障範圍和故障節點,逐步縮小目標;
第三,查看線路和網路設備的狀態和日誌,無論是線路故障還是設備故障,設備日誌上總會有相應的體現;
第四,確定儘快恢復網路的手段,優先思考如何恢復網路而不是查找故障原因,很多時候我們恢復網路並不需要知道故障的根本原因;
第五,事後分析故障原因及如何規避,雖然確實有可能因為恢復了網路而導致故障原因無法排查。
ARP存在被攻擊、或者MAC地址遭到攻擊造成無法上網、
1.先看寬頻貓、路由器、交換機有沒有斷電的;然後從寬頻貓找起在是路由器然後交換機看網路有沒有斷的。
看了好多大牛的答案,網路狗也來根據實際工作經驗怒答一發。
1.確定故障範圍,通知第一負責人。
2.是否有預案?是否曾經發生過?如果有那麼上報後立即執行。
3.根據確定的故障範圍,來解決。
4.做好事件記錄,有必要的開分析會。
3中的解決辦法很多人都發了,沒啥好說的。
mtr一次找斷點在哪兒:win有winMTR,Linux的話直接yum一個下來,OS X可通過homebrew下載mtr;然後判斷斷點原因,網路直接中斷的原因不外乎那麼兩個:己方設備中斷與上聯鏈路中斷,己方設備中斷的話,如果是企業級設備可以看看health與logbuffer,如果是家用設備的話,判斷下wan口與lan口故障點。這個只是一個思路,不過這個方法適用於大多數排障。
不是網路工程師,但是有很多的修網經驗,分享一下。第一步當然是找原因啦。是硬體問題還是系統問題。網線是否插好,網卡驅動是否正常,網路設置是否正常。查看網路拓撲結構,其他電腦網路是否正常,能否ping通區域網其他電腦,能否ping通路由器,能否ping通一些網站。確認是本地網路出了問題還是網路供應商出了問題。登錄路由器看看設置是不是有問題。以上這些小打小鬧日常生活夠用的了…