故障背景
近日接到某公安機(jī)關(guān)信息中心電話,反應(yīng)整個(gè)公安系統(tǒng)傳輸數(shù)據(jù)丟包。雖然個(gè)機(jī)房?jī)?nèi)網(wǎng)絡(luò)通信正常,但是辦公區(qū)域都訪問(wèn)服務(wù)器都會(huì)丟包。導(dǎo)致視頻會(huì)議傳輸不正常,嚴(yán)重影響正常辦公。
故障重現(xiàn)
通過(guò)與客戶溝通,類似網(wǎng)絡(luò)故障已經(jīng)持續(xù)數(shù)月,故障原因不明,故障現(xiàn)象為公安系統(tǒng)內(nèi)部無(wú)規(guī)律丟包1-2%,影響網(wǎng)絡(luò)數(shù)據(jù)傳輸。其中服務(wù)器之間ping的丟包率最多,遠(yuǎn)端用戶ping服務(wù)器丟包較少,部分用戶ping上級(jí)機(jī)構(gòu)不丟包。服務(wù)器區(qū)內(nèi)的一臺(tái)管理主機(jī)ping多臺(tái)不同網(wǎng)段,不同位置的IP有時(shí)會(huì)同時(shí)丟包。
故障分析
由于全網(wǎng)都有掉線現(xiàn)象,我們首先利用科來(lái)網(wǎng)絡(luò)分析系統(tǒng)抓取核心交換機(jī)上的數(shù)據(jù)包,判定是否由于網(wǎng)絡(luò)阻塞、網(wǎng)絡(luò)攻擊等其他原因造成無(wú)規(guī)律掉線的情況。
我們用服務(wù)器區(qū)的管理主機(jī)144.196ping服務(wù)器128.8抓取數(shù)據(jù)包。由于是雙向鏡像,我們可以看到數(shù)據(jù)包轉(zhuǎn)發(fā)的情況很正常。但是會(huì)有ICMP請(qǐng)求轉(zhuǎn)發(fā)出去以后沒(méi)有收到應(yīng)答的現(xiàn)象,ICMP返回丟包信息。
為了進(jìn)一步找到故障原因,并且服務(wù)區(qū)數(shù)據(jù)包丟包較多,所以我將抓包點(diǎn)下移到服務(wù)器區(qū)的匯聚交換機(jī)。
這次抓包我們抓取同一匯聚交換機(jī)下的一臺(tái)服務(wù)器與一臺(tái)計(jì)算機(jī)之間的icmp協(xié)議。同樣的我們發(fā)現(xiàn)數(shù)據(jù)包被正常轉(zhuǎn)發(fā),而直連的主機(jī)并沒(méi)有應(yīng)答。
又經(jīng)多次測(cè)試?yán)塾?jì)發(fā)現(xiàn):
主機(jī)144.196發(fā)送606個(gè)請(qǐng)求數(shù)據(jù)包,接受到595個(gè)回應(yīng)數(shù)據(jù)包。
交換機(jī)抓包128.39接受598個(gè)請(qǐng)求數(shù)據(jù)包,發(fā)送595個(gè)回應(yīng)數(shù)據(jù)包。
通過(guò)這兩組數(shù)字證明主機(jī)144.196到交換機(jī)之間已經(jīng)存在丟包現(xiàn)象。主機(jī)128.39與交換機(jī)之間同樣存在丟包現(xiàn)象。為進(jìn)一步確定故障點(diǎn),我們?cè)诜?wù)區(qū)內(nèi)的匯聚交換機(jī)直連一臺(tái)裝有科來(lái)網(wǎng)絡(luò)分析系統(tǒng)的筆記本。
我們?cè)诜?wù)器端ping新添加的這臺(tái)筆記本電腦。服務(wù)器端ICMP顯示丟包時(shí),我們停止抓取數(shù)據(jù)包。發(fā)現(xiàn)交換機(jī)抓包與直連的主機(jī)抓取的數(shù)據(jù)包成比例為2:1。如:服務(wù)器共發(fā)送101個(gè)數(shù)據(jù)包,丟失1個(gè)數(shù)據(jù)包。交換機(jī)抓到請(qǐng)求包200個(gè)(雙向抓包),而新直連的主機(jī)抓取100個(gè)。說(shuō)明在三層轉(zhuǎn)發(fā)二層傳輸上數(shù)據(jù)都正常的進(jìn)行發(fā)送和處理。只是在數(shù)據(jù)包發(fā)送的時(shí)候,有個(gè)數(shù)據(jù)包沒(méi)有發(fā)送到交換機(jī)就已經(jīng)丟失了。我們進(jìn)入機(jī)房查看網(wǎng)線物理狀態(tài),發(fā)現(xiàn)部分網(wǎng)線使用的是非屏蔽超五類雙絞線,并且強(qiáng)電與網(wǎng)線同走的一個(gè)線路。同時(shí)我們?cè)谝慌_(tái)服務(wù)器同時(shí)ping多網(wǎng)段多區(qū)域的主機(jī)時(shí),經(jīng)常出現(xiàn)同一時(shí)間多個(gè)ping包丟失。初步證明是強(qiáng)電傳輸時(shí)對(duì)信號(hào)造成干擾數(shù)據(jù)傳輸,最終產(chǎn)生無(wú)規(guī)律丟包的現(xiàn)象。
故障結(jié)論及解決辦法
丟包是由于服務(wù)器區(qū)大量使用非屏蔽雙絞線,并與強(qiáng)電布線相同導(dǎo)致強(qiáng)電干擾造成的。遠(yuǎn)端ping服務(wù)器丟包是因?yàn)檫h(yuǎn)端到核心不丟包,所以丟包較少。服務(wù)器ping服務(wù)器丟包多是由于進(jìn)出交換機(jī)的線都受干擾造成的,所以丟包。遠(yuǎn)端ping向上級(jí)單位不丟包是因?yàn)閰R聚與核心到上聯(lián)單位都是由光纖,并且不通過(guò)服務(wù)器傳送數(shù)據(jù)。Ping多主機(jī)同時(shí)丟包,是由于發(fā)送請(qǐng)求包時(shí)被電磁干擾信號(hào),交換機(jī)無(wú)法識(shí)別數(shù)據(jù)包造成丟包現(xiàn)象。
最后客戶采用電纜與數(shù)據(jù)線纜分開(kāi),并采用屏蔽雙絞線進(jìn)行布線,全網(wǎng)丟包現(xiàn)象就沒(méi)有再出現(xiàn)。
