最近,公司的ERP系統(tǒng)在使用一段時(shí)間后經(jīng)常無(wú)法連接。
用戶投訴很大。
畢竟,花了很長(zhǎng)時(shí)間才發(fā)現(xiàn)錯(cuò)誤。
今天,我將與您分享這個(gè)過(guò)程。
故障描述ERP系統(tǒng)是我們公司的關(guān)鍵核心業(yè)務(wù)系統(tǒng),已被許多人使用。
最近,總是有用戶報(bào)告系統(tǒng)無(wú)法連接,并且系統(tǒng)上的用戶直接斷開(kāi)連接。
但是可以ping通。
根據(jù)背景頂部查詢,負(fù)載超過(guò)100。
可以看出系統(tǒng)的負(fù)載非常高,并且系統(tǒng)無(wú)法響應(yīng)用戶的連接請(qǐng)求。
或系統(tǒng)響應(yīng)超時(shí)。
結(jié)果,無(wú)法提供連接。
在故障排除過(guò)程中,發(fā)現(xiàn)負(fù)載已增加。
第一印象是系統(tǒng)設(shè)置或系統(tǒng)程序未正確編寫(xiě)。
這將導(dǎo)致服務(wù)器凍結(jié)。
最初的想法是從軟件開(kāi)始。
第一步是要求程序員對(duì)最新的在線程序進(jìn)行自檢。
結(jié)果,找不到故障點(diǎn)。
第二步是檢查應(yīng)用程序系統(tǒng)的一些系統(tǒng)腳本。
原始制造商被要求進(jìn)行自我檢查,沒(méi)有發(fā)現(xiàn)任何問(wèn)題。
進(jìn)入系統(tǒng)檢查日志,未發(fā)現(xiàn)軟件和硬件問(wèn)題。
下一步是懷疑硬件問(wèn)題。
通過(guò)觀察的方法,服務(wù)器硬件沒(méi)有告警信息。
此時(shí),它已完全陷入無(wú)限循環(huán)。
故障仍然存在,并在重新啟動(dòng)服務(wù)器后幾分鐘再次發(fā)生故障。
供應(yīng)商之前曾提醒過(guò),它始終卡在遠(yuǎn)程登錄過(guò)程中。
詢問(wèn)我們的硬盤(pán)驅(qū)動(dòng)器是否有問(wèn)題。
但是,長(zhǎng)時(shí)間觀察后,我們?cè)谟脖P(pán)上沒(méi)有看到任何警告消息。
面板上沒(méi)有黃燈或紅燈。
經(jīng)過(guò)幾次提醒,我們?nèi)匀贿M(jìn)入RAID卡進(jìn)行檢查。
發(fā)現(xiàn)一個(gè)硬盤(pán)以黃色顯示。
顏色與其他硬盤(pán)驅(qū)動(dòng)器不同。
初步估計(jì)是此硬盤(pán)的問(wèn)題。
然后更換了硬盤(pán)。
RAID重建完成后。
觀察到負(fù)載恢復(fù)正常。
結(jié)論這是一個(gè)非常奇怪的錯(cuò)誤。
這也是值得所有人參與的案例。
系統(tǒng)會(huì)欺騙我們一些事情。
如果僅依靠觀察,請(qǐng)使用常規(guī)思維來(lái)查找故障點(diǎn)。
我想沒(méi)有辦法一次找到所有問(wèn)題。
會(huì)影響到企業(yè)的運(yùn)作。
另外,還有一個(gè)非常重要的一點(diǎn),我們的服務(wù)器是一臺(tái)舊服務(wù)器。
自從我買了它已經(jīng)七八年了。
備用硬盤(pán)驅(qū)動(dòng)器是已拆卸的產(chǎn)品。
這些故障是由拆解的產(chǎn)品引起的。
切記要小心拆卸產(chǎn)品。