본문 바로가기
IT

errpt DISK OPERATION ERROR 조치 방법

by Wiblee 2022. 10. 5.

2021.9.23(목)

 

우리 팀은 AIX 서버의 errpt 로그 중 "* P H *" 인 경우를 이상 경우로 감지하고 있는데, 

P H "DISK OPERATION ERROR"가 감지되었습니다. 

 

hdisk12    DISK OPERATION ERROR

 

AIX errpt 로그가 감지되면 서버를 들어가보지 않고는 대응하기 어려워 긴장이 됩니다.

다행히 관련 엔지니어님이 내방한 상태여서 살펴봐 주셨는데 특이사항은 없었습니다. 

 

이 오류는 hdisk12에서 I/O 에러가 잠시 났으니 확인하라는 의미입니다. 

그런데 I/O 에러가 나는 원인이 굉장히 많고 일시적으로 나타날 때가 많습니다. 

오늘도 일시적으로 I/O가 안 되어 나온 오류였습니다. 

 

errpt 세부조회를 해 보면 어디가 문제라고는 딱 나오지 않고, 

디스크와 관련된 모든 장비를 점검해 보라고 나옵니다. 

디스크, SAN, 서버, 그 사이의 모든 케이블들을 다 살펴보기는 힘듭니다. 

 

# errpt
# errpt -aj {IDENTIFIER}

 

'hdisk + 숫자'는 AIX 서버에서 PV(Physical Volume), 즉 물리적 볼륨을 의미합니다. 

이 물리적 볼륨이 어떤 파일시스템에 해당하는지 확인하고, 

그 파일시스템이 현재 서버에 정상적으로 붙어 있고 접속 가능하면 정상으로 판단합니다. 

 

이 AIX 서버는 파일시스템이 Veritas의 Infoscale 볼륨으로 구성되어 있습니다. 

Infoscale을 VCS(Veritas Cluster Server)라고도 부르는데, 

디스크장치에서 디스크(hdisk+숫자)를 서버에 던져주면 VCS가 중간에 껴서 

파일시스템을 구성해주는 형태입니다. 

 

VCS 구성에서 특정 hdisk가 어떤 파일시스템에 할당되어 있는지 확인하기 위해서는 

Veritas 고유 명령어를 이용해야 합니다. 

 

# vxdmpadm getsubpaths all
# vxdisk list
# vxprint -htq

 

 

 

2021.9.29(수)

자정 가까이 되어서 AIX 서버 errpt 로그 중 P H "DISK OPERATION ERROR"가 또 감지되었습니다. OS가 잠깐 잘못 인식한 것으로 간헐적으로 발생하며, 실제로 서버에서 파일시스템이 떨어지지는 않았으므로 문제는 없었습니다.

 

hdisk19    DISK OPERATION ERROR

 

2021.11.21(토)

자정 넘어서 AIX 서버 errpt 로그 중 P H "DISK OPERATION ERROR"가 감지되었습니다. 지난 9월 말과 동일 서버의 동일 디스크입니다. OS가 잠깐 잘못 인식한 것으로 간헐적으로 발생하며, 실제로 서버에서 파일시스템이 떨어지지는 않았으므로 이 역시 문제는 없었습니다.

 

hdisk19    DISK OPERATION ERROR

 

2022.1.17(월)

새벽 1시경 AIX 서버 errpt 로그 중 P H "DISK OPERATION ERROR"가 감지되었습니다. OS가 잠깐 잘못 인식한 것으로 간헐적으로 발생하며, 실제로 서버에서 파일시스템이 떨어지지는 않았으므로 이 역시 문제는 없었습니다.

IBM에 문의하면 SAN 스위치나 디스크장치를 점검하라는 답변이 온다고 하며, 더 이상 볼 수 있는 사항이 없는 듯합니다.

 

hdisk11    DISK OPERATION ERROR

 

 

댓글