2021.9.23(목)
우리 팀은 AIX 서버의 errpt 로그 중 "* P H *" 인 경우를 이상 경우로 감지하고 있는데,
P H "DISK OPERATION ERROR"가 감지되었습니다.
hdisk12 DISK OPERATION ERROR
AIX errpt 로그가 감지되면 서버를 들어가보지 않고는 대응하기 어려워 긴장이 됩니다.
다행히 관련 엔지니어님이 내방한 상태여서 살펴봐 주셨는데 특이사항은 없었습니다.
이 오류는 hdisk12에서 I/O 에러가 잠시 났으니 확인하라는 의미입니다.
그런데 I/O 에러가 나는 원인이 굉장히 많고 일시적으로 나타날 때가 많습니다.
오늘도 일시적으로 I/O가 안 되어 나온 오류였습니다.
errpt 세부조회를 해 보면 어디가 문제라고는 딱 나오지 않고,
디스크와 관련된 모든 장비를 점검해 보라고 나옵니다.
디스크, SAN, 서버, 그 사이의 모든 케이블들을 다 살펴보기는 힘듭니다.
# errpt
# errpt -aj {IDENTIFIER}
'hdisk + 숫자'는 AIX 서버에서 PV(Physical Volume), 즉 물리적 볼륨을 의미합니다.
이 물리적 볼륨이 어떤 파일시스템에 해당하는지 확인하고,
그 파일시스템이 현재 서버에 정상적으로 붙어 있고 접속 가능하면 정상으로 판단합니다.
이 AIX 서버는 파일시스템이 Veritas의 Infoscale 볼륨으로 구성되어 있습니다.
Infoscale을 VCS(Veritas Cluster Server)라고도 부르는데,
디스크장치에서 디스크(hdisk+숫자)를 서버에 던져주면 VCS가 중간에 껴서
파일시스템을 구성해주는 형태입니다.
VCS 구성에서 특정 hdisk가 어떤 파일시스템에 할당되어 있는지 확인하기 위해서는
Veritas 고유 명령어를 이용해야 합니다.
# vxdmpadm getsubpaths all
# vxdisk list
# vxprint -htq
2021.9.29(수)
자정 가까이 되어서 AIX 서버 errpt 로그 중 P H "DISK OPERATION ERROR"가 또 감지되었습니다. OS가 잠깐 잘못 인식한 것으로 간헐적으로 발생하며, 실제로 서버에서 파일시스템이 떨어지지는 않았으므로 문제는 없었습니다.
hdisk19 DISK OPERATION ERROR
2021.11.21(토)
자정 넘어서 AIX 서버 errpt 로그 중 P H "DISK OPERATION ERROR"가 감지되었습니다. 지난 9월 말과 동일 서버의 동일 디스크입니다. OS가 잠깐 잘못 인식한 것으로 간헐적으로 발생하며, 실제로 서버에서 파일시스템이 떨어지지는 않았으므로 이 역시 문제는 없었습니다.
hdisk19 DISK OPERATION ERROR
2022.1.17(월)
새벽 1시경 AIX 서버 errpt 로그 중 P H "DISK OPERATION ERROR"가 감지되었습니다. OS가 잠깐 잘못 인식한 것으로 간헐적으로 발생하며, 실제로 서버에서 파일시스템이 떨어지지는 않았으므로 이 역시 문제는 없었습니다.
IBM에 문의하면 SAN 스위치나 디스크장치를 점검하라는 답변이 온다고 하며, 더 이상 볼 수 있는 사항이 없는 듯합니다.
hdisk11 DISK OPERATION ERROR
'IT' 카테고리의 다른 글
Rocky Linux 부팅 USB 만드는 방법 (0) | 2022.10.05 |
---|---|
MySQL Runtime Error(chcp) 해결 방법 (1) | 2022.10.05 |
파일시스템 사용량 임계치 초과 시 조치 방법 (0) | 2022.10.05 |
Anaconda3 Jupyter Notebook 실행 시 Kernel Error (2) | 2020.01.01 |
이클립스 프로젝트명 바꾸기 (0) | 2016.07.01 |
댓글