hostd로 인한 ESXi 서비스 비 정상

hostd로 인한 ESXi 서비스 비 정상

VMware/vSphere 2018. 5. 1. 12:08

가끔 고객사에서 ESXi에 소위 내가 말하는 'Half Hang'이 발생한다.

Half Hang 증상으로는 vCenter - ESXi disconnect 발생, 명령어 입력 시 반응 없거나 느림 ( esxcli, vim-cmd, esxcf-x )

일반적으로 hostd process에 문제가 생기는 경우이며, 원인으로는 아래 몇 가지가 있다.

* 지속적인 APD 상태로 인해 hostd 스레드가 스토리지 I/O를 대기하는 작업에 모두 사용되어 다른 작업을 진행할 수 없음.

( ESXi 5.5 Update01 부터 해결 )

* Ramdisk Full ( vdf -h 명령어로 Full 상태의 디렉토리 제거

* Backup 솔루션 연동 환경에서 snapshot task 가 제대로 동작하지 않아 snapshot task 계속 생성

* 특정 driver issue로 인해 memory leak 가능성도 조금 있음

정확히 어떤 원인인지 찾는 방법은 어려우나 보통 Management Agent Restart로 해결 가능하다.

하지만 vDS 환경에서 LACP 사용 시 네트워크 통신이 끊겨 VM 서비스나 vSAN 서비스가 중단 될 위험이 있다.

그렇기 때문에 Management Agent 같은 전체 데몬 재 시작이 아닌 hostd만 재 시작 하는 방법으로 해결 시도를 해볼 수 있다.

실제 위와 같은 이슈가 발생하면 kill -9 명령어로 hostd 프로세스 종료를 시도하나 실패할 것이다.

이유는 vmware-watchdog 프로세스는 hostd가 실행되고 있지 않을 시 이를 감지하여 restart 하는데 hostd가 실행중임에도 불구하고 watchdog이 계속 hostd restart를 시도하면 이런 이슈가 발생한다.

해결 방법으로는

1) ps -s | egrep -i hostd 로 hostd pid 확인.

2) /sbin/watchdog.sh -r host 로 hostd pid

3) 위와 같이 hostd stop 후 watchdog.sh로 hostd pid를 확인하지 못한다면 hostd restart 수행하면 된다.

4) 3번과 다르게 watchdog.sh -r로 확인했으나 다른 hostd pid 값을 반환한다면 /sbin/watchdog.sh -k hostd 명령어로 프로세스 kill 후 hostd restart

5) 3, 4번과 다르게 pid를 찾을 수 없다는 오류가 발생하면 아래 파일을 제거 후 /sbin/watchdog.sh -r hostd로 다시 확인 시도.

/var/run/vmware/vmware-hostd.PID

/var/run/vmware/watchdog-hostd.PID

제 경험으로는 위 방법으로도 해결이 안될 시 Reboot 밖에는 답이 없는 것 같다.

( 실제 고객사에 VMware GSS가 원격으로 확인 하였으나 결국 Reboot 권고 )

VMKernel NIC Multi-homing Test (0)	2019.01.27
Interrupt Remapping (0)	2018.05.01
VMtools 설치 진행 중 Unmount 에러 (0)	2018.05.01
ESXTOP cpu 메트릭 분석 (0)	2018.05.01

인기포스트 MORE POST