ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • hostd로 인한 ESXi 서비스 비 정상
    VMware/vSphere 2018. 5. 1. 12:08

    가끔 고객사에서 ESXi에 소위 내가 말하는 'Half Hang'이 발생한다.
    Half Hang 증상으로는 vCenter - ESXi disconnect 발생, 명령어 입력 시 반응 없거나 느림 ( esxcli, vim-cmd, esxcf-x ) 
    일반적으로  hostd process에 문제가 생기는 경우이며, 원인으로는 아래 몇 가지가 있다.

    * 지속적인 APD 상태로 인해 hostd 스레드가 스토리지 I/O를 대기하는 작업에 모두 사용되어 다른 작업을 진행할 수 없음. 
    ( ESXi 5.5 Update01 부터 해결 )

    * Ramdisk Full ( vdf -h 명령어로 Full 상태의 디렉토리 제거

    * Backup 솔루션 연동 환경에서 snapshot task 가 제대로 동작하지 않아 snapshot task 계속 생성

    * 특정 driver issue로 인해 memory leak 가능성도 조금 있음

    정확히 어떤 원인인지 찾는 방법은 어려우나 보통 Management Agent Restart로 해결 가능하다. 
    하지만 vDS 환경에서 LACP 사용 시 네트워크 통신이 끊겨 VM 서비스나 vSAN 서비스가 중단 될 위험이 있다.

    그렇기 때문에 Management Agent 같은 전체 데몬 재 시작이 아닌 hostd만 재 시작 하는 방법으로 해결 시도를 해볼 수 있다.

    실제 위와 같은 이슈가 발생하면 kill -9 명령어로 hostd 프로세스 종료를 시도하나 실패할 것이다.
    이유는 vmware-watchdog 프로세스는 hostd가 실행되고 있지 않을 시 이를 감지하여 restart 하는데 hostd가 실행중임에도 불구하고 watchdog이 계속 hostd restart를 시도하면 이런 이슈가 발생한다.
    해결 방법으로는

    1) ps -s | egrep -i hostd 로 hostd pid 확인.  
    2) /sbin/watchdog.sh -r host 로 hostd pid



    3) 위와 같이 hostd stop 후 watchdog.sh로 hostd pid를 확인하지 못한다면 hostd restart 수행하면 된다.

    4) 3번과 다르게 watchdog.sh -r로 확인했으나 다른 hostd pid 값을 반환한다면 /sbin/watchdog.sh -k hostd 명령어로 프로세스 kill 후 hostd restart 

    5) 3, 4번과 다르게 pid를 찾을 수 없다는 오류가 발생하면 아래 파일을 제거 후 /sbin/watchdog.sh -r hostd로 다시 확인 시도.
    /var/run/vmware/vmware-hostd.PID
    /var/run/vmware/watchdog-hostd.PID 


    제 경험으로는 위 방법으로도 해결이 안될 시 Reboot 밖에는 답이 없는 것 같다.
    ( 실제 고객사에 VMware GSS가 원격으로 확인 하였으나 결국 Reboot 권고 )

    'VMware > vSphere' 카테고리의 다른 글

    VMKernel NIC Multi-homing Test  (0) 2019.01.27
    Interrupt Remapping  (0) 2018.05.01
    VMtools 설치 진행 중 Unmount 에러  (0) 2018.05.01
    ESXTOP cpu 메트릭 분석  (0) 2018.05.01

    댓글

Designed by Tistory.