본문 바로가기

Compute

(57)
[NUMA] Overview ESXi NUMA Deep Dive 문서를 기반으로 확인한 내용을 정리합니다. History NUMA는 shared memory architecture로 개별 CPU는 local memory와 다른 CPU에 할당된 remote memory를 사용 CPU가 자신의 Local memory를 access 하는 것이 성능 측면에서 best 다른 CPU의 remote memory를 access 하는 경우 latency가 증가하고, bandwidth가 줄어들기 때문에 성능 측면에서 penalty 발생 Multiprocessor 환경이 필요해지면서 기존 Bus 기반 System에서 처리할 수 있는 Bandwidth 제약으로 인해 문제 발생 CPU가 추가될 수록, CPU 별로 사용 가능한 Bandwidth가 줄게되고,..
How to use strace in vCenter vCenter는 Photon OS를 이용하는 Appliance 중 하나로, 다른 Linux와 마찬가지로 strace를 built-in 도구로 가지고 있습니다. 오늘은 이 strace를 vCenter에서 어떻게 실행하는지 알아보겠습니다. strace는 프로그램이 실행될 동안 호출하는 System Call을 추적할 수 있는 툴 프로세스가 받은 Signal 정보도 확인 가능 strace 공식 페이지 : https://strace.io/ photon OS strace 관련 페이지 : https://vmware.github.io/photon/assets/files/html/3.0/photon_troubleshoot/common-tools.html?q=#strace strace -h # strace -h usage..
Unable to install patch on Cisco UCS Server and Pure Storage environment 안녕하세요. 이전에 공유드렸던 Locking Mechanism인 ATS와 관련된 내용으로 Storage 이슈로 인해 ESXi Update에 실패했던 케이스를 공유합니다. [문제 증상] vCenter에서 vSphere Lifecycle Manager를 통해 ESXi 7.0U2e 19290878에서 7.0U3d 19482537로 패치 시도 시 실패 [진행 내역] 1. 먼저 Update에 실패한 사례이기 때문에, 실패한 Host에서 esxupdate.log 를 확인 esxupdate.log 확인 시, 특정 Volume의 Filesystem Access 관련 오류 기록 2023-03-02T04:57:50Z esxupdate: 116246091: vmware.runcommand: INFO: runcommand c..
SFCBD(Small Footprint CIM Broker) 안녕하세요. 오늘은 ESXi Host에서 실행되는 서비스 중 하나인 SFCB에 대해서 알아보도록 하겠습니다. WBEM WBEM은 Web-Based Enterprise Management의 약자로 원격으로 System 관리를 가능케 하는 기술 이에 대한 표준 기술로 CIM Infrastructure Schema, CIM-XML, CIM over HTTP, WS-Management, DMTF Open Standards 등이 있음 WBEM은 Client-Server 모델로, WBEM Client가 HTTP/HTTPS를 통해 WBEM Server로부터 필요한 정보를 CIM-XML Format으로 주고 받음 WBEM Server는 전달받은 CIM-XML Format의 데이터를 Decode하여 Hardware 장치..
How vMotion Works 오늘은 정상적인 vMotion 수행 시 Source/Destination ESXi Host 및 vCenter에서 로그가 어떻게 기록되는지 알아보고자 합니다. [참조 로그] vCenter의 vpxd.log --> Log Level을 Verbose로 설정 Source/Destination ESXi의 vmkernel.log Virtual Machine의 vmware.log [구성 환경] Source vMotion IP : 192.1681.22 / compesxi02.contoso.com Destination vMotion IP : 192.168.1.23 / compesxi03.contoso.com Guest OS : CentOS 7.9 VM Name : test [진행 순서] vmware.log에서 vMoti..
esxtop Basic Usage esxtop 에서 VM만 보려고 할 때는 shift + v 10:33:46am up 2 days 4:34, 1013 worlds, 2 VMs, 3 vCPUs; CPU load average: 0.01, 0.01, 0.01 PCPU USED(%): 0.1 0.2 3.9 1.1 0.3 0.3 0.5 0.5 1.1 1.8 1.6 1.6 0.3 23 1.6 0.1 NUMA: 2.4 AVG: 2.4 PCPU UTIL(%): 0.2 0.2 3.9 1.1 0.4 0.4 0.6 0.6 1.5 2.1 1.7 1.7 0.4 14 1.8 0.2 NUMA: 1.9 AVG: 1.9 View VM only ID GID NAME NWLD %USED %RUN %SYS %WAIT %VMWAIT %RDY %IDLE..
Panic requested by another PCPU 오늘은 PSOD가 발생할 수 있는 이유 중 PCPU의 Heartbeat Timeout으로 인해 발생하는 사례에 대해서 알아보도록 하겠습니다. VMKernel의 경우, PCPU가 49초 동안 Heartbeat을 응답하지 않으면 49초 Timeout을 감지한 PCPU에서 49초 동안 응답이 없었던 PCPU로 IPI(Inter Processor Interrupt)를 통해 NMI를 수동으로 발생시킵니다. vmkernel.log를 살펴보면 이러한 경우로 PSOD가 발생하는 경우, 다음과 같은 로그가 기록됩니다. 2023-03-02T10:33:30.154Z cpu60:2098379)@BlueScreen: NMI IPI: Panic requested by another PCPU. RIPOFF(base):RBP:CS ..
Necessary logs in case of system or vm hang 특정 VM이 Hang 상태로 빠지는 경우 해당 VM에 대한 어떤 Action(Power Off, Shutdown 등)도 진행할 수 없는 상황이 발생할 수 있습니다. 일반적으로 이러한 경우에 해당 VM만 ESXi Host에 위치시키고, 나머지 VM들을 다른 ESXi Host로 Migration 하신 이후에 문제가 발생한 VM이 위치한 ESXi Host를 강제로 껐다 켜서 문제를 해결하시곤 합니다. 하지만, 이렇게 되면 수집할 수 있는 자료가 ESXi Support Bundle로 한정되는데요. Support Bundle에 포함되어 있는 vmkernel.log나 다른 로그들을 가지고는 문제 시점의 증상에 대한 대략적인 추정만 할 수 있지 근본적인 원인 파악은 매우 어려운 상황으로 이어집니다. 따라서, 위와 같..
Config Store Database and Schema List 이전에 Hostd 관련 verbose 로그 대량 기록 건과 관련하여 다음 Article을 통해 다뤄본 적이 있습니다. Too many verbose logs on hostd log file https://haewon83.tistory.com/46 개별 서비스들의 Configuration 정보가 기존 XML에서 Config Store Database로 옮겨가면서, hostd의 경우에는 어떻게 Configuration 정보를 추출했는지를 알 수 있었는데요. 마찬가지로 여러 다른 서비스들(vpxd, vpxa, firewall 등)에 대해서도 Config Store Database를 통해서 조회를 할 필요성이 있을 수 있습니다. 이러한 경우에 우선 Component / Group / Key 를 이해해야 합니다...
FDM Overview HA 주요 Component FDM HOSTD vCenter FDM(Fault Domain Manager) ## HA Agent Host Resource 정보, VM 상태, HA 속성 정보 교환 Heartbeat, VM Placement, VM 재시작 작업 처리 FDM은 단일 프로세스로 동작하며, Watchdog 프로세스 생성 로그 파일은 ESXi Host의 /var/log/fdm.log HOSTD FDM은 HOSTD와 vCenter와 직접 통신(VPXA와는 별개) HOSTD가 정상 동작하지 않으면, ESXi Host는 FDM에 참여 불가, FDM은 HOSTD가 정상 동작될 때까지 대기 FDM은 ESXi Host에 등록된 VM에 대한 정보를 HOSTD API를 이용하여 획득 vCenter vCenter는..