분류 전체보기 (212) 썸네일형 리스트형 [NSX] Statistics|Received Packets dropped|Cumulative metric has increased Aria Operations에서 특정 Tier-1 Gateway의 "Received Packets dropped" Count의 누적 값이 비정상적으로 증가하는 문제가 있어, 이에 대한 확인해 본 과정을 공유 합니다. [Symptom] 아래 캡쳐 화면을 보면, 전체 통계치가 1억을 넘는데, 개별 인터페이스 통계치의 합은 3600개 정도 [Troubleshooting Notes] 먼저 각 개별 Metric에 대한 내용을 확인하기 위해서 내부 Lab 환경을 이용하여 Metric별 API 확인 1. 내부 LAB 환경에서 Aria Operation UI 확인 Router Interface Statistics|Down Link|Received Packets dropped|Cumulative Router Interf.. Python and Powershell can be used for NSX Support Bundle NSX/Edge Support Bundle에 있는 대부분의 파일은 json format이기 때문에, 여러 가지 형태로 Filtering을 시도해 볼 수 있습니다. 아래는 Python과 Powershell을 활용하여, Edge Support Bundle에 있는 lb-stats.txt 파일을 Filtering 해보는 예제입니다. 다양한 방식으로 접근해 볼 수 있어 분석할 때 활용도가 높을 것으로 생각합니다. 1. Python import json d = {} with open("lb-stats.txt") as f: d = json.load(f) msg = "" for lb in d.get("lbs") or []: lb_display_name = lb.get("display_name") lb_l4_curr_s.. [NSX] false-positive alarm : Edge node NIC eth0 link is down NSX의 Transport인 ESXi와 Edge Node에는 System Health를 Report하기 위해 NSX-SHA(System Health Agent) 서비스가 위치합니다. 해당 서비스는 각종 State 정보에 대한 변경이 있는 경우 NSX Manager 쪽으로 이를 Report하는 것으로 확인되는데, 간혹 실제로 문제가 없는 상황이지만 Alarm을 전달하는 경우가 있습니다. Hypervisor Level의 이슈로 인해 Edge VM내의 NSX-SHA 서비스가 영향받고 결국 false-positive alarm까지 발생시키는 사례에 대해서 알아보겠습니다. [Symptom] eth0 NIC down 알람표시지만 edge 에서는 up상태 /var/log/syslog 확인시 down 없음. 2일동안 .. Packets keep going through load balancer to downed member server NSX Load Balancer를 사용할 때, Member Server의 상태가 Down으로 변경되었음에도 Client로부터의 Packet이 지속적으로 들어온다는 이슈 사항이 있어 진행했던 내용을 공유 합니다. [Symptom] 고객사에서는 HTTP Active Monitor를 사용 중에 있었고, 이에 대한 테스트를 위해 특정 시점에 Web Server에서 200 대신 404를 Return 하도록 변경을 진행합니다. 이 때 404를 Return한 특정 Member Servrer의 상태는 정상적으로 Down으로 변경이 되나, Web Server의 Access Log를 보면 계속해서 Client의 HTTP POST Request가 들어오는 것을 확인할 수 있습니다. [Environment] Client IP.. "incomp" state entries are detected due to ARP resolution failure 지난 번 살펴봤던 "No-neighbor"(https://haewon83.tistory.com/205)에 이어서 "No-neighbor" Count가 증가할 때 어떤 다른 현상들이 관측되는지 살펴보겠습니다. [Symptom] Edge에서 특정 Logical Router로 이동한 후, "get neighbor" 명령어를 실행하면 ARP entry들을 확인 가능 고객사 logical router에서 "get neighbor" 명령어 실행 시 다음과 같이, "incomp" 상태의 entry가 존재 고객사에서 확인 결과 "incmp" 상태의 entry에 있는 IP Address인 xxx.xxx.xxx.31과 xxx.xxx.xxx.101은 작년 12월경 제거된 VM이 사용하던 IP Address [Troubles.. Dataplaned process cannot start due to lack of malloc_heap Edge의 경우 x86 OS 기반에서 Packet Processing을 수행합니다. Packet Processing을 위해 pNIC의 Ring Buffer를 사용하게 되는데 짧은 시간 동안 과도하게 Traffic이 들어오고 나가는 경우 Ring Buffer Overflow가 발생할 수 있습니다. 이런 경우에는 Ring Buffer의 Default Size인 512byte부터 시작하여 1024, 2048, 최대 4096byte 까지 조금씩 증설해볼 수 있습니다. 문제는 이렇게 Ring Buffer Size를 늘린 경우, Edge의 DPDK가 사용하는 Hugepage Memory가 부족해지는 문제가 발생할 수 있습니다. 이로 인하여, dataplaned process도 정상적으로 시작되지 못할 수 있는데, .. What does "No-neighbor" mean? Edge에 생성되어 있는 Logical Router 내에 여러 Interface가 존재하는데 이 Interface 별로 Stat 정보를 조회할 수 있습니다. Stat 정보 조회 시, 여러 가지 값들이 조회 되는데 이 중 "No-neighbor"에 대한 질의가 있어 확인한 내용을 공유하고자 합니다. 우선 Logical Router의 특정 Interface에 대해서 Stat 정보를 조회해보겠습니다. edge-node-01> get logical-routers Sat Feb 24 2024 UTC 13:15:11.332 Logical Router UUID VRF LR-ID Name Type Ports Neighbors 736a80e3-23f6-5a2d-81d6-bbefb2786666 0 0 TUNNEL 4 6/.. [NSX] Failed to bring up one of vNICs after vMotion of VM edge Edge에는 2가지 형태의 Form Factor가 있는데, 그 중 하나가 VM으로 배포하는 것입니다.(다른 하나는 물리 서버에 배포하는 방식) Edge를 VM으로 배포하니, 당연히 Hypervisor가 제공하는 여러 Feature 중 vMotion 기능도 사용이 가능합니다. 본 케이스에서는 Hypervisor의 Maintenance 작업(ESXi Update)을 위해 Edge VM을 vMotion 하는 도중 Network Service에 문제가 생긴 사례를 알아보겠습니다. [Environment] [Symptom] 2024-01-08 2차례의 vMotion 과정 중, 2번째 vMotion 시점에 edge01의 BGP State가 DOWN으로 변경 Source Destination Result 2024-0.. [NSX] Gateway Firewall NSX는 보안을 위한 Firewall로 Gateway Firewall(GFW)과 Distributed Firewall 기능을 제공하고 있습니다. 이 중 Gateway Firewall이 동작하는 방식과 문제 증상을 Troubleshooting 하기 위해 필요한 자료 수집을 알아보겠습니다. GFW는 Edge에서 제공하는 Service 중(Gateway Firewall, NAT, DHCP) 하나로, Firewall Rule은 Top Down 순서로 적용됩니다. Firewall Rule은 Stateful과 Stateless 모두 가능하며, Stateful은 Flow의 최초 Packet(SYN)이 수신되면 State Table에 이를 위한 Record를 생성하고 이어지는 다음 Packet들은 Firewall Ru.. [NSX] Distributed Firewall NSX는 보안을 위한 Firewall로 Gateway Firewall과 Distributed Firewall(DFW) 기능을 제공하고 있습니다. 이 중 Distributed Firewall이 동작하는 방식과 문제 증상을 Troubleshooting 하기 위해 필요한 자료 수집을 알아보겠습니다. 우선 Distributed Firewall을 사용하면, 실제 Firewall 기능이 동작하는 부분은 각 Hypervisor에 위치한 VM vNIC의 Filter에 적용됩니다. NSX DFW가 적용되는 Hypervisor의 vNIC의 dvfilter는 아래 그림과 같이 VM의 vNIC과 Vritutal Switch 사이에 위치합니다. VM의 vNIC와 Virtual Switch 사이의 Traffic은 여러 종류의 S.. 이전 1 2 3 4 5 6 7 ··· 22 다음