Esxtop é uma ótima ferramenta para análise e troubleshoot de ambientes Vmware, com ela é possível analisar
a utilização de vários recursos do Host de forma simples e clara.
O ideal é usar como consulta para ter uma base, por exemplo se o parâmetro %RDY ficar boa parte do tempo
acima de 20, muito provavelmente a VM irá responder de forma lenta.
Para acessa lo, basta abrir uma sessão ssh no host desejado e digitar: esxtop
Na tela inicial, pressione a tecla f e você verá as opções disponíveis.
Metricas e alertas
Display | Métrica | Alerta | Descrição |
CPU | %RDY | 10 | Esse costuma ser um item chave, se estiver acima de 10 significa que a máquina virtual provavelmente tem mais vCPU (Processador Virtual) configuradas do que realmente precisa. |
CPU | %CSTP | 3 | Alto uso do vSMP, reduza a quantidade de vCPU para essa VM, dessa forma sobrará mais tempo para agendar as tarefas pendentes. |
CPU | %USED | Mostra por quanto tempo a maquina virtual esta gastando ciclos de CPU do host. |
|
CPU | %SYS | 20 | Porcentagem de tempo gasto pelos serviços do sistema, provavelmente devido o alto uso de IO da VM. |
CPU | %MLMTD | 0 | Porcentagem de tempo em que a vCPU estava pronta para execução porém não foi agendado devido a violação do limite de CPU, se for maior do que 0 o world (sistema) esta sendo reduzido devido o limite de CPU. |
CPU | %SWPWT | 5 | A VM esta aguardando as paginas que foram feito Swap serem lidas no disco, provavelmente a VM esta configurada com muito mais memória do que precisa. |
MEM | MCTLSZ | 1 | Se for maior do que 0, o host está forçando a VM a executar a técnica de Balloon para recuperar memória, pois o host está com mais memória configurada do que a disponível. |
MEM | SWCUR | 1 | Se for maior que 0, o host fez Swap da memória no passado. A provavel causa é que a VM possui mais memória configurada do que o necessário. |
MEM | SWR/s | 1 | Se for maior do que 0, o host esta ativamente fazendo leitura do Swap, a causa provavel é de que existe um alto uso de memória física. |
MEM | SWW/s | 1 | Se for maior do que 0, o host esta ativamente fazendo a gravação do Swap, a causa provável é de que existe um alto uso de memória física. |
MEM | CACHEUSD | 0 | Se for maior do que 0, o host esta comprimindo memória, provavelmente o host está com alto uso de memória. |
MEM | ZIP/s | 0 | Se for maior do que 0, o host está fazendo a compressão da memória ativamente, a provável causa é de que o host está com alto uso de memória. |
MEM | UNZIP/s | 0 | Se for maior do que 0, o host está acessando a memória comprimida, provavelmente a VM estava em um host com alto uso de memória. |
MEM | N%L | 80 | Se tiver abaixo de 80, a VM apresenta problemas com o NUMA, se a quantidade de memória RAM configurada na VM for maior do que a quantidade local de cada processador, o agendador não consegue fazer as otimizações do NUMA para a VM e acaba precisando acessar memória “remota” via interconexão, para mais pesquise sobre “GST_ND(X)” para entender melhor sobre como o acesso ao NUMA é feito. |
NETWORK | %DRPTX | 1 | Os pacotes transmitidos estão sendo perdidos. Hardware sobrecarregado. Provavel causa, alto uso da placa de rede. |
NETWORK | %DRPRX | 1 | Os pacotes recebidos estão sendo perdidos. Hardware sobrecarregado. Provavel causa, alto uso da placa de rede, |
DISK | GAVG | 25 | É a soma de “DAVG” e “KAVG”. |
DISK | DAVG | 25 | Tempo médio de resposta da controladora dos discos. |
DISK | KAVG | 2 | Latencia dos discos, causada pelo VMKernel, se o KAVG estiver alto, provavelmente os commandos estão enfileirando, verifique o “QUED”. |
DISK | QUED | 1 | A fila esta cheia, provavelmente a quantidade de commandos esta configurada muito baixa, verifique com o fabricante da controladora a quantidade ideal de comandos “Queue“. |
DISK | ABRTS/s | 1 | Geralmente quando o storage não esta respondendo, a VM envia commandos abortando a comunicação, Se a VM for Windows isso ocorre por padrão após 60 segundos. Isso pode ocorrer se um dos caminhos (path) falhar ou a controladora não estiver aceitando mais commandos por qualquer razão. |
DISK | RESETS/s | 1 | A quantidade de commandos “reset” por segundo. Cenarios onde existem múltiplos caminhos, o reset é enviado quando ocorre alguma falha na comunicação em um caminho com problema. |
DISK | RESV/s | São as reservas do SCSI, esse valor só é importante se tiver problemas com o “CONS/s” |
|
DISK | CONS/s | 20 | Diz respeito aos conflitos e reservas SCSI por segundo, se muitas Reservas e Conflitos ocorrerem, impacta o acesso ao VMFS. |
Dicas
Por padrão a tela é atualizada a cada 5 segundos, se quiser diminuir esse tempo, simplesmente digite:
s 3
Assim a atualização acorrerá a cada 3 segundos.
Para alterar as vizualizações basta digitar:
c = cpu
m = memoria
n = rede
i = interrupções
d = adaptadores de disco
u = dispositivos de disco
v = discos das VMs
p = Estado de energia
V = mostra somente as maquinas virtuais
l = limita a mostrar somente um grupo, bom para focar em somente uma VM
Para salvar as alterações digite:
W
esxtop -l