Revisión de problemas en Dynatrace

  Se ha hablado sobre Dynatrace en una entrada anterior de la presente bitácora.
  Se trata de un gestor de rendimiento que permite a las empresas optimizar la gestión del rendimiento de las aplicaciones y acelerar completamente el proceso de una compañía con circuitos de retroalimentación basados en hechos.
  Este programa ofrece una supervisión de la infraestructura totalmente automatizada por una inteligencia artificial para operaciones, puesto que supervisa continuamente la disponibilidad y analiza las causas fundamentales, lo que le permite operar en un entorno dinámico.
  Una de las tareas que se suelen realizar mediante esta herramienta es detectar los problemas que se dan en las aplicaciones y la infraestructura que monitoriza.

TIPOS DE PROBLEMAS

  Los tipos de problemas más relevantes que se pueden detectar con este gestor de rendimiento son:
  •   Disponibilidad: Este tipo de problemas surgen cuando recursos importantes, como hosts, procesos que admiten servicios o aplicaciones, dejan de responder; entre sus posibles razones se incluyen procesos bloqueados, cierres inesperados y pruebas sintéticas fallidas.
  •   Error: Los problemas de error se detectan cuando una aplicación o servicio experimenta un aumento significativo en la tasa de error. Los patrones de problemas de error incluyen mayores tasas de error de servicio y base de datos y aumentos de la tasa de error de JavaScript detectados a través de la supervisión de usuarios reales. Los patrones de problemas de errores se utilizan para informar sobre errores graves relacionados con entidades que todavía responden y funcionan.
  •   Ralentización: Cualquier problema que haga que el rendimiento de una aplicación, servicio o base de datos se degrade significativamente se clasifica automáticamente como un problema de ralentización. Según la duración de la degradación del rendimiento asociada, un problema de ralentización puede tener un impacto grave en el cliente. Sin embargo, los patrones de problemas de ralentización no son tan graves como los patrones de problemas de disponibilidad, que indican interrupciones completas de aplicaciones o servicios.
  •   Recursos: Los problemas de recursos surgen cuando se detecta una escasez de un recurso en su entorno supervisado (por ejemplo, problemas de memoria, CPU o espacio en disco). Dynatrace informa automáticamente sobre los problemas de recursos cuando se detecta una contención de recursos y ningún otro componente en su entorno está experimentando un problema. Por lo tanto, los problemas de recursos suelen evaluarse, pero generalmente no son algo que requiera atención urgente.
Iconos de tipos de problemas en Dynatrace

MÉTODO DE REVISIÓN DE PROBLEMAS 

  En primer lugar, se accede a la pantalla “Problems” desde el enlace con el mismo nombre del panel izquierdo de la pantalla del programa, que se abre desde el icono con las tres líneas horizontales a la izquierda del menú principal.
  En la mencionada pantalla puede verse un filtro con un intervalo de tiempo (lo más habitual es ponerlo en los últimos 30 minutos) a la derecha del menú principal, justo al lado del icono de acceso directo a la pantalla de problemas (un octógono con una exclamación central). Justo debajo hay una caja para filtrar los problemas según ciertas categorías predeterminadas [“Estado” (“Status”), “Severidad” (“Severity”), “Nivel de impacto” (“Impact level”), “Mantenimiento” (“Maintenance”)]. Bajo la caja hay un gráfico con los problemas en curso (señalados con el color rojo) y con los problemas solucionados. Finalmente viene la lista de problemas, que se organizan en filas predeterminadamente desde el más actual hasta el más antiguo dentro del intervalo de tiempo seleccionado en el filtro pertinente; cada fila se subdivide en varias columnas: “Problem” (nombre e identificador del problema), “Impacted” (parte de la infraestructura afectada), “Affected” (parte de la infraestructura más precisa afectada), “Root cause” (resumen de las causas raíz subyacentes del problema), “Start date” (fecha y hora en las que se inició el problema), “Duration” (duración del problema) y “Alerting profiles” (perfil de alerta que puede detectar ese problema).


  El método más rápìdo para acceder al problema es pulsar sobre el enlace de la columna “Impacted” (en este ejemplo, “Acceso Host - XXXXX” del problema con identificador “P-<número identificador”).


  Puede verse un resumen del error que provoca el problema casi al inicio de todo de la pantalla de la parte de la infraestructura afectada (se ha marcado con un rectángulo gris). Pero es posible indagar más si se pulsa sobre la sección que esté en rojo (en este ejemplo, el recuadro “Failure rate”).


  En la pantalla siguiente, puede verse un gráfico con el incremento de la tasa de fallo, pero, para ver más detalles, es necesario pulsar sobre el botón “Analyze failure rate degradation”.


  Finalmente, se puede llegar al origen del problema que, en este ejemplo, se trata de un fallo de conexión con el anfitrión.



  Aguardo que la presente entrada haya sido interesante para el lector. Si es así, espero que éste la comente y/o la comparta, por favor.

No hay comentarios:

Publicar un comentario

Deje aquí su comentario, si no puede comentar, pruebe a hacerlo desde otro navegador de red u otro equipo.