Diferencias

Muestra las diferencias entre dos versiones de la página.

--- ada:sicoferp:integraciones:prometheus [2024/05/23 15:48]
186.97.148.66 creado
+++ ada:sicoferp:integraciones:prometheus [2024/05/24 02:44] (actual)
191.156.37.8
@@ Línea 33: / Línea 33: @@
 Ejemplo:
-  http://ipservidor:9323
+  http://ipservidor:9323/metrics
 Deberia mostrarle algo como lo siguiente.
@@ Línea 133: / Línea 133: @@
       static_configs:
         - targets: ["ipservidor:9323"]
+Lo siguiente seria reiniciar el contendor de prometheus pero si lo hace en este momento la mas probable es que el contenor no suba debido a que el archivo de reglas no esta definido asi que lo siguiente seria crearlo.
+En ese msimo direcorio cree un archivo llamado rules-files.yml o el nombre de su preferencia pero recuerde referenciarlo en su archivo prometheus.yml.
+Comando.
+  nano rules-files.yml
+Este archivo es para definir algunas reglas y se puede definir en que caso se levantan alertas.
+Para esta configuración agregue la siguiente información a este archivo.
+  groups:
+  - name: docker-containers
+    rules:
+    - alert: ContainerStoppedAlert
+      expr: engine_daemon_container_states_containers{state="stopped"} > 0
+      for: 1m
+      labels:
+        severity: critical
+      annotations:
+        summary: "Detected stopped containers"
+        description: "There are one or more containers stopped on the Docker engine."
+En resumen esta configuración hace que se levante una alerta cada vez que un contendor se detuvo por almenos 1 minuto.
+Lo siguiente seria reinicar el contendor de prmetheus pero existe uan gran probabilidad de que este no suba debido a qaue aún no se ha creado ni configuradoe el aert manager.
+== Configuración alert manager ==
+El alert manager es el encargado de administrar las alertas y hacer el envío de estas a donde se defina para levantar el alert manager.
+Antes de levantar el alert manager se recomienda ya tener su archivo de configuación ya construido para eso digamos que voy a utilizar el directorio /opt/monitoring puede ser el de su preferencia.
+Lo siguiente seria crear su archivo alertmanager.yml
+Como se ha indicado estos archivos son muy configurables pero para este manual por favor ingrese el seguiente contenido al archivo.
+  global:
+    resolve_timeout: 3m
+  route:
+    group_by: ['alertname']
+    group_wait: 30s
+    group_interval: 5m
+    repeat_interval: 2m
+    receiver: 'slack-notifications'
+  receivers:
+    - name: 'slack-notifications'
+      slack_configs:
+        - api_url: 'https://hooks.slack.com/services/your_chanel'
+          channel: '#monitoring-portal'
+          text: 'Se ha caído el portal {{ .CommonLabels.instance }}.'
+          title: 'Portal Caído'
+  inhibit_rules:
+    - source_match:
+        severity: 'critical'
+      target_match:
+        severity: 'warning'
+      equal: ['alertname', 'dev', 'instance']
+Recuerde que debe generar su propio webhook para que conecte a su canal deseado de slack.
+Ya con el archivo definido lo siguiente seria inicar el contendor de slack puede utilizar el siguiente comando.
+  docker run -d --name alertmanager -v /opt/monitoring/alertmanager.yml:/etc/alertmanager/alertmanager.yml -p 9093:9093 prom/alertmanager
+Ya con este arriba ahora reinicie el contendor de prometheus o levantelo si estaba abajo.
+Esta vez el contendor si deberia quedar arriba, si ingresa por el navegador a prometheus y revisa en alert ya debe registrarle un item ya en este momento ya tiene configurado las alertas en caso de que se caiga algun contendor pueda responder a tiempo.
+Ya solo tiene que configurar grafana para una monitoria mas comoda de sus contendores o agregar mas reglas para manejar mas factores de riesgo.
+=== Gracias por su atención prestada ===

Wiki

Herramientas de usuario

Herramientas del sitio

Diferencias

Herramientas de la página