Found Description
Nos encontramos en búsqueda de un/a Site Reliability Engineer (SRE), quien será responsable de garantizar la disponibilidad, estabilidad, continuidad operativa y desempeño de las plataformas tecnológicas del cliente, administrando y evolucionando el ecosistema de observabilidad y monitoreo de ambientes críticos, con foco en la detección temprana de incidentes, automatización y mejora continua de la operación.Principales responsabilidadesRevisión continua del estado de plataformas: métricas, capacidad, rendimiento y latencias.Detección temprana de riesgos operativos y recomendaciones preventivas.Monitoreo y revisión de observabilidad: métricas, logs y alertas definidas por el cliente.Análisis y gestión de alertas durante el horario del servicio, proponiendo acciones de mitigación.Revisión y validación de configuraciones de alta disponibilidad, replicación y failover.Automatización de tareas críticas y repetitivas mediante scripts y procesos.Participación en análisis de incidentes crí...