Sept 2025 - Actualidad
IC4 - Sr Observability Infrastructure Engineer
Spin · Remote
Como Sr Observability Infrastructure Engineer mi rol se enfoca en escalar la visibilidad de los sistemas para toda la compañía. Colaboro en la gestión y administración de múltiples tenants de Datadog, plataforma crítica utilizada por más de 1000 colaboradores para la visualización integral de logs, métricas, trazas y eventos. Esta responsabilidad incluye la gestión estratégica de más de 6000 monitores productivos a través de cuatro unidades de negocio, asegurando que la identificación y generación de alertas críticas sea prioritaria. Mi valor reside en traducir la Observabilidad técnica en impacto de negocio: impulso la generación de métricas custom con un fuerte enfoque en la operación de cara al cliente final. Además, colaboro activamente en la creación de dashboards operativos a nivel de infraestructura y de negocio. Para la gestión de incidentes, administro y optimizo las políticas de escalación y enrutamiento de alertas, garantizando la eficiencia del proceso al integrarlas con Jira Service Management (ITSM).
Responsabilidades y Logros:
- •Gestión multi-tenant de alertas (+1200 usuarios, +6000 monitores)
- •Reduccion en un 60% de alertas falsos positivos mediante la calibración de monitores
- •Generación de métricas de negocio custom basadas en logs y trazas, generación de dashboards operativos
- •Implementación de un modelo de Gobierno de Alertas como Código mediante Terraform. Centralicé la configuración de routing rules, schedules y políticas de escalación para más de 50 equipos distribuidos en 5 unidades de negocio, logrando la federación de roles y eliminando la configuración manual de la plataforma.
- •Optimización de políticas de escalación y enrutamiento en Jira Service Management. Categorización de alertas basada en Golden Metrics (Requests, Errores, Latencia) para alinear la respuesta operativa con el impacto real en la experiencia de usuario.