Site Reliability Engineer – SRE

Job not on LinkedIn

November 19

Apply Now
Logo of MedTrainer

MedTrainer

Healthcare Insurance • Compliance • SaaS

MedTrainer is a comprehensive healthcare compliance software company that automates compliance, credentialing, and learning processes for healthcare organizations. They offer an enterprise learning management system with nearly 1,000 healthcare-specific courses aimed at ensuring regulatory compliance. MedTrainer's services include managed credentialing, provider enrollment, document and policy management, incident reporting, and safety data sheet management. The platform is designed to streamline compliance tasks, save time, and improve efficiency for healthcare facilities such as hospitals, urgent care centers, and clinics, by providing tools like real-time reporting, automated workflows, and training programs. MedTrainer serves a variety of healthcare roles and settings, enhancing their capability to meet regulations and manage operations effectively. Their software is trusted by over 3,000 healthcare clients and 15,000 facilities.

201 - 500 employees

⚕️ Healthcare Insurance

📋 Compliance

☁️ SaaS

💰 $43M Series B on 2022-04

📋 Description

• Diseñar, construir y operar clústeres de Kubernetes (AKS) de grado de producción y servicios de soporte con alta disponibilidad, seguridad y optimización de costos • Arquitectar, implementar y mantener CI/CD utilizando GitHub Actions (avanzado), incluidos flujos de trabajo reutilizables, matrices, entornos, aprobaciones requeridas, autenticación en la nube basada en OIDC, corredores autoalojados y controles de políticas. • Definir, codificar y evolucionar la Infraestructura como Código con Pulumi (Python) como la pila principal; crear componentes reutilizables, hacer cumplir revisiones de código, pruebas y documentación. • Desarrollar y mantener la gestión de configuración con Ansible (roles, colecciones, inventarios, playbooks) para operaciones de OS, middleware y aplicaciones. • Implementar estrategias de entrega y despliegue progresivas (blue/green, canary, banderas de características) y automatizar la reversión/avanzar según los controles de salud y SLOs. • Establecer una observabilidad integral (métricas, registros, trazas, perfiles) con alertas vinculadas a SLOs; impulsar la planificación de capacidad, ajuste de rendimiento y pruebas de caos/resiliencia. • Liderar la gestión de incidentes y respuesta en guardia; coordinar la triage, comunicación, mitigación, análisis de causa raíz y seguimiento de acciones correctivas. • Colaborar con producto e ingeniería para diseñar para la fiabilidad (sondas de preparación/vitalidad, cierre ordenado, presión de retroceso, reintentos/tiempos de espera, interruptores de circuito). • Implementar mejores prácticas de seguridad (mínima privilegio, gestión de secretos) y asegurar el cumplimiento con políticas y auditorías internas. • Revisar continuamente los sistemas existentes, eliminar el trabajo a mano mediante la automatización, reducir la deuda técnica y documentar libros de operación y estándares.

🎯 Requirements

• Licenciatura en Ciencias de la Computación, título equivalente o experiencia profesional equivalente • Más de 3 años trabajando en sistemas distribuidos y operaciones en la nube • Sólida experiencia práctica con al menos dos proveedores de nube importantes (Azure, AWS, GCP) y sus servicios de Kubernetes gestionados • Profunda experiencia en arquitectura y/o operación de grandes clústeres de Kubernetes: identidad de carga de trabajo, redes, almacenamiento, escalado automático, actualizaciones, seguridad y multi-tenencia • Experiencia en contenedores (Docker/OCI), empaquetado y configuración, y experiencia en malla de servicios es un plus • Experiencia avanzada en GitHub Actions: flujos de trabajo reutilizables/composites, concurrencia/colas, entornos y aprobaciones, federación OIDC, artefactos, caché, revisión de dependencias, y políticas/código • Fuertes habilidades en Python (requerido) para IaC basado en Pulumi, herramientas y automatización; conocimientos de Golang son un plus • Familiaridad con CI/CD, gestión de cambios y experiencia en entrega progresiva • Experiencia en pila de observabilidad y prácticas de alerta ligadas a SLOs. • Configuración de redes nativas de la nube, almacenamiento, Linux, controles de seguridad y gobernanza de costos • Experiencia en migración y escalado de infraestructura entre nubes • Certificaciones relevantes (por ejemplo, CKA) son un plus • Inglés avanzado (opcional)

🏖️ Benefits

• Seguro de salud • Cobertura médica mayor • Soporte para oficina en casa y ergonomía (internet, electricidad, silla de oficina) • Oportunidades de desarrollo profesional, incluidas clases de inglés • Beneficios de bienestar como descuentos en gimnasio TotalPass • Plan de ahorros • Días de vacaciones pagados, incluidos días personales • Un entorno colaborativo, internacional y orientado al crecimiento.

Apply Now

Similar Jobs

November 13

Senior DevOps Engineer at Peek.com providing infrastructure-as-code and scaling platform reliability. Contributing to the whole Engineering organization with a remote-first team.

AWS

Azure

Cloud

DNS

Google Cloud Platform

Jenkins

Kubernetes

Python

SDLC

Terraform

TypeScript

Go

November 10

DevOps Engineer for a FinTech company in Mexico, focusing on AWS infrastructure and security compliance. Collaborating with teams to automate processes and mentor members.

🗣️🇪🇸 Spanish Required

AWS

Cloud

Python

November 7

DevOps Engineer managing cloud infrastructure and automation for Jeeves, a financial technology startup. Collaborating on deployment and security for a global financial operating system.

Cloud

Distributed Systems

Groovy

Jenkins

Kubernetes

Microservices

Terraform

November 6

DevOps Engineer working with FICO, a global analytics software company specializing in cloud technologies. Manage CI/CD pipelines, optimize Kubernetes applications, and ensure cloud security.

AWS

Cloud

EC2

Flux

Grafana

Kubernetes

Prometheus

Python

Terraform

November 4

Site Reliability Engineer managing core infrastructure using AWS and Kubernetes at Truelogic. Focused on building reliable services and collaborating with backend teams.

AWS

Grafana

Kafka

Kubernetes

Node.js

Prometheus

Python

Spark

Built by Lior Neu-ner. I'd love to hear your feedback — Get in touch via DM or support@remoterocketship.com