SRE Senior

1001 - 5000 employees

Founded 1989

🏦 Banking

💸 Finance

💳 Fintech

Banking • Finance • Fintech

Banco ABC Brasil is a financial institution specialized in providing customized financial solutions to individuals and businesses. With a highly skilled multidisciplinary team, it focuses on promoting growth through long-term relationships based on loyalty, transparency, and results. They offer services such as personal investment banking, corporate financial management, insurance brokerage, and energy market solutions, aiming to help clients maximize their financial outcomes.

SRE Senior

🕒 May 19

🏢🏡 São Paulo – Hybrid

⏰ Full Time

🟡 Mid-level

🟠 Senior

⛑ DevOps & Site Reliability Engineer (SRE)

🗣️🇧🇷🇵🇹 Portuguese Required

AWS

Cloud

Grafana

Kubernetes

NFS

Prometheus

Python

Terraform

Apply Now

Find Similar Remote Jobs

📊 Check your resume score for this job

Improve your chances of getting an interview by checking your resume score before you apply.

Banco ABC Brasil

1001 - 5000 employees

Founded 1989

🏦 Banking

💸 Finance

💳 Fintech

Banking • Finance • Fintech

📋 Description

• Gestão de Capacidade, Performance e Disponibilidade • Planejar e ajustar continuamente a capacidade de recursos computacionais (compute, memoria, storage e rede) em AWS e on-premises, antecipando gargalos e evitando desperdício. • Monitorar, analisar e otimizar a performance de serviços e infraestrutura, identificando degradações antes que impactem usuários finais (uso das metodologias USE e RED). • Definir, implementar e manter SLOs, SLAs e error budgets, garantindo alta disponibilidade por meio de automações e runbooks bem documentados. • Construir e manter controles automatizados que assegurem os KPIs de confiabilidade acordados com o negócio, com rastreabilidade e auditabilidade. • Criar e evoluir automações de operação — scaling reativo e preditivo, remediação automática, provisionamento zero-touch — reduzindo toil e aumentando resiliência. • Gerenciar e otimizar clusters EKS: provisionamento, escalabilidade (HPA / VPA / Cluster Autoscaler / Karpenter), redes, storage e troubleshooting de workloads em produção. • Garantir infraestrutura versionada, reprodutivel e auditavel. • Realizar chaos engineering para validar resiliencia de sistemas (simulacao de falhas controladas, game days). • Manter stacks completas de observabilidade: métricas, logs, tracing distribuído e alertas orientados a SLOs. • Construir dashboards e alertas com Prometheus, Grafana e CloudWatch, com visibilidade de ponta a ponta sobre saúde da infraestrutura. • Aplicar conceitos e práticas de otimização de custos em cloud: rightsizing, reserved instances, savings plans e spot instances. • Produzir relatórios e recomendações de redução de custos em AWS, utilizando AWS Cost Explorer, Kubecost ou equivalente. • Implementar tagging e chargeback para visibilidade de custo por serviço, squad ou produto, promovendo cultura FinOps no time. • Atuar em escala de plantão (on-call), liderar resolução de incidentes de alta severidade e conduzir post-mortems sem cultura de culpa com action items concretos. • Apoiar SREs, disseminando práticas de confiabilidade, observabilidade e cultura de engenharia de operações. • Atuar como referência técnica para decisões de arquitetura de infraestrutura relacionadas a confiabilidade, capacidade e performance. • Atuar com revisões técnicas de infraestrrutura com o time de engenharia cloud.

🎯 Requirements

• Experiencia solida em gestão de capacidade e performance em ambientes híbridos (cloud + on-premises) com responsabilidade comprovada por SLOs e KPIs. • Domínio avançado de AWS: compute, storage, rede, IAM e serviços gerenciados em escala de producao. • Kubernetes/EKS em produção: provisionamento, troubleshooting, scaling e storage com experiencia mínima de 4 anos. • Terraform em nível produção: módulos, remote state, workspaces e reconciliacao de drift. • Observabilidade de ponta a ponta: metricas, logs, tracing, alertas orientados a SLOs e criação de dashboards operacionais. • Storage hibrido: domínio de tipos EBS, EFS, FSx em cloud e SAN/NAS/NFS on-premises, incluindo planejamento de IOPS e capacidade. • Python ou Bash para automações e ferramentas internas. • O candidato deve possuir ao menos uma certificação nas frentes de SRE e Cloud AWS. A ausência total de certificações em ambas as frentes, sem portfolio técnico solido comprovado, e fator eliminatório. A AWS Solutions Architect (Associate ou Professional) e o diferencial de maior peso dentro da frente cloud.

🏖️ Benefits

• Assistência Médica; • Assistência Odontológica Omint; • Seguro de Vida; • PLR; • PPR; • ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira; • Vale Refeição; • Vale Alimentação; • Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses; • Auxílio Creche/Babá; • Day Off anual; • Auxílio Infraestrutura para Home Office; • TotalPass;

Apply Now

Similar Jobs

Especialista DevOps

🕒 May 19

Stefanini Brasil

10,000+ employees

🤖 Artificial Intelligence

🔒 Cybersecurity

DevOps Specialist at Stefanini ensuring high reliability and scalability of agent platforms. Involves building execution layer, implementing monitoring, and automating deployments.

🏢🏡 São Paulo – Hybrid

⏰ Full Time

🟡 Mid-level

🟠 Senior

⛑ DevOps & Site Reliability Engineer (SRE)

🗣️🇧🇷🇵🇹 Portuguese Required

AWS

Azure

Cloud

Google Cloud Platform

Senior SRE / Infra Engineer

🕒 May 18

TRACK&FIELD

501 - 1000

🛒 Retail

🛍️ eCommerce

⚽ Sports

SRE/Infra Engineer ensuring the stability and security of TFSports' IT infrastructure. Focusing on high availability and performance for business operations in Brazil.

🏢🏡 São Paulo – Hybrid

⏰ Full Time

🟡 Mid-level

🟠 Senior

⛑ DevOps & Site Reliability Engineer (SRE)

🗣️🇧🇷🇵🇹 Portuguese Required

AWS

Cloud

DNS

EC2

Flux

Kubernetes

Python

Terraform

DevOps Analyst

🕒 May 14

Avanade

10,000+ employees

☁️ SaaS

🤝 B2B

🏢 Enterprise

DevOps Engineer managing CI/CD pipelines and cloud environments at Avanade. Contributing to strategic digital transformation projects and ensuring platform reliability and scalability.

🏢🏡 São Paulo – Hybrid

⏰ Full Time

🟡 Mid-level

🟠 Senior

⛑ DevOps & Site Reliability Engineer (SRE)

🗣️🇧🇷🇵🇹 Portuguese Required

AWS

Azure

Cloud

Docker

ETL

Google Cloud Platform

Grafana

Jenkins

Kubernetes

Linux

Prometheus

Python

Terraform

Senior SRE Analyst

🕒 May 6

INEX

51 - 200

🤝 B2B

🏢 Enterprise

🤖 Artificial Intelligence

SRE Analyst leading observability discipline in IT Operations. Responsible for service level definitions, metrics, troubleshooting, and cloud modernization projects.

🏢🏡 São Paulo – Hybrid

⏰ Full Time

🟠 Senior

⛑ DevOps & Site Reliability Engineer (SRE)

🗣️🇧🇷🇵🇹 Portuguese Required

Grafana