FirstPrinciples Holding Company

Site LinkedIn Todas as Vagas

B2B • Enterprise • Finance

A FirstPrinciples Holding Company tem foco em construir e escalar um portfólio de negócios comerciais bem-sucedidos. A empresa utiliza insights estratégicos e expertise operacional para maximizar valor e crescimento nas empresas do seu portfólio. A FirstPrinciples busca oferecer soluções sustentáveis que impulsionem o sucesso de longo prazo para seus parceiros e stakeholders.

51 - 200 funcionários

🤝 B2B

🏢 Corporativo

💸 Finanças

Membro do Time Técnico — DevOps / Engenharia de Infraestrutura

Vaga não está no LinkedIn

Outubro 11

🌏 Qualquer lugar do mundo

⏰ Tempo Integral

🔴 Especialista

⛑ DevOps & Engenheiro de Confiabilidade do Site (SRE)

🗣️🇺🇸🇬🇧 Inglês obrigatório

Ansible

AWS

Chef

Cloud

Docker

EC2

Grafana

Jenkins

Kubernetes

Linux

Prometheus

Python

Rust

SaltStack

Terraform

Unix

Candidatar-se

FirstPrinciples Holding Company

Site LinkedIn Todas as Vagas

B2B • Enterprise • Finance

51 - 200 funcionários

🤝 B2B

🏢 Corporativo

💸 Finanças

Descrição

• Projetar, automatizar e escalar a infraestrutura para treinamentos de modelos em larga escala e fluxos de trabalho de pesquisa. • Projetar e executar experimentos de pré-treinamento em larga escala para arquiteturas dense e MoE. • Arquitetar soluções de infraestrutura híbrida que abranjam ambientes cloud e HPC on‑premises. • Automatizar gerenciamento de configuração e detecção de drift usando ferramentas como Ansible, Salt ou Chef. • Construir sistemas que reduzam o trabalho operacional repetitivo (toil) e estabeleçam guardrails para pesquisadores. • Construir e ser responsável por pipelines completos de CI/CD para fluxos de treinamento, jobs de avaliação, ferramentas internas e serviços, com capacidades de rollback. • Desenvolver ferramentas para fluxos de trabalho de desenvolvedores, incluindo builds reprodutíveis, ambientes efêmeros, gerenciamento de secrets e alocação de recursos de cluster. • Criar padrões de infraestrutura self-service que empoderem pesquisadores e engenheiros. • Projetar infraestrutura que acelere a experimentação mantendo confiabilidade e reprodutibilidade. • Gerenciar e expandir ambientes HPC, incluindo clusters com GPUs, redes InfiniBand, schedulers de jobs (híbrido Slurm/Kubernetes) e orquestração de containers. • Operar workloads containerizados e agendados eficientemente em ambientes Docker, Kubernetes e Slurm. • Otimizar escalonamento de cluster e alocação de recursos para workloads GPU de alto desempenho. • Depurar problemas de drivers de GPU, falhas em jobs do Slurm e instabilidades em redes InfiniBand. • Implementar monitoramento, logging e alertas abrangentes em todas as camadas da infraestrutura. • Estabelecer SLOs/SLIs para confiabilidade da infraestrutura e criar dashboards de observabilidade para treinamentos de longo prazo. • Construir stacks de observabilidade para saúde do sistema e desempenho em nível de job. • Detectar e resolver proativamente problemas de infraestrutura antes que impactem os fluxos de pesquisa. • Implementar e gerenciar soluções de secrets management e segurança de identidade. • Ser um defensor das melhores práticas de segurança, políticas de IAM e padrões de compliance. • Documentar melhores práticas, criar runbooks e evangelizar a cultura DevOps na organização. • Mentorar colegas em padrões de infraestrutura, técnicas de automação e excelência operacional.

🎯 Requisitos

• Graduação ou mestrado em Ciência da Computação, Engenharia ou área relacionada. • 6–10+ anos em cargos de DevOps, Infraestrutura ou SRE com experiência prática comprovada em engenharia de sistemas (não apenas certificações). • Sólida expertise em administração Unix/Linux, incluindo tuning de kernel, rede, armazenamento e controle de processos. • Experiência avançada com Infrastructure-as-Code (IaC) usando Terraform, Pulumi ou CloudFormation. • Expertise na construção de sistemas de CI/CD e pipelines de build reprodutíveis (GitHub Actions, GitLab CI, Jenkins etc.). • Experiência prática com AWS (EC2, S3, IAM, VPC etc.) e gerenciamento de infraestrutura em nuvem. • Experiência em orquestração de cluster e agendamento de jobs com Kubernetes e Slurm. • Forte experiência com stacks de monitoramento e observabilidade (Prometheus, Grafana, ELK/EFK, OpenTelemetry). • Histórico comprovado de escalonamento de infraestrutura para workloads de alto desempenho ou GPU. • Experiência em gerenciar clusters acelerados por GPU ou infraestrutura HPC. • Experiência em automatizar fluxos que reduziram toil e em escalar deploys de forma segura. • Fortes habilidades de programação em pelo menos uma linguagem compilada/de sistemas (Python, Go ou Rust) e fluência em Bash. • Capacidade de trabalhar de forma cross‑functional. Excelente comunicação e habilidade para simplificar tópicos complexos para audiências diversas. • Perfil empreendedor e orientado por missão, confortável em um ambiente de rápido crescimento estilo startup, motivado pela ambição de enfrentar um dos maiores desafios científicos da história. • Paixão demonstrada por física e por tornar o conhecimento científico acessível e impactante.

🏖️ Benefícios

• Junte-se a nós na FirstPrinciples e faça parte de uma jornada transformadora onde a ciência impulsiona o progresso e desbloqueia o potencial da humanidade.

Candidatar-se

Desenvolvido por Lior Neu-ner. Adoraria receber seu feedback — entre em contato por DM ou pelo e-mail support@remoterocketship.com