
B2B • Enterprise • Finance
FirstPrinciples Holding Company se concentre sur la création et le passage à l’échelle d’un portefeuille d’entreprises commerciales performantes. L’entreprise s’appuie sur une vision stratégique et une expertise opérationnelle pour maximiser la valeur et la croissance au sein de ses sociétés en portefeuille. FirstPrinciples vise à fournir des solutions durables qui favorisent la réussite à long terme de ses partenaires et parties prenantes.
51 - 200 employés
🤝 B2B
🏢 Entreprise
💸 Finance
il y a 1 mois
🗣️🇺🇸🇬🇧 Anglais requis
Ansible
AWS
Chef
Cloud
Docker
EC2
Grafana
Jenkins
Kubernetes
Linux
Prometheus
Python
Rust
SaltStack
Terraform
Unix
Go

B2B • Enterprise • Finance
FirstPrinciples Holding Company se concentre sur la création et le passage à l’échelle d’un portefeuille d’entreprises commerciales performantes. L’entreprise s’appuie sur une vision stratégique et une expertise opérationnelle pour maximiser la valeur et la croissance au sein de ses sociétés en portefeuille. FirstPrinciples vise à fournir des solutions durables qui favorisent la réussite à long terme de ses partenaires et parties prenantes.
51 - 200 employés
🤝 B2B
🏢 Entreprise
💸 Finance
• Concevoir l'architecture, automatiser et faire évoluer l'infrastructure pour l'entraînement de modèles à grande échelle et les workflows de recherche. • Concevoir et exécuter des expériences de pré-entraînement à grande échelle pour des architectures denses et MoE (Mixture of Experts). • Concevoir des solutions d'infrastructure hybrides couvrant le cloud et les environnements HPC sur site. • Automatiser la gestion de configuration et la détection de dérive à l'aide d'outils tels qu'Ansible, Salt ou Chef. • Construire des systèmes réduisant la charge opérationnelle et établissant des garde-fous pour les chercheurs. • Concevoir et prendre en charge des pipelines CI/CD complets pour les workflows d'entraînement, les tâches d'évaluation, les outils internes et les services, avec capacités de rollback. • Développer des outils pour les workflows développeurs, incluant des builds reproductibles, des environnements éphémères, la gestion des secrets et l'allocation des ressources de cluster. • Créer des modèles d'infrastructure en libre-service qui autonomisent chercheurs et ingénieurs. • Concevoir une infrastructure qui accélère l'expérimentation tout en maintenant fiabilité et reproductibilité. • Gérer et faire évoluer des environnements HPC, y compris des clusters GPU, des réseaux InfiniBand, des ordonnanceurs de tâches (hybride Slurm/Kubernetes) et l'orchestration de conteneurs. • Exploiter efficacement des charges de travail conteneurisées et planifiées sur Docker, Kubernetes et Slurm. • Optimiser l'ordonnancement des clusters et l'allocation des ressources pour des charges GPU haute performance. • Diagnostiquer des problèmes de pilotes GPU, des incidents liés aux jobs Slurm et des dysfonctionnements réseau InfiniBand. • Mettre en place un monitoring, une journalisation et un système d'alerting complets sur toutes les couches d'infrastructure. • Définir des SLO/SLI pour la fiabilité de l'infrastructure et créer des tableaux de bord d'observabilité pour les entraînements de longue durée. • Construire des stacks d'observabilité pour la santé système et les performances au niveau des jobs. • Détecter et résoudre proactivement les problèmes d'infrastructure avant qu'ils n'affectent les workflows de recherche. • Implémenter et gérer des solutions de gestion des secrets et de sécurité des identités. • Promouvoir les bonnes pratiques de sécurité, les politiques IAM et les standards de conformité. • Documenter les bonnes pratiques, créer des runbooks et promouvoir la culture DevOps au sein de l'organisation. • Mentorer les collègues sur les modèles d'infrastructure, les techniques d'automatisation et l'excellence opérationnelle.
• Diplôme de niveau Licence ou Master en informatique, ingénierie ou domaine connexe. • 6 à 10+ ans d'expérience en DevOps, infrastructures ou SRE, avec expérience pratique avérée en ingénierie des systèmes (pas seulement des certifications). • Expertise avancée en administration Unix/Linux, incluant le tuning du noyau, le réseau, le stockage et le contrôle des processus. • Expérience avancée d'Infrastructure-as-Code avec Terraform, Pulumi ou CloudFormation. • Expertise dans la construction de systèmes CI/CD et de pipelines de build reproductibles (GitHub Actions, GitLab CI, Jenkins, etc.). • Expérience pratique d'AWS (EC2, S3, IAM, VPC, etc.) et de la gestion d'infrastructures cloud. • Expérience d'orchestration de clusters et d'ordonnancement de tâches avec Kubernetes et Slurm. • Solide expérience des stacks de monitoring et d'observabilité (Prometheus, Grafana, ELK/EFK, OpenTelemetry). • Réussite démontrée dans la mise à l'échelle d'infrastructures pour des charges haute performance ou GPU. • Expérience avérée dans la gestion de clusters accélérés GPU ou d'infrastructures HPC. • Expérience dans l'automatisation de workflows réduisant la charge opérationnelle et permettant de faire évoluer les déploiements en toute sécurité. • Solides compétences en programmation dans au moins un langage compilé/systèmes (Python, Go ou Rust) ainsi qu'une maîtrise de Bash. • Capacité à travailler en transverse. Excellent communicant capable de simplifier des sujets complexes pour des publics variés. • Esprit entrepreneurial et orienté mission, à l'aise dans un environnement en forte croissance de type startup, motivé par l'ambition de relever l'un des plus grands défis scientifiques de l'histoire. • Passion démontrée pour la physique et pour rendre la connaissance scientifique accessible et impactante.
• Rejoignez FirstPrinciples et participez à une aventure transformative où la science impulse le progrès et libère le potentiel de l'humanité.
Postuler