Senior AI Infrastructure, Platform Operations Engineer

🔥 il y a 10 minutes

🇪🇺 Europe – Télétravail

⏰ Temps Plein

🟠 Senior

👷 Ingénieur Infrastructure

🗣️🇺🇸🇬🇧 Anglais requis

Postuler Maintenant
Trouver des Emplois à Distance Similaires

📊 Vérifiez votre score de CV pour ce poste

Améliorez vos chances d'obtenir un entretien en vérifiant votre score de CV avant de postuler.

Logo of Mirantis

Mirantis

501 - 1000 employés

🏢 Entreprise

☁️ SaaS

Cloud Computing • Enterprise • SaaS

Mirantis est une entreprise spécialisée dans la gestion de conteneurs et les solutions d'infrastructure cloud. Elle propose une gamme de produits, notamment Mirantis Kubernetes Engine (MKE), Mirantis OpenStack pour Kubernetes (MOSK) et Mirantis Container Cloud (MCC), qui offrent des plateformes de gestion de Kubernetes et de conteneurs de niveau entreprise. Mirantis développe également des outils pour des chaînes d'approvisionnement logicielles sécurisées, tels que le Mirantis Container Runtime (MCR) et le Mirantis Secure Registry (MSR). En tant que défenseur des technologies open source, Mirantis soutient divers projets et fournit des ressources comme Lens Desktop, un IDE Kubernetes populaire, et un support technique pour les entreprises adoptant des technologies cloud-natives. Leurs solutions s'adressent à des secteurs tels que les services publics, les services financiers et les industries des services technologiques et SaaS au sens large.

Description

• Lead the investigation and resolution of complex infrastructure, networking, and platform-related incidents. • Act as a senior escalation point for operational teams during critical service-impacting events. • Support large-scale NVIDIA GPU infrastructure and high-performance networking environments. • Troubleshoot complex Linux, Kubernetes, networking, storage, and hardware-related issues. • Analyze platform performance, capacity, stability, and reliability trends to proactively identify risks. • Lead root cause analysis activities and drive long-term corrective actions. • Collaborate with engineering teams, hardware vendors, and datacenter personnel to resolve complex technical challenges. • Participate in major incident management and service restoration activities. • Provide technical leadership for Kubernetes platform operations and supporting infrastructure services. • Drive improvements in platform reliability, observability, monitoring, and operational processes. • Identify opportunities to automate repetitive operational activities and improve operational efficiency. • Support the adoption and operation of AI-powered infrastructure services and operational capabilities through k0rdent AI. • Mentor and support AI Infrastructure & Platform Operations Engineers.

🎯 Exigences

• 7+ years of experience in infrastructure operations, platform operations, site reliability engineering, network operations, cloud operations, datacenter operations, or related technical roles. • Expert-level Linux administration and troubleshooting skills. • Strong networking expertise, including experience diagnosing complex performance, connectivity, and reliability issues. • Strong experience operating Kubernetes in production environments. • Experience supporting large-scale production infrastructure and distributed systems. • Proven experience leading technical investigations and managing complex incidents. • Experience performing root cause analysis and driving long-term operational improvements. • Strong understanding of observability, monitoring, and service reliability practices. • Excellent troubleshooting and analytical skills across multiple infrastructure domains. • Strong communication, collaboration, and stakeholder management skills.

🏖️ Avantages

• Work with the latest NVIDIA GPU technologies, Kubernetes platforms, and high-performance networking environments. • Help define operational standards and reliability practices for next-generation AI infrastructure services. • Influence the adoption of AI-powered operational capabilities through k0rdent AI. • Join a growing organisation investing heavily in AI infrastructure, platform services, and operational innovation.

Postuler Maintenant

Emplois Similaires

🕒 il y a 6 jours

NIR-YU

201 - 500

🎯 Recrutement

👥 RH Tech

🏢 Entreprise

Ingénieur Unity senior en charge de l'infrastructure côté client d'une plateforme de formation en réalité virtuelle. Axé sur l'architecture et l'optimisation dans un mode de travail flexible et 100 % à distance.

🇪🇺 Europe – Télétravail

⏰ Temps Plein

🟠 Senior

👷 Ingénieur Infrastructure

🗣️🇺🇸🇬🇧 Anglais requis

Unity

🕒 il y a 29 jours

Thrill

11 - 50

🎮 Jeux vidéo

🥽 RA/RV

Ingénieur Data Warehouse et Infrastructure optimisant les requêtes ClickHouse et gérant l'infrastructure de données chez Thrill Labs. Responsable de la maintenance des modèles de données et des tableaux de bord, assurant la qualité et les performances des données.

🇪🇺 Europe – Télétravail

⏰ Temps Plein

🟡 Intermédiaire

🟠 Senior

👷 Ingénieur Infrastructure

🗣️🇺🇸🇬🇧 Anglais requis

Ansible

Docker

Kafka

Kubernetes

Linux

Shell Scripting

SQL

Terraform

Zookeeper

🕒 il y a 3 mois

Amplemarket

51 - 200

🤖 Intelligence artificielle

🤝 B2B

☁️ SaaS

Ingénieur Infrastructure chez Amplemarket, utilisant l'IA pour des solutions de vente B2B. Conception de systèmes scalables pour la fiabilité tout en facilitant la collaboration interfonctionnelle.

🇪🇺 Europe – Télétravail

💰 €12 000 000 Series A en 2022-04

⏰ Temps Plein

🟡 Intermédiaire

🟠 Senior

👷 Ingénieur Infrastructure

🗣️🇺🇸🇬🇧 Anglais requis