Operations Engineer, Fleet Reliability

Emploi pas sur LinkedIn

🕒 il y a 27 jours

🇺🇸 États-Unis – Télétravail

⏰ Temps Plein

🟡 Intermédiaire

🟠 Senior

⚙️ Opérations

🗣️🇺🇸🇬🇧 Anglais requis

Postuler Maintenant
Trouver des Emplois à Distance Similaires

📊 Vérifiez votre score de CV pour ce poste

Améliorez vos chances d'obtenir un entretien en vérifiant votre score de CV avant de postuler.

Logo of fal

fal

51 - 200 employés

🤖 Intelligence artificielle

🔌 API

🏢 Entreprise

Artificial Intelligence • API • Enterprise

fal est une plateforme de médias génératifs pour les développeurs, offrant une grande galerie de modèles génératifs prêts à la production pour les images, vidéos, audios et 3D, accessibles via des API simples. Elle propose des inférences GPU sans serveur, distribuées mondialement, des clusters à la demande ou dédiés pour le fine-tuning et l'entraînement, ainsi que des outils pour déployer des modèles privés ou personnalisés avec une sécurité et une observabilité de niveau entreprise. fal cible les développeurs et les entreprises nécessitant une infrastructure IA générative évolutive, avec des caractéristiques telles que la conformité SOC 2, une tarification basée sur l'utilisation, et des intégrations pour une mise en productivité rapide.

Description

• Provision, validate, and triage GPU nodes across B300, H200, and H100 clusters • Troubleshoot hardware and software issues across compute, network, and storage • Monitor fleet health, take remediation action, push fixes upstream when needed • Write the runbooks. Improve the ones that exist. Delete the ones that don't work

🎯 Exigences

• Administered Linux Systems in the critical path before • Troubleshooted GPU node issues: NVLink, NCCL, IB, driver and firmware bugs • Has experience in observability systems like Grafana and Prometheus • Scripted your way out of repetitive work (bash, python, go, whatever)

Postuler Maintenant

Emplois Similaires

🕒 il y a 27 jours

Capricor Therapeutics, Inc.

51 - 200

🧬 Biotechnologie

💊 Pharmaceutique

🔬 Science

Director responsible for commercial operations supporting Deramiocel launch at Capricor. Requires extensive experience in biopharmaceuticals and innovative commercial strategies.

🇺🇸 États-Unis – Télétravail

💵 $200 000 - $265 000 / an

⏰ Temps Plein

🟠 Senior

⚙️ Opérations

🗣️🇺🇸🇬🇧 Anglais requis

🕒 il y a 27 jours

QAD

1001 - 5000

🏢 Entreprise

☁️ SaaS

Operational Excellence Manager leading Lean coaching and transformations across manufacturing sectors. Focused on enhancing productivity and employee experiences using Redzone software.

🇺🇸 États-Unis – Télétravail

💵 $125 000 - $150 000 / an

⏰ Temps Plein

🟢 Junior

🟡 Intermédiaire

⚙️ Opérations

🦅 Parrain de Visa H1B

info

🗣️🇺🇸🇬🇧 Anglais requis

🗣️🇪🇸 Espagnol requis

🕒 il y a 27 jours

Aledade, Inc.

501 - 1000

⚕️ Assurance santé

🏢 Entreprise

🇺🇸 États-Unis – Télétravail

⏰ Temps Plein

🟠 Senior

⚙️ Opérations

🗣️🇺🇸🇬🇧 Anglais requis

🕒 il y a 27 jours

Refresco

10 000+ employés

🤝 B2B

🛒 Commerce de détail

Warehouse Operations Manager overseeing KPI data and assisting Plant Warehouse Managers with process improvements. Responsible for SAP implementations and managing warehouse KPI data tracker.

🇺🇸 États-Unis – Télétravail

💰 €432 761 799 Debt Financing - Refresco en 2024-07

⏰ Temps Plein

🟠 Senior

🔴 Expert

⚙️ Opérations

🦅 Parrain de Visa H1B

info

🗣️🇺🇸🇬🇧 Anglais requis

🕒 il y a 27 jours

Refresco

10 000+ employés

🤝 B2B

🛒 Commerce de détail

Warehouse Operations Manager overseeing KPI data and ensuring Refresco Warehouse Standards compliance. Managing process improvements and training associates for logistics operations.

🇺🇸 États-Unis – Télétravail

💵 $103 140 - $123 138 / an

💰 €432 761 799 Debt Financing - Refresco en 2024-07

⏰ Temps Plein

🟠 Senior

🔴 Expert

⚙️ Opérations

🦅 Parrain de Visa H1B

info

🗣️🇺🇸🇬🇧 Anglais requis