Operations Engineer, Fleet Reliability

Stelle nicht auf LinkedIn

🕒 vor 21 Tagen

🇺🇸 Vereinigte Staaten – Remote

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⚙️ Operations

🗣️🇺🇸🇬🇧 Englisch erforderlich

Jetzt Bewerben
Ähnliche Remote-Jobs finden

📊 Überprüfen Sie Ihre Lebenslauf-Bewertung für diese Stelle

Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

Logo of fal

fal

51 - 200 Mitarbeiter

🤖 Künstliche Intelligenz

🔌 API

🏢 Unternehmen

Artificial Intelligence • API • Enterprise

fal ist eine generative Medienplattform für Entwickler, die eine große Galerie von produktionsreifen generativen Modellen für Bilder, Videos, Audio und 3D bietet, die über einfache APIs zugänglich sind. Sie bietet serverlose, global verteilte GPU-Inferenz, bedarfsgesteuerte und dedizierte Cluster für Feinabstimmung und Training sowie Tools für die Bereitstellung privater oder kundenspezifischer Modelle mit Unternehmenssicherheit und Beobachtbarkeit. fal richtet sich an Entwickler und Unternehmen, die eine skalierbare generative KI-Infrastruktur benötigen, mit Funktionen wie SOC 2-Konformität, nutzungsbasierter Preisgestaltung und Integrationen für eine schnelle Produktentwicklung.

Beschreibung

• Provision, validate, and triage GPU nodes across B300, H200, and H100 clusters • Troubleshoot hardware and software issues across compute, network, and storage • Monitor fleet health, take remediation action, push fixes upstream when needed • Write the runbooks. Improve the ones that exist. Delete the ones that don't work

🎯 Anforderungen

• Administered Linux Systems in the critical path before • Troubleshooted GPU node issues: NVLink, NCCL, IB, driver and firmware bugs • Has experience in observability systems like Grafana and Prometheus • Scripted your way out of repetitive work (bash, python, go, whatever)

Jetzt Bewerben

Ähnliche Jobs

🕒 vor 21 Tagen

Capricor Therapeutics, Inc.

51 - 200

🧬 Biotechnologie

💊 Pharmazie

🔬 Wissenschaft

Director responsible for commercial operations supporting Deramiocel launch at Capricor. Requires extensive experience in biopharmaceuticals and innovative commercial strategies.

🇺🇸 Vereinigte Staaten – Remote

💵 $200.000 - $265.000 / Jahr

⏰ Vollzeit

🟠 Senior

⚙️ Operations

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 22 Tagen

QAD

1001 - 5000

🏢 Unternehmen

☁️ SaaS

Operational Excellence Manager leading Lean coaching and transformations across manufacturing sectors. Focused on enhancing productivity and employee experiences using Redzone software.

🇺🇸 Vereinigte Staaten – Remote

💵 $125.000 - $150.000 / Jahr

⏰ Vollzeit

🟢 Junior

🟡 Mittelstufe

⚙️ Operations

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich

🗣️🇪🇸 Spanisch erforderlich

🕒 vor 22 Tagen

Aledade, Inc.

501 - 1000

⚕️ Krankenversicherung

🏢 Unternehmen

🇺🇸 Vereinigte Staaten – Remote

⏰ Vollzeit

🟠 Senior

⚙️ Operations

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 22 Tagen

Refresco

10.000+ Mitarbeiter

🤝 B2B

🛒 Einzelhandel

Warehouse Operations Manager overseeing KPI data and assisting Plant Warehouse Managers with process improvements. Responsible for SAP implementations and managing warehouse KPI data tracker.

🇺🇸 Vereinigte Staaten – Remote

💰 €432.761.799 Debt Financing - Refresco im 2024-07

⏰ Vollzeit

🟠 Senior

🔴 Experte

⚙️ Operations

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 22 Tagen

Refresco

10.000+ Mitarbeiter

🤝 B2B

🛒 Einzelhandel

Warehouse Operations Manager overseeing KPI data and ensuring Refresco Warehouse Standards compliance. Managing process improvements and training associates for logistics operations.

🇺🇸 Vereinigte Staaten – Remote

💵 $103.140 - $123.138 / Jahr

💰 €432.761.799 Debt Financing - Refresco im 2024-07

⏰ Vollzeit

🟠 Senior

🔴 Experte

⚙️ Operations

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich