Staff SRE, AI Infrastructure

Stelle nicht auf LinkedIn

🕒 vor 24 Tagen

🏄 California – Remote

info

⏰ Vollzeit

🔴 Experte

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich

Jetzt Bewerben
Ähnliche Remote-Jobs finden

📊 Überprüfen Sie Ihre Lebenslauf-Bewertung für diese Stelle

Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

Logo of Andromeda

Andromeda

11 - 50 Mitarbeiter

🤖 Künstliche Intelligenz

🤝 B2B

🔧 Hardware

🔥 Finanzierung im letzten Jahr

💰 €15.142.238 Series A - Andromeda Robotics im 2025-09

Artificial Intelligence • B2B • Hardware

Andromeda ist ein GPU-Computing-Service und Marktplatz, der sofortigen Zugriff auf große Cluster von H100-, H200- und B200-Beschleunigern für Experimente, umfassendes Training und Inferenz bietet. Er unterstützt die Orchestrierung mit Slurm, Kubernetes oder direktem SSH, bietet flexible Nutzung ohne Mindestdauer zu wettbewerbsfähigen Preisen und umfasst DevOps-Expertise sowie lokales NAS- oder gestreamtes Speichern ohne Eingangs-/Ausgangsgebühren und 24/7-Support mit Branchen-SLAs. Das Unternehmen betreibt außerdem einen Drittanbietermarkt für GPUs unter gpulist. ai.

Beschreibung

• Own the reliability of Andromeda's infrastructure end to end • Lead top-customer training run responses and write the postmortem • Ensure the health of thousands of GPUs across providers • Build telemetry, GPU health checks, and automated remediation • Define on-call processes like rotations and escalation • Be the reliability voice in customer incident reviews • Collaborate closely with the product team on SLOs • Partner with providers and data center teams on physical design • Make other engineers better through mentorship

🎯 Anforderungen

• Multiple years building and operating large-scale GPU infrastructure as your primary job • A clear history of owning the reliability of load-bearing infrastructure • Deep, hands-on with NVIDIA H100/H200/B200/GB200 (or equivalent) at scale • Real production experience with InfiniBand, RoCE, and NVLink fabrics • Working knowledge of how large training jobs run — NCCL, CUDA, PyTorch distributed • Strong Go, Python, or Rust proficiency • Expert-level Linux & Systems Internals • Comfortable being the senior engineer on a P0 bridge with the customer • Comfortable being the senior technical voice with AI infra customers

🏖️ Vorteile

• Significant autonomy • Working on infrastructure that the most ambitious AI labs depend on

Jetzt Bewerben

Ähnliche Jobs

🕒 vor 25 Tagen

SouthState Bank

1001 - 5000

🏦 Bankwesen

💸 Finanzen

💳 Fintech

Payment Platform DevOps Engineer at SouthState enabling secure and scalable delivery of cloud-based payment solutions. Collaborating with internal teams for innovation in payment technology.

🇺🇸 Vereinigte Staaten – Remote

💵 $152.630 - $243.812 / Jahr

⏰ Vollzeit

🟠 Senior

🔴 Experte

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 27 Tagen

Valiantys - Atlassian Platinum Solution Partner

51 - 200

🏢 Unternehmen

☁️ SaaS

🤝 B2B

Director for AI-Enabled DevOps Transformation at Valiantys, focusing on enterprise account growth and strategy alignment. Engage with clients on SDLC modernization and AI-enabled delivery.

🇺🇸 Vereinigte Staaten – Remote

💵 $175.000 - $240.000 / Jahr

⏰ Vollzeit

🔴 Experte

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 29 Tagen

Zscaler

5001 - 10000

🔒 Cybersecurity

☁️ SaaS

🏢 Unternehmen

Principal DevOps Engineer managing AWS infrastructure for Zscaler’s Zero Trust Networking Services. Architecting cloud infrastructure and ensuring operational health in a remote role.

🇺🇸 Vereinigte Staaten – Remote

💵 $182.000 - $260.000 / Jahr

💰 Secondary Market im 2017-11

⏰ Vollzeit

🔴 Experte

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 1 Monat

Quantiphi

1001 - 5000

🤖 Künstliche Intelligenz

🏢 Unternehmen

📚 Bildung

Senior DevOps/Observability Engineer leading unified observability platform design for Fortune 500 clients. Focused on architecting observability pipeline using AWS and modern open-source tools.

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 1 Monat

WEX

5001 - 10000

🚗 Transport

💸 Finanzen

💳 Fintech

SRE Architect driving AI-Powered Reliability Engineering strategy and enforcing enterprise-wide SRE standards. Overseeing the architecture and implementation of mission-critical systems for WEX.

🇺🇸 Vereinigte Staaten – Remote

💵 $200.600 - $250.400 / Jahr

💰 €310.000.000 Post-IPO Debt im 2020-06

⏰ Vollzeit

🟠 Senior

🔴 Experte

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich