Senior Site Reliability Engineer – AI Infrastructure

Stelle nicht auf LinkedIn

🕒 vor 2 Monaten

🏄 California – Remote

info

⏰ Vollzeit

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich

Jetzt Bewerben
Ähnliche Remote-Jobs finden

📊 Überprüfen Sie Ihre Lebenslauf-Bewertung für diese Stelle

Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

Logo of Andromeda

Andromeda

11 - 50 Mitarbeiter

🤖 Künstliche Intelligenz

🤝 B2B

🔧 Hardware

🔥 Finanzierung im letzten Jahr

💰 €15.142.238 Series A - Andromeda Robotics im 2025-09

Artificial Intelligence • B2B • Hardware

Andromeda ist ein GPU-Computing-Service und Marktplatz, der sofortigen Zugriff auf große Cluster von H100-, H200- und B200-Beschleunigern für Experimente, umfassendes Training und Inferenz bietet. Er unterstützt die Orchestrierung mit Slurm, Kubernetes oder direktem SSH, bietet flexible Nutzung ohne Mindestdauer zu wettbewerbsfähigen Preisen und umfasst DevOps-Expertise sowie lokales NAS- oder gestreamtes Speichern ohne Eingangs-/Ausgangsgebühren und 24/7-Support mit Branchen-SLAs. Das Unternehmen betreibt außerdem einen Drittanbietermarkt für GPUs unter gpulist. ai.

Beschreibung

• Design and evolve multi-provider, multi-region GPU compute clusters optimized for large-scale training • Serve as the primary technical point of contact for customers running large-scale training workloads • Define SLOs and error budgets that account for the unique failure modes of GPU infrastructure • Ensure the health and performance of high-speed interconnects • Build deep visibility into GPU utilization, memory pressure, interconnect throughput • Build production-grade automation for cluster provisioning, GPU health checks, job scheduling • Lead incident response for complex failures spanning hardware, networking, orchestration

🎯 Anforderungen

• Deep, hands-on experience operating large-scale GPU clusters (NVIDIA A100/H100/B200 or equivalent) • Production experience with InfiniBand, RoCE, or NVLink fabrics in the context of distributed training • Working knowledge of NCCL, CUDA, PyTorch distributed, DeepSpeed, Megatron, FSDP, or similar • Expert-level Linux knowledge • Strong experience running Kubernetes in production with GPU workloads • Strong engineering skills in Python, Go, or Bash • Hands-on experience building monitoring and alerting for GPU infrastructure • Proven track record leading incident response for complex distributed systems

🏖️ Vorteile

• Health insurance • Retirement plans • Paid time off • Flexible work arrangements • Professional development

Jetzt Bewerben

Ähnliche Jobs

🕒 vor 2 Monaten

PostHog

11 - 50

☁️ SaaS

⚡ Produktivität

🏢 Unternehmen

SRE role focusing on turning fast-growing systems into predictable, reliable platforms. Join PostHog to build and automate infrastructure.

🇺🇸 Vereinigte Staaten – Remote

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 2 Monaten

Cresta

51 - 200

☁️ SaaS

🤖 Künstliche Intelligenz

🏢 Unternehmen

Senior Infrastructure Engineer/SRE responsible for building core infrastructure at AI-driven contact center company. Designing tools for developers and ensuring reliability across cloud platforms.

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 2 Monaten

Toast

1001 - 5000

☁️ SaaS

🤝 B2B

Senior Software Engineer focusing on Mobile DevOps at Toast, creating innovative solutions for restaurant technology with a strong emphasis on AI tools and developer experience.

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 2 Monaten

Alteryx

1001 - 5000

🤖 Künstliche Intelligenz

🤝 B2B

Lead Site Reliability Engineer guiding reliability strategy and execution for modern multi-region SaaS platform. Focused on system design, incident management, and cross-team collaboration.

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 2 Monaten

Toast

1001 - 5000

☁️ SaaS

🤝 B2B

Staff Software Engineer, Tech Lead focused on mobile DevOps at Toast, specializing in Android development and CI/CD processes for restaurant technology.

🗣️🇺🇸🇬🇧 Englisch erforderlich