
11 - 50 Mitarbeiter
🤖 Künstliche Intelligenz
🤝 B2B
🔧 Hardware
🔥 Finanzierung im letzten Jahr
💰 €15.142.238 Series A - Andromeda Robotics im 2025-09
Artificial Intelligence • B2B • Hardware
Andromeda ist ein GPU-Computing-Service und Marktplatz, der sofortigen Zugriff auf große Cluster von H100-, H200- und B200-Beschleunigern für Experimente, umfassendes Training und Inferenz bietet. Er unterstützt die Orchestrierung mit Slurm, Kubernetes oder direktem SSH, bietet flexible Nutzung ohne Mindestdauer zu wettbewerbsfähigen Preisen und umfasst DevOps-Expertise sowie lokales NAS- oder gestreamtes Speichern ohne Eingangs-/Ausgangsgebühren und 24/7-Support mit Branchen-SLAs. Das Unternehmen betreibt außerdem einen Drittanbietermarkt für GPUs unter gpulist. ai.
🕒 vor 2 Monaten
🏄 California – Remote
⏰ Vollzeit
🟠 Senior
⛑ DevOps- und Site Reliability Engineer (SRE)
🦅 H1B-Visum-Sponsor
🗣️🇺🇸🇬🇧 Englisch erforderlich
Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

11 - 50 Mitarbeiter
🤖 Künstliche Intelligenz
🤝 B2B
🔧 Hardware
🔥 Finanzierung im letzten Jahr
💰 €15.142.238 Series A - Andromeda Robotics im 2025-09
Artificial Intelligence • B2B • Hardware
Andromeda ist ein GPU-Computing-Service und Marktplatz, der sofortigen Zugriff auf große Cluster von H100-, H200- und B200-Beschleunigern für Experimente, umfassendes Training und Inferenz bietet. Er unterstützt die Orchestrierung mit Slurm, Kubernetes oder direktem SSH, bietet flexible Nutzung ohne Mindestdauer zu wettbewerbsfähigen Preisen und umfasst DevOps-Expertise sowie lokales NAS- oder gestreamtes Speichern ohne Eingangs-/Ausgangsgebühren und 24/7-Support mit Branchen-SLAs. Das Unternehmen betreibt außerdem einen Drittanbietermarkt für GPUs unter gpulist. ai.
• Design and evolve multi-provider, multi-region GPU compute clusters optimized for large-scale training • Serve as the primary technical point of contact for customers running large-scale training workloads • Define SLOs and error budgets that account for the unique failure modes of GPU infrastructure • Ensure the health and performance of high-speed interconnects • Build deep visibility into GPU utilization, memory pressure, interconnect throughput • Build production-grade automation for cluster provisioning, GPU health checks, job scheduling • Lead incident response for complex failures spanning hardware, networking, orchestration
• Deep, hands-on experience operating large-scale GPU clusters (NVIDIA A100/H100/B200 or equivalent) • Production experience with InfiniBand, RoCE, or NVLink fabrics in the context of distributed training • Working knowledge of NCCL, CUDA, PyTorch distributed, DeepSpeed, Megatron, FSDP, or similar • Expert-level Linux knowledge • Strong experience running Kubernetes in production with GPU workloads • Strong engineering skills in Python, Go, or Bash • Hands-on experience building monitoring and alerting for GPU infrastructure • Proven track record leading incident response for complex distributed systems
• Health insurance • Retirement plans • Paid time off • Flexible work arrangements • Professional development
Jetzt Bewerben🕒 vor 2 Monaten
SRE role focusing on turning fast-growing systems into predictable, reliable platforms. Join PostHog to build and automate infrastructure.
🇺🇸 Vereinigte Staaten – Remote
⏰ Vollzeit
🟡 Mittelstufe
🟠 Senior
⛑ DevOps- und Site Reliability Engineer (SRE)
🗣️🇺🇸🇬🇧 Englisch erforderlich
🕒 vor 2 Monaten
Senior Infrastructure Engineer/SRE responsible for building core infrastructure at AI-driven contact center company. Designing tools for developers and ensuring reliability across cloud platforms.
🇺🇸 Vereinigte Staaten – Remote
💵 $205.000 - $270.000 / Jahr
⏰ Vollzeit
🟠 Senior
⛑ DevOps- und Site Reliability Engineer (SRE)
🦅 H1B-Visum-Sponsor
🗣️🇺🇸🇬🇧 Englisch erforderlich
🕒 vor 2 Monaten
Senior Software Engineer focusing on Mobile DevOps at Toast, creating innovative solutions for restaurant technology with a strong emphasis on AI tools and developer experience.
🇺🇸 Vereinigte Staaten – Remote
💵 $159.000 - $254.000 / Jahr
⏰ Vollzeit
🟠 Senior
⛑ DevOps- und Site Reliability Engineer (SRE)
🦅 H1B-Visum-Sponsor
🗣️🇺🇸🇬🇧 Englisch erforderlich
🕒 vor 2 Monaten
Lead Site Reliability Engineer guiding reliability strategy and execution for modern multi-region SaaS platform. Focused on system design, incident management, and cross-team collaboration.
🇺🇸 Vereinigte Staaten – Remote
💵 $136.000 - $177.000 / Jahr
⏰ Vollzeit
🟠 Senior
⛑ DevOps- und Site Reliability Engineer (SRE)
🦅 H1B-Visum-Sponsor
🗣️🇺🇸🇬🇧 Englisch erforderlich
🕒 vor 2 Monaten
Staff Software Engineer, Tech Lead focused on mobile DevOps at Toast, specializing in Android development and CI/CD processes for restaurant technology.
🇺🇸 Vereinigte Staaten – Remote
💵 $193.000 - $309.000 / Jahr
⏰ Vollzeit
🟠 Senior
⛑ DevOps- und Site Reliability Engineer (SRE)
🦅 H1B-Visum-Sponsor
🗣️🇺🇸🇬🇧 Englisch erforderlich