
11 - 50 Mitarbeiter
🤖 Künstliche Intelligenz
🤝 B2B
🔧 Hardware
🔥 Finanzierung im letzten Jahr
💰 €15.142.238 Series A - Andromeda Robotics im 2025-09
Artificial Intelligence • B2B • Hardware
Andromeda ist ein GPU-Computing-Service und Marktplatz, der sofortigen Zugriff auf große Cluster von H100-, H200- und B200-Beschleunigern für Experimente, umfassendes Training und Inferenz bietet. Er unterstützt die Orchestrierung mit Slurm, Kubernetes oder direktem SSH, bietet flexible Nutzung ohne Mindestdauer zu wettbewerbsfähigen Preisen und umfasst DevOps-Expertise sowie lokales NAS- oder gestreamtes Speichern ohne Eingangs-/Ausgangsgebühren und 24/7-Support mit Branchen-SLAs. Das Unternehmen betreibt außerdem einen Drittanbietermarkt für GPUs unter gpulist. ai.
🕒 vor 24 Tagen
🏄 California – Remote
⏰ Vollzeit
🔴 Experte
⛑ DevOps- und Site Reliability Engineer (SRE)
🦅 H1B-Visum-Sponsor
🗣️🇺🇸🇬🇧 Englisch erforderlich
Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

11 - 50 Mitarbeiter
🤖 Künstliche Intelligenz
🤝 B2B
🔧 Hardware
🔥 Finanzierung im letzten Jahr
💰 €15.142.238 Series A - Andromeda Robotics im 2025-09
Artificial Intelligence • B2B • Hardware
Andromeda ist ein GPU-Computing-Service und Marktplatz, der sofortigen Zugriff auf große Cluster von H100-, H200- und B200-Beschleunigern für Experimente, umfassendes Training und Inferenz bietet. Er unterstützt die Orchestrierung mit Slurm, Kubernetes oder direktem SSH, bietet flexible Nutzung ohne Mindestdauer zu wettbewerbsfähigen Preisen und umfasst DevOps-Expertise sowie lokales NAS- oder gestreamtes Speichern ohne Eingangs-/Ausgangsgebühren und 24/7-Support mit Branchen-SLAs. Das Unternehmen betreibt außerdem einen Drittanbietermarkt für GPUs unter gpulist. ai.
• Own the reliability of Andromeda's infrastructure end to end • Lead top-customer training run responses and write the postmortem • Ensure the health of thousands of GPUs across providers • Build telemetry, GPU health checks, and automated remediation • Define on-call processes like rotations and escalation • Be the reliability voice in customer incident reviews • Collaborate closely with the product team on SLOs • Partner with providers and data center teams on physical design • Make other engineers better through mentorship
• Multiple years building and operating large-scale GPU infrastructure as your primary job • A clear history of owning the reliability of load-bearing infrastructure • Deep, hands-on with NVIDIA H100/H200/B200/GB200 (or equivalent) at scale • Real production experience with InfiniBand, RoCE, and NVLink fabrics • Working knowledge of how large training jobs run — NCCL, CUDA, PyTorch distributed • Strong Go, Python, or Rust proficiency • Expert-level Linux & Systems Internals • Comfortable being the senior engineer on a P0 bridge with the customer • Comfortable being the senior technical voice with AI infra customers
• Significant autonomy • Working on infrastructure that the most ambitious AI labs depend on
Jetzt Bewerben🕒 vor 25 Tagen
Payment Platform DevOps Engineer at SouthState enabling secure and scalable delivery of cloud-based payment solutions. Collaborating with internal teams for innovation in payment technology.
🇺🇸 Vereinigte Staaten – Remote
💵 $152.630 - $243.812 / Jahr
⏰ Vollzeit
🟠 Senior
🔴 Experte
⛑ DevOps- und Site Reliability Engineer (SRE)
🗣️🇺🇸🇬🇧 Englisch erforderlich
🕒 vor 27 Tagen
Director for AI-Enabled DevOps Transformation at Valiantys, focusing on enterprise account growth and strategy alignment. Engage with clients on SDLC modernization and AI-enabled delivery.
🇺🇸 Vereinigte Staaten – Remote
💵 $175.000 - $240.000 / Jahr
⏰ Vollzeit
🔴 Experte
⛑ DevOps- und Site Reliability Engineer (SRE)
🗣️🇺🇸🇬🇧 Englisch erforderlich
🕒 vor 29 Tagen
Principal DevOps Engineer managing AWS infrastructure for Zscaler’s Zero Trust Networking Services. Architecting cloud infrastructure and ensuring operational health in a remote role.
🇺🇸 Vereinigte Staaten – Remote
💵 $182.000 - $260.000 / Jahr
💰 Secondary Market im 2017-11
⏰ Vollzeit
🔴 Experte
⛑ DevOps- und Site Reliability Engineer (SRE)
🦅 H1B-Visum-Sponsor
🗣️🇺🇸🇬🇧 Englisch erforderlich
🕒 vor 1 Monat
Senior DevOps/Observability Engineer leading unified observability platform design for Fortune 500 clients. Focused on architecting observability pipeline using AWS and modern open-source tools.
🇺🇸 Vereinigte Staaten – Remote
💰 Series A im 2019-12
⏰ Vollzeit
🟠 Senior
🔴 Experte
⛑ DevOps- und Site Reliability Engineer (SRE)
🦅 H1B-Visum-Sponsor
🗣️🇺🇸🇬🇧 Englisch erforderlich
🕒 vor 1 Monat
SRE Architect driving AI-Powered Reliability Engineering strategy and enforcing enterprise-wide SRE standards. Overseeing the architecture and implementation of mission-critical systems for WEX.
🇺🇸 Vereinigte Staaten – Remote
💵 $200.600 - $250.400 / Jahr
💰 €310.000.000 Post-IPO Debt im 2020-06
⏰ Vollzeit
🟠 Senior
🔴 Experte
⛑ DevOps- und Site Reliability Engineer (SRE)
🦅 H1B-Visum-Sponsor
🗣️🇺🇸🇬🇧 Englisch erforderlich