Site Reliability Engineer – AI Infrastructure

Ähnliche Remote-Jobs finden

11 - 50 Mitarbeiter

🤖 Künstliche Intelligenz

🤝 B2B

🔧 Hardware

🔥 Finanzierung im letzten Jahr

💰 €15.142.238 Series A - Andromeda Robotics im 2025-09

Artificial Intelligence • B2B • Hardware

Andromeda ist ein GPU-Computing-Service und Marktplatz, der sofortigen Zugriff auf große Cluster von H100-, H200- und B200-Beschleunigern für Experimente, umfassendes Training und Inferenz bietet. Er unterstützt die Orchestrierung mit Slurm, Kubernetes oder direktem SSH, bietet flexible Nutzung ohne Mindestdauer zu wettbewerbsfähigen Preisen und umfasst DevOps-Expertise sowie lokales NAS- oder gestreamtes Speichern ohne Eingangs-/Ausgangsgebühren und 24/7-Support mit Branchen-SLAs. Das Unternehmen betreibt außerdem einen Drittanbietermarkt für GPUs unter gpulist. ai.

Site Reliability Engineer – AI Infrastructure

Stelle nicht auf LinkedIn

🕒 vor 3 Monaten

🏄 California – Remote

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

🗣️🇺🇸🇬🇧 Englisch erforderlich

Ansible

Grafana

Kubernetes

Linux

Prometheus

Python

Terraform

Jetzt Bewerben

📊 Überprüfen Sie Ihre Lebenslauf-Bewertung für diese Stelle

Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

Andromeda

11 - 50 Mitarbeiter

🤖 Künstliche Intelligenz

🤝 B2B

🔧 Hardware

🔥 Finanzierung im letzten Jahr

💰 €15.142.238 Series A - Andromeda Robotics im 2025-09

Artificial Intelligence • B2B • Hardware

Beschreibung

• Provision, configure, and operate Kubernetes-based clusters for customers across multiple providers • Build automation and tooling to streamline cluster deployments and integrations • Debug customer issues across networking, storage, scheduling, and system layers • Improve reliability and scalability of both training and inference infrastructure • Design and implement monitoring, alerting, and observability for critical systems • Collaborate with engineering and product teams to plan and deliver infrastructure for new services • Participate in on-call and incident response, leading postmortems and reliability improvements

🎯 Anforderungen

• 5+ years experience in SRE, DevOps, or infrastructure engineering roles • Strong Linux systems and networking fundamentals • Deep experience with Kubernetes and container orchestration at scale • Proficiency with Infrastructure-as-Code (Terraform, Helm, Ansible, etc.) • Strong automation and scripting skills (Python, Go, or Bash) • Experience with observability stacks (Prometheus, Grafana, Loki, Datadog, etc.) • Track record of operating production systems and leading incident response

🏖️ Vorteile

• Ownership and autonomy to shape systems • Opportunities to work directly with customers and providers

Jetzt Bewerben

Ähnliche Jobs

Software Architect, Reliability Engineering

🕒 vor 3 Monaten

Twilio

5001 - 10000

Reliability Architect at Twilio defining and leading solutions for reliable products. Collaborating with teams to ensure operational excellence and scalability in high-scale systems design.

🇺🇸 Vereinigte Staaten – Remote

💵 $227.840 - $335.000 / Jahr

⏰ Vollzeit

🟠 Senior

🔴 Experte

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

🗣️🇺🇸🇬🇧 Englisch erforderlich

AWS

Cloud

Distributed Systems

Grafana

Java

Kubernetes

Microservices

Prometheus

Python

Terraform

DevOps Security Engineer

🕒 vor 3 Monaten

Knox Systems, Inc.

201 - 500

🏛️ Regierung

🔒 Cybersecurity

📋 Compliance

Devops Security Engineer at Knox securing cloud-native environments for U.S. government missions. Focus on preventative security, automation, and continuous compliance within FedRAMP frameworks.

🇺🇸 Vereinigte Staaten – Remote

💵 $110.000 - $140.000 / Jahr

🔥 Finanzierung im letzten Jahr

💰 €6.500.000 Seed im 2025-08

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

AWS

Azure

Cloud

Google Cloud Platform

Kubernetes

Terraform

Senior DevOps Engineer

🕒 vor 3 Monaten

JFrog

1001 - 5000

🏢 Unternehmen

☁️ SaaS

🔐 Sicherheit

Senior Professional Services DevOps Engineer designing CI/CD pipelines at JFrog. Collaborating with clients and teams to enhance DevOps experience.

🇺🇸 Vereinigte Staaten – Remote

💵 $160.000 - $175.000 / Jahr

⏰ Vollzeit

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

🗣️🇺🇸🇬🇧 Englisch erforderlich

Ansible

AWS

Azure

Chef

Cloud

Docker

Google Cloud Platform

Java

Jenkins

Kubernetes

Linux

Maven

Open Source

Puppet

Backend/DevOps Engineer

🕒 vor 3 Monaten

Nick AI

1 - 10

🤖 Künstliche Intelligenz

₿ Crypto

☁️ SaaS

Backend/DevOps Engineer managing deployments and infrastructure for AI trading platform. Responsible for security, reliability, and scaling of systems across multiple venues.

🇺🇸 Vereinigte Staaten – Remote

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

AWS

Cloud

Docker

Google Cloud Platform

Grafana

Kubernetes

Prometheus

Python

Web3