Stelle veröffentlichen Partner

Remote-Jobs suchen

Lambda

Website LinkedIn Alle Stellen

Artificial Intelligence • SaaS • Hardware

Lambda ist ein Cloud-Computing-Unternehmen, das bedarfsgerechte GPU-Instanzen und -Cluster für das Training und die Inferenz von KI bereitstellt. Es bietet eine Vielzahl von GPU-Produkten an, darunter bedarfsgerechte Cloud-GPU-Instanzen, die minutenweise abgerechnet werden, private großskalige GPU-Cluster und PCIe-Server mit anpassbaren NVIDIA Tensor Core GPUs. Lambda ist bekannt für seine AI-Entwickler-Cloud, die es KI-Entwicklern ermöglicht, GPU-Instanzen mit einem Fokus auf die neueste Hardware von NVIDIA zu nutzen. Das Unternehmen bietet zudem Workstation-Produkte an, die mit NVIDIA GPUs für Deep Learning und andere KI-Anwendungen konfiguriert sind.

51 - 200 Mitarbeiter

🤖 Künstliche Intelligenz

☁️ SaaS

🔧 Hardware

💰 €39.700.000 Venture Round im 2022-11

Senior Site Reliability Engineer, Managed Kubernetes – Europa

Stelle nicht auf LinkedIn

vor 1 Monat

🇩🇪 Deutschland – Remote

💵 €161.000 - €310.000 / Jahr

⏰ Vollzeit

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

Grafana

Kubernetes

Linux

Prometheus

Python

Bewerben

Lambda

Website LinkedIn Alle Stellen

Artificial Intelligence • SaaS • Hardware

51 - 200 Mitarbeiter

🤖 Künstliche Intelligenz

☁️ SaaS

🔧 Hardware

💰 €39.700.000 Venture Round im 2022-11

Beschreibung

• Betrieb und Wartung von Bare‑Metal‑Kubernetes‑Clustern mit Skalierung bis zu mehreren tausend Nodes • Umgang mit Cluster‑Degradation, Wiederherstellung, Größenänderung und Incident‑Response unter Einsatz von Fleet‑Management‑Tools • Teilnahme an einer gut organisierten On‑Call‑Rotation für kritische Vorfälle • Unterstützung von Kund:innen bei Kubernetes‑Fragen, Einbindung von Workloads, Storage und Authentifizierung • enge Zusammenarbeit mit unseren HPC‑Ops‑ und Datacenter‑Ops‑Teams bei niedrig‑leveligen oder bereichsübergreifenden Problemen • Einsatz von Python und Golang zur Erstellung von Tools und zur Automatisierung der Validierung der Plattformqualität • Entwurf, Aufbau und Betreuung skalierbarer Control‑Plane‑Services, Operatoren und benutzerdefinierter Controller für Kubernetes • Entwicklung von Automatisierung für den Lebenszyklus von Clustern: Provisioning, Upgrades, Patching und Löschung • Definition und Implementierung von SLOs und SLIs für Kubernetes‑Services, Workloads und Plattform‑Zuverlässigkeit.

🎯 Anforderungen

• Mindestens 6 Jahre Erfahrung in einer SRE‑, Operations‑Engineer‑ oder vergleichbaren Rolle mit fundierten Kenntnissen im Betrieb von Linux‑Clustern und Systemen • Starke Programmierkenntnisse in Go und Python; Erfahrung mit GitOps (z. B. ArgoCD), Helm und Kubernetes‑Operatoren • Nachweisliche Erfahrung im produktiven Betrieb von Kubernetes‑Clustern (On‑Prem, EKS, GKE oder ähnliche Umgebungen) • Fähigkeit, eigenständig mit begrenzter Anleitung oder als Teil eines Teams zu arbeiten • Fähigkeit, Kund:innen während Vorfällen per Ticket, Live‑Nachricht oder als Teil einer größeren Telefonkonferenz zu unterstützen • Vertrautheit mit Observability‑Tools wie Prometheus, Grafana, FluentBit und CI/CD‑Pipelines • Nachweisliche Erfahrung bei der Provisionierung von Kubernetes mit Tools wie kubeadm, Cluster API oder ähnlichen Werkzeugen

🏖️ Vorteile

• Kranken-, Zahn‑ und Augenversicherung für Sie und Ihre Angehörigen • Wellness‑ und Fahrkostenzuschüsse für ausgewählte Rollen • 401(k)‑Plan mit 2% Arbeitgeberzuschuss (für Mitarbeitende in den USA) • Flexibles bezahltes Freizeitsystem, das wir tatsächlich nutzen

Bewerben

Ähnliche Jobs

Site Reliability Engineer (Cloud)

vor 2 Monaten

Scalable

201 - 500

Website LinkedIn Alle Stellen

Cloud Engineer verbessert die AWS-Infrastruktur bei einem FinTech-Startup. Betreuung von Teams in einer DevOps-Kultur und Entwicklung interner Tools für Cloud-Services.

🇩🇪 Deutschland – Remote

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

AWS

Cloud

Python

Terraform

Bewerben

Stelle Ansehen

DevOps Engineer – Consultant

vor 2 Monaten

evoila

201 - 500

Website LinkedIn Alle Stellen

Berater, der für Kunden bei evoila, einem agilen Cloud-Engineering-Unternehmen, Kubernetes-Entwicklerplattformen aufbaut und berät.

🇩🇪 Deutschland – Remote

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

Cloud

Kubernetes

Bewerben

Stelle Ansehen

Kubernetes DevOps-Ingenieur – Global

vor 2 Monaten

Mirantis

501 - 1000

🏢 Unternehmen

☁️ SaaS

Website LinkedIn Alle Stellen

Kubernetes DevOps-Ingenieur, der KI-Infrastruktur auf Kubernetes für die Mirantis k0rdent-ai-Plattform entwickelt und integriert.

🇩🇪 Deutschland – Remote

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

Cloud

Grafana

Kubernetes

Linux

OpenStack

Bewerben

Stelle Ansehen

DevOps Engineer

vor 2 Monaten

CENTOGENE

501 - 1000

🧬 Biotechnologie

💊 Pharmazie

🔬 Wissenschaft

Website LinkedIn Alle Stellen

Aufbau und Betrieb sicherer AWS-Infrastruktur und CI/CD-Pipelines für die genomische Diagnostik von CENTOGENE. Implementierung von IaC, Containern und serverlosen Workflows sowie internationale Zusammenarbeit.

🇩🇪 Deutschland – Remote

⏰ Vollzeit

🟠 Senior

🔴 Experte

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

AWS

Cloud

Docker

EC2

Kubernetes

Python