Site Reliability Engineer (SRE)

Stelle nicht auf LinkedIn

🔥 vor 10 Minuten

🌏 Überall auf der Welt

⏰ Vollzeit

🟠 Senior

🔴 Experte

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

Jetzt Bewerben
Ähnliche Remote-Jobs finden

📊 Überprüfen Sie Ihre Lebenslauf-Bewertung für diese Stelle

Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

Logo of Supabase

Supabase

51 - 200 Mitarbeiter

Gegründet 2020

☁️ SaaS

🔌 API

🤖 Künstliche Intelligenz

💰 €80.000.000 Series B im 2022-05

SaaS • API • Artificial Intelligence

Supabase ist eine Open-Source-Alternative zu Firebase und bietet Entwicklerinnen und Entwicklern eine umfassende Backend-as-a-Service-Plattform. Die Lösung umfasst unter anderem eine Postgres-Datenbank, Benutzerauthentifizierung mit Row Level Security (RLS), sofort verfügbare RESTful APIs, Edge Functions für die Bereitstellung von benutzerdefiniertem Code sowie Echtzeit-Datensynchronisierung. Darüber hinaus unterstützt Supabase die Speicherung großer Dateien und die Integration mit Machine-Learning-Modellen für Vektor-Embeddings. Mit der Plattform können Entwicklerinnen und Entwicklern skalierbare Anwendungen mühelos entwickeln und die robusten Möglichkeiten von Postgres nutzen, ohne Backend-Infrastruktur selbst betreiben zu müssen. Mit dem Ziel, Entwicklungs-Workflows zu vereinfachen, wird Supabase weltweit von Unternehmen aufgrund seiner Zuverlässigkeit und Performance geschätzt und unterstützt die Skalierung von Projekten von kleinen bis hin zu großen Nutzerbasen.

Beschreibung

• Zusammenarbeit mit Service-Teams zur Definition aussagekräftiger SLIs und SLOs, die an der Kundenerfahrung ausgerichtet sind, und Entwicklung von Error-Budget-Policies, die diese in technische Entscheidungen überführen • Verantwortung für die Weiterentwicklung des Operational Readiness Review (ORR)-Prozesses — Durchführung von Reviews für neue Services und größere Änderungen in den Bereichen Observability, Alerting, Runbooks, Kapazitätsplanung und graceful degradation • Stärkung der Incident-to-Improvement-Pipeline: Verbindung von Postmortem-Erkenntnissen mit Lücken in der Betriebsbereitschaft, Identifikation wiederkehrender Fehlermuster und Vorantreiben systemischer Behebungen • Als Reliability-Experte in Architektur-Reviews, Fehlermodus-Analysen, Abhängigkeits-Mapping und Resilienz-Design eingebunden werden • Erkennen und Quantifizieren von operativem Toil im gesamten Unternehmen und Aufbau bzw. Befürwortung von Automatisierungen zur Eliminierung desselben • Unterstützung von Teams bei der Gestaltung nachhaltiger On-Call-Praktiken: Alert-Qualität, Eskalationspfade, Runbook-Abdeckung und Reduzierung von Noise • Nachverfolgung und Reporting der organisationsweiten operationalen Reife, Aufzeigen systemischer Lücken und Initiieren von Maßnahmen

🎯 Anforderungen

• Mindestens 7 Jahre Erfahrung in SRE-, Production-Engineering- oder auf Zuverlässigkeit fokussierten Rollen, einschließlich Erfahrung in der Gestaltung von SRE-Praktiken und deren Einführung in Engineering-Teams • Software-Engineering-Mentalität — Sie schreiben Code und entwickeln Tools, nicht nur konfigurieren • Praktische Erfahrung in der Definition und Operationalisierung von SLOs/SLIs in großem Maßstab, einschließlich Error-Budget-Policies, die tatsächlich technische Entscheidungen beeinflusst haben • Fundierte Erfahrung im Incident Response, in der Moderation von Postmortems und darin, aus Vorfällen systemische Verbesserungen abzuleiten • Erfahrung mit großskaligen Multi-Tenant-Systemen (Bonus: verwaltete Datenbankplattformen oder Postgres) • Sicherer Umgang mit Cloud-Infrastruktur (bevorzugt AWS) und Infrastructure-as-Code (bevorzugt Pulumi, Terraform/CDK ebenfalls akzeptabel) • Klare und überzeugende Kommunikation — diese Rolle erfordert Einflussnahme ohne formale Autorität in einer verteilten Organisation • Erfahrung in asynchronen oder global verteilten Teams • Motivation, andere Teams effektiver zu machen, statt selbst alle Probleme zu beheben

🏖️ Vorteile

• Vollständig remote • ESOP • Technikzuschuss • Gesundheitsleistungen • Jährliche Offsites • Flexible Arbeitsbedingungen • Weiterbildung

Jetzt Bewerben

Ähnliche Jobs

🕒 vor 22 Tagen

Chess.com

501 - 1000

🎮 Gaming

📚 Bildung

📱 Medien

Site Reliability Engineer bei Chess.com, verantwortlich für Infrastrukturstabilität und skalierbare Systeme für Millionen von Nutzern. Die Position spielt eine zentrale Rolle bei der Unterstützung schneller Feature‑Entwicklung und -Bereitstellung.

🌏 Überall auf der Welt

💰 Private Equity Round im 2022-01

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 1 Monat

Shuru

51 - 200

🤖 Künstliche Intelligenz

🤝 B2B

🏢 Unternehmen

Senior DevOps Engineer, der die Cloud‑Plattform von Pre‑Production in die Produktion skaliert und produktiv betreibt. Zusammenarbeit mit Teams zur Verbesserung von Infrastruktur, Deployment‑Pipelines und Monitoring‑Prozessen.

🌏 Überall auf der Welt

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 1 Monat

Social Discovery Group

1001 - 5000

🌍 Soziale Wirkung

📱 Medien

Senior DevOps Engineer, der IaC- und CI/CD-Systeme für Social-Discovery-Produkte entwickelt und skaliert. Zusammenarbeit mit globalen Teams und Vorantreiben von Automatisierung mit Fokus auf Sicherheit und Observability.

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 2 Monaten

Canonical

501 - 1000

Senior Site Reliability Engineer mit Python Infrastructure-as-Code für Cloud-Betrieb bei Canonical. Ermöglicht DevSecOps für Anwendungen auf OpenStack und Kubernetes in einer globalen Remote-Umgebung.

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 2 Monaten

Canonical

501 - 1000

Senior Site Reliability / GitOps Engineer entwickelt Automatisierungslösungen für die IT‑Services von Canonical. Arbeit in globaler Zusammenarbeit zur Steigerung der betrieblichen Effizienz und zur Verbesserung des Infrastrukturmanagements.

🗣️🇺🇸🇬🇧 Englisch erforderlich