
501 - 1000 Mitarbeiter
Gegründet 2014
🏢 Unternehmen
☁️ SaaS
🤖 Künstliche Intelligenz
Enterprise • SaaS • Artificial Intelligence
Grafana Labs ist ein Unternehmen, das sich auf Open-Source-Technologien und -Lösungen für Observability spezialisiert hat. Das Unternehmen bietet eine umfassende Suite von Tools für Logging, Metrics, Tracing und Profiling mit Produkten wie Grafana, Loki, Tempo und Mimir. Die Angebote sind darauf ausgelegt, Unternehmen bei der Visualisierung, Überwachung und Alarmierung von Daten aus verschiedensten Quellen zu unterstützen und ermöglichen Funktionen wie Anomalieerkennung, Root-Cause-Analyse sowie das Management von Service Level Objectives (SLOs) auf Basis von AI/ML-Insights. Grafana Labs stellt sowohl Cloud-basierte als auch Self-Managed-Lösungen bereit, ideal für Observability in Infrastruktur, Anwendungen und Frontend. Zusätzlich unterstützt die Plattform die Integration mit verschiedenen Datenquellen wie Prometheus und OpenTelemetry und ist damit ein wichtiger Akteur im Bereich Observability und Infrastruktur-Monitoring.
🔥 vor 15 Minuten
🇩🇪 Deutschland – Remote
💵 €109.709 - €131.651 / Jahr
⏰ Vollzeit
🔴 Experte
⛑ DevOps- und Site Reliability Engineer (SRE)
🗣️🇺🇸🇬🇧 Englisch erforderlich
Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

501 - 1000 Mitarbeiter
Gegründet 2014
🏢 Unternehmen
☁️ SaaS
🤖 Künstliche Intelligenz
Enterprise • SaaS • Artificial Intelligence
Grafana Labs ist ein Unternehmen, das sich auf Open-Source-Technologien und -Lösungen für Observability spezialisiert hat. Das Unternehmen bietet eine umfassende Suite von Tools für Logging, Metrics, Tracing und Profiling mit Produkten wie Grafana, Loki, Tempo und Mimir. Die Angebote sind darauf ausgelegt, Unternehmen bei der Visualisierung, Überwachung und Alarmierung von Daten aus verschiedensten Quellen zu unterstützen und ermöglichen Funktionen wie Anomalieerkennung, Root-Cause-Analyse sowie das Management von Service Level Objectives (SLOs) auf Basis von AI/ML-Insights. Grafana Labs stellt sowohl Cloud-basierte als auch Self-Managed-Lösungen bereit, ideal für Observability in Infrastruktur, Anwendungen und Frontend. Zusätzlich unterstützt die Plattform die Integration mit verschiedenen Datenquellen wie Prometheus und OpenTelemetry und ist damit ein wichtiger Akteur im Bereich Observability und Infrastruktur-Monitoring.
• Enge Zusammenarbeit mit Product-Engineering-Teams (eingebettetes Modell) • Verantwortung für die Produktionszuverlässigkeit in anspruchsvollen Kundenumgebungen mit hohen SLAs • Entwurf und Implementierung von Automatisierungslösungen zur Skalierung unserer Zuverlässigkeitspraktiken • Sicherstellen, dass unsere Kunden die SLO-Ziele erreichen • Definition und Weiterentwicklung mandantenspezifischer SLOs und Zuverlässigkeitsmodelle • Proaktives Reduzieren von SLO-Verbrauch (SLO burn), um wiederkehrende Incidents zu verhindern • Hauptansprechpartner für Eskalationen und Bereitschaftsdienst bei relevanten Incidents • Leitung der Incident-Response bei kundenrelevanten Vorfällen und Durchführung von Post-Incident-Reviews • Beitrag zu Design-Dokumenten und Code-Reviews • Beeinflussung des Feature-Designs zur Gewährleistung von Produktionsskalierbarkeit und Betriebsfähigkeit • Aufbau von Automatisierung zur Eliminierung von repetitiven Aufgaben (Toil) dort, wo nötig • Verbesserung der Alert-Qualität und Reduzierung unnötiger Eskalationen
• Mindestens 8 Jahre Erfahrung in der Softwareentwicklung, davon mindestens 4 Jahre im SRE/CRE/Production Engineering • Umfangreiche Erfahrung mit Kubernetes in AWS, GCP oder Azure • Vertrautheit mit Infrastructure-as-Code-Tools (Helm, Terraform, Jsonnet etc.) • Erfahrung im Betrieb von Multi-Tenant-Systemen in der Produktion • Fundierte Erfahrung in der Definition und Implementierung von SLOs • Erfahrung mit einer oder mehreren Programmiersprachen (z. B. Go, Python, Java etc.) • Erfahrung mit Interna von Linux-Betriebssystemen • Kenntnisse in Netzwerken, Cloud-Speicher und Skalierung • Hervorragende Fähigkeiten zur Problemlösung und Fehlersuche • Fähigkeit, Leistungs-, Skalierungs- und Ausfallmodi zu analysieren • Sicheres Arbeiten im Teamkontext eines Engineering-Teams • Fähigkeit zur engen Zusammenarbeit mit Product-Engineering-Teams • Intellektuell neugierig, mit einer Grundeinstellung zu Transparenz, hoher Handlungsorientierung und freundlichem Auftreten
• Aktienbeteiligung (Equity) • Bonus (falls zutreffend) • 30 Tage Jahresurlaub, einschließlich 3 Grafana Shutdown Days • Möglichkeiten zur beruflichen Weiterbildung • 100 % Remote, internationale Unternehmenskultur • Transparente Kommunikation • Innovationsgetrieben • Wurzeln im Open Source • Autonome Teams • Karriereentwicklungswege • Zugängliche Führungskräfte • Onboarding vor Ort
Jetzt Bewerben🕒 vor 1 Monat
Führung des DevOps-Teams bei 1inch zur Optimierung der Infrastruktur für dezentrale Finanzanwendungen in einem globalen Teamumfeld. Erfordert umfassende Erfahrung in Cloud- und Automatisierungstechnologien.
🗣️🇺🇸🇬🇧 Englisch erforderlich
🕒 vor 2 Monaten
DevSecOps Engineer mit Schwerpunkt auf sicherer Infrastrukturarchitektur und Threat-Detection-Systemen. Aufbau von Lösungen auf AWS- und Alibaba-Cloud-Plattformen in einer Remote-Umgebung.
🇩🇪 Deutschland – Remote
💰 Secondary market im 2024-08
⏰ Vollzeit
🟠 Senior
🔴 Experte
⛑ DevOps- und Site Reliability Engineer (SRE)
🗣️🇺🇸🇬🇧 Englisch erforderlich