Site Reliability Engineer – AI Agents

🕒 vor 2 Tagen

🇺🇸 Vereinigte Staaten – Remote

💵 $96.000 - $192.000 / Jahr

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

Jetzt Bewerben
Ähnliche Remote-Jobs finden

📊 Überprüfen Sie Ihre Lebenslauf-Bewertung für diese Stelle

Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

Logo of Kraken Digital Asset Exchange

Kraken Digital Asset Exchange

1001 - 5000 Mitarbeiter

Gegründet 2011

₿ Crypto

💸 Finanzen

💳 Fintech

Crypto • Finance • Fintech

Kraken Digital Asset Exchange ist eine Kryptoplattform, die den Kauf und Verkauf von über 200 Kryptowährungen ermöglicht, darunter Bitcoin, Ethereum und viele weitere. Seit der Gründung im Jahr 2011 bietet Kraken eine umfassende Funktionssuite für Einsteiger und erfahrene Trader, etwa fortgeschrittene Trading-Interfaces und Margin Trading. Die Plattform setzt auf branchenführende Sicherheit, tiefe Liquidität und einen 24/7-Kundensupport und ist damit weltweit eine vertrauenswürdige Wahl. Kraken bedient sowohl private Anleger als auch institutionelle Kunden und bietet Services wie OTC-Trading und Custody. Das Unternehmen bekennt sich zu Transparenz durch Proof of Reserves und werteorientiertes Handeln. Kraken ist global tätig, unterstützt Kunden in über 190 Ländern und verzeichnet ein vierteljährliches Handelsvolumen von über 207 Milliarden US-Dollar. Zugleich wird darauf hingewiesen, dass Krypto-Investments ein hohes Risiko bergen und es in einigen Rechtsordnungen an Regulierung fehlt.

Beschreibung

• Design, build, and operate the infrastructure layer supporting AI agent workflows in production • Ensure reliability, scalability, and observability of agentic systems across internal and external products • Design and develop platform services, APIs, SDKs, and self-service capabilities that allow engineering teams to easily consume AI infrastructure and agent platform services • Manage and maintain the compute, orchestration, and serving infrastructure powering model inference and agent execution • Implement robust monitoring, alerting, and incident response procedures tailored to AI/ML workloads • Utilize Infrastructure as Code (IaC) tools such as Terraform to provision and manage cloud (AWS) infrastructure components • Build and maintain CI/CD pipelines that support rapid, reliable deployment of AI services and agent workflows • Define and implement guardrails, failure handling, and recovery patterns specific to agentic and LLM-powered systems • Collaborate with AI and Data Engineering teams to translate experimental agent prototypes into hardened production systems • Manage containerized workloads using Kubernetes, ensuring efficient deployment, scaling, and orchestration of AI services • Implement access controls and security best practices across AI infrastructure environments • Document architecture, runbooks, and best practices to support knowledge sharing across the team.

🎯 Anforderungen

• 5+ years of experience as a Site Reliability Engineer, Infrastructure Engineer, Platform Engineer, or similar role in a production environment • Hands-on experience supporting ML infrastructure, model serving, or MLOps workflows in production • Experience building developer platforms, internal tooling, APIs, or SDKs consumed by engineering teams at scale • Strong understanding of platform engineering principles, including developer experience, self-service infrastructure, and API-driven platform design • Proficiency with Infrastructure as Code tools, particularly Terraform • Experience with containerization and orchestration, particularly Kubernetes and Docker • Solid understanding of cloud infrastructure, preferably AWS • Strong scripting skills (bash/shell) and proficiency in at least one programming language (Python preferred) • Experience designing and operating observability, monitoring, and alerting systems • Experience implementing incident response procedures and participating in on-call rotations • Strong collaboration skills working across data, AI, and engineering teams • High ownership mindset in a fast-moving, high-stakes production environment.

🏖️ Vorteile

• Offers Equity • Offers Bonus • Wellness allowance • Health insurance (medical, dental, vision) • 401(k)

Jetzt Bewerben

Ähnliche Jobs

🕒 vor 2 Tagen

Prominent Edge

11 - 50

🏛️ Regierung

Lead DevOps Engineer at Prominent Edge working on varied technology stacks and automating infrastructure. Delivering scalable solutions and ensuring security and performance in environments.

🇺🇸 Vereinigte Staaten – Remote

⏰ Vollzeit

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 2 Tagen

Cisco

10.000+ Mitarbeiter

🔧 Hardware

🔐 Sicherheit

🏢 Unternehmen

Designing and deploying AI-driven software features for data center networks at Cisco. Collaborating with teams to innovate and enhance client experiences in a fast-paced environment.

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 2 Tagen

HBK - Hottinger Brüel & Kjær

1001 - 5000

🚀 Luft- und Raumfahrt

⚡ Energie

Software Architect leading architectural direction on DevOps/AI/LLM technologies for ReliaSoft's cloud and desktop products. Collaborating with teams to enhance product capabilities and modernize systems.

🇺🇸 Vereinigte Staaten – Remote

💵 $100.000 - $130.000 / Jahr

⏰ Vollzeit

🟠 Senior

🔴 Experte

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 2 Tagen

Mind Computing

11 - 50

🤖 Künstliche Intelligenz

DevOps Engineer at Mind Computing responsible for AWS infrastructure and automation. Implementing cloud architecture and CI/CD pipelines for project with Department of Veterans Affairs.

🇺🇸 Vereinigte Staaten – Remote

💵 $105.000 - $115.000 / Jahr

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 2 Tagen

Red Hat

10.000+ Mitarbeiter

🏢 Unternehmen

Associate Site Reliability Engineer maintaining service reliability and scalability through agile teamwork at Red Hat. Collaborating and resolving customer issues while contributing to code and quality assurance.

🇺🇸 Vereinigte Staaten – Remote

💵 $92.140 - $147.470 / Jahr

💰 Corporate Round im 1999-03

⏰ Vollzeit

🟢 Junior

🟡 Mittelstufe

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

info

🗣️🇺🇸🇬🇧 Englisch erforderlich