
11 - 50 Mitarbeiter
🤖 Künstliche Intelligenz
Artificial Intelligence • Cloud Computing
FluidStack ist ein Unternehmen, das GPU-Supercomputing-Infrastruktur für KI-Labore bereitstellt. Es bietet On-Demand-Zugang zu Tausenden von Nvidia-GPUs, wodurch groß angelegte KI-Schulungen und Inferenzoperationen ermöglicht werden. Das Unternehmen ist auf die Bereitstellung und Verwaltung großer GPU-Cluster spezialisiert und unterstützt Technologien wie Kubernetes und Slurm, um hohe Verfügbarkeit und hervorragenden Support zu gewährleisten. FluidStack bietet eine vollständig verwaltete Cloud-Infrastruktur, die KI-Unternehmen hilft, sich auf die Entwicklung von Modellen zu konzentrieren, ohne sich um die zugrunde liegende Hardware sorgen zu müssen. Sie legen Wert auf Leistung und Kosteneffizienz und bieten Dienstleistungen, die auf Tausende von GPUs skaliert werden können mit hoher Betriebszeit und schnellen Reaktionszeiten.
🕒 vor 11 Monaten
🏄 California – Remote
⏰ Vollzeit
🟢 Junior
🟡 Mittelstufe
⛑ DevOps- und Site Reliability Engineer (SRE)
🚫👨🎓 Kein Abschluss erforderlich
🗣️🇺🇸🇬🇧 Englisch erforderlich
Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

11 - 50 Mitarbeiter
🤖 Künstliche Intelligenz
Artificial Intelligence • Cloud Computing
FluidStack ist ein Unternehmen, das GPU-Supercomputing-Infrastruktur für KI-Labore bereitstellt. Es bietet On-Demand-Zugang zu Tausenden von Nvidia-GPUs, wodurch groß angelegte KI-Schulungen und Inferenzoperationen ermöglicht werden. Das Unternehmen ist auf die Bereitstellung und Verwaltung großer GPU-Cluster spezialisiert und unterstützt Technologien wie Kubernetes und Slurm, um hohe Verfügbarkeit und hervorragenden Support zu gewährleisten. FluidStack bietet eine vollständig verwaltete Cloud-Infrastruktur, die KI-Unternehmen hilft, sich auf die Entwicklung von Modellen zu konzentrieren, ohne sich um die zugrunde liegende Hardware sorgen zu müssen. Sie legen Wert auf Leistung und Kosteneffizienz und bieten Dienstleistungen, die auf Tausende von GPUs skaliert werden können mit hoher Betriebszeit und schnellen Reaktionszeiten.
•SREs at Fluidstack sit at the core of our infrastructure, working across software, hardware, and operations to ensure the reliability and performance of our global GPU cloud. •They partner closely with teams including networking, platform engineering, and data center operations to build systems that scale with the demands of AI workloads. •SREs are hands-on and possess deep systems knowledge and strong communication skills. •A typical day may involve deploying clusters of 1,000+ GPUs using custom written playbooks; validating correctness and performance of underlying compute, storage, and networking infrastructure; migrating petabytes of data from public cloud platforms to local storage; debugging issues; building internal tooling to decrease deployment time and increase cluster reliability. •This role will involve being part of an on-call rotation up to one week per month.
•2+ years of SRE, DevOps, Sysadmin, and/or HPC engineering experience. •Great verbal and written communication skills in English. •Experience deploying and operating Kubernetes and/or SLURM clusters. •Experience in writing Go, Python, Bash. •Experience using Ansible, Terraform, and other automation or IAC tools. •Strong engineering background, preferably in Computer Science, Software Engineering, Math, Computer Engineering, or similar fields.
•Competitive total compensation package (cash + equity). •Retirement or pension plan, in line with local norms. •Health, dental, and vision insurance. •Generous PTO policy, in line with local norms. •Fluidstack is remote first, but has offices in London, New York, and SF. For all other locations, we provide access to WeWork.
Jetzt Bewerben🕒 vor 11 Monaten
51 - 200
Join Tekmetric as a Site Reliability Engineer to manage reliable cloud infrastructure and enhance system performance.
🇺🇸 Vereinigte Staaten – Remote
💰 Venture Round im 2022-03
⏰ Vollzeit
🟡 Mittelstufe
🟠 Senior
⛑ DevOps- und Site Reliability Engineer (SRE)
🗣️🇺🇸🇬🇧 Englisch erforderlich
🕒 vor 11 Monaten
Join Intermedia as a DevOps Engineer to deploy and maintain application infrastructure and collaborate with development teams.
🇺🇸 Vereinigte Staaten – Remote
💰 Venture Round im 2017-02
⏰ Vollzeit
🟡 Mittelstufe
🟠 Senior
⛑ DevOps- und Site Reliability Engineer (SRE)
🗣️🇺🇸🇬🇧 Englisch erforderlich