FirstPrinciples Holding Company

Website LinkedIn Alle Stellen

B2B • Enterprise • Finance

FirstPrinciples Holding Company konzentriert sich auf den Aufbau und die Skalierung eines Portfolios erfolgreicher kommerzieller Unternehmen. Das Unternehmen nutzt strategische Insights und operative Expertise, um Wertschöpfung und Wachstum innerhalb seiner Portfoliounternehmen zu maximieren. FirstPrinciples hat das Ziel, nachhaltige Lösungen bereitzustellen, die den langfristigen Erfolg für Partner und Stakeholder vorantreiben.

51 - 200 Mitarbeiter

🤝 B2B

🏢 Unternehmen

💸 Finanzen

Mitglied des technischen Teams – DevOps / Infrastructure Engineering

Stelle nicht auf LinkedIn

vor 1 Monat

🌏 Überall auf der Welt

⏰ Vollzeit

🔴 Experte

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

Ansible

AWS

Chef

Cloud

Docker

EC2

Grafana

Jenkins

Kubernetes

Linux

Prometheus

Python

Rust

SaltStack

Terraform

Unix

Bewerben

FirstPrinciples Holding Company

Website LinkedIn Alle Stellen

B2B • Enterprise • Finance

51 - 200 Mitarbeiter

🤝 B2B

🏢 Unternehmen

💸 Finanzen

Beschreibung

• Architektur, Automatisierung und Skalierung der Infrastruktur für groß angelegte Modelltrainings- und Forschungs-Workflows. • Entwurf und Durchführung groß angelegter Pre-Training-Experimente für sowohl dichte als auch MoE-Architekturen. • Architektur hybrider Infrastruktur-Lösungen, die Cloud- und lokale HPC-Umgebungen überbrücken. • Automatisierung von Konfigurationsmanagement und Drift-Erkennung mit Tools wie Ansible, Salt oder Chef. • Aufbau von Systemen, die betrieblichen Aufwand reduzieren und Forschenden Schutzmechanismen bieten. • Erstellung und Verantwortung für umfassende CI/CD-Pipelines für Trainings-Workflows, Evaluationsjobs, interne Tools und Services mit Rollback-Funktionalität. • Entwicklung von Werkzeugen für Entwickler-Workflows, einschließlich reproduzierbarer Builds, ephemerer Umgebungen, Secret-Management und Cluster-Ressourcenzuteilung. • Schaffung von Self-Service-Infrastrukturmustern, die Forschende und Ingenieur:innen befähigen. • Gestaltung von Infrastruktur, die Experimente beschleunigt und gleichzeitig Zuverlässigkeit und Reproduzierbarkeit sicherstellt. • Verwaltung und Erweiterung von HPC-Umgebungen, einschließlich GPU-Clustern, InfiniBand-Netzwerken, Job-Schedulern (Slurm/Kubernetes-Hybrid) und Container-Orchestrierung. • Effizienter Betrieb containerisierter und geplanter Workloads über Docker-, Kubernetes- und Slurm-Umgebungen. • Optimierung von Cluster-Scheduling und Ressourcenzuteilung für leistungsintensive GPU-Workloads. • Debugging von GPU-Treiberproblemen, Slurm-Jobproblemen und InfiniBand-Netzwerkstörungen. • Implementierung umfassender Monitoring-, Logging- und Alerting-Lösungen über alle Infrastrukturebenen. • Festlegung von SLOs/SLIs für Infrastrukturzuverlässigkeit und Erstellung von Observability-Dashboards für lang laufende Trainingsdurchläufe. • Aufbau von Observability-Stacks für Systemgesundheit und Performance auf Job-Ebene. • Proaktive Erkennung und Behebung von Infrastrukturproblemen, bevor sie Forschungs-Workflows beeinträchtigen. • Implementierung und Verwaltung von Secret-Management- und Identity-Security-Lösungen. • Förderung von Sicherheitsbest Practices, IAM-Richtlinien und Compliance-Standards. • Dokumentation von Best Practices, Erstellung von Runbooks und Förderung einer DevOps-Kultur im gesamten Unternehmen. • Mentoring von Teammitgliedern zu Infrastrukturmustern, Automatisierungstechniken und Operational Excellence.

🎯 Anforderungen

• Bachelor's or Master's degree in Computer Science, Engineering, or related field. • 6-10+ years in DevOps, Infrastructure, or SRE roles with proven hands-on systems engineering experience (not just certification-based). • Deep Unix/Linux administration expertise including kernel tuning, networking, storage, and process control. • Advanced Infrastructure-as-Code experience with Terraform, Pulumi, or CloudFormation. • Expertise building CI/CD systems and reproducible build pipelines (GitHub Actions, GitLab CI, Jenkins, etc.). • Hands-on experience with AWS (EC2, S3, IAM, VPC, etc.) and cloud infrastructure management. • Cluster orchestration and job scheduling experience with Kubernetes and Slurm. • Strong monitoring and observability stack experience (Prometheus, Grafana, ELK/EFK, OpenTelemetry). • Demonstrated success scaling infrastructure for high-performance or GPU workloads. • Track record of managing GPU-accelerated clusters or HPC infrastructure. • Experience in automating workflows that reduced toil and scaling deployments safely. • Strong programming skills in at least one compiled/systems language (Python, Go, or Rust) plus Bash fluency. • Ability to work cross-functionally. Strong communicator who can simplify complex topics for diverse audiences. • Entrepreneurial & mission-driven, comfortable in a fast-growing, startup-style environment, and motivated by the ambition of tackling one of the greatest scientific challenges in history. • Demonstrated passion for physics and for making scientific knowledge accessible and impactful.

🏖️ Vorteile

• Join us at FirstPrinciples and be a part of a transformative journey where science drives progress and unlocks the potential of humanity.

Bewerben

Entwickelt von Lior Neu-ner. Ich freue mich über Ihr Feedback — kontaktieren Sie mich per DM oder per E-Mail support@remoterocketship.com