Senior Softwareentwickler (RL-Post-Training-Frameworks)

🔥 vor 1 Minute

🗣️🇺🇸🇬🇧 Englisch erforderlich

Jetzt Bewerben
Ähnliche Remote-Jobs finden

📊 Überprüfen Sie Ihre Lebenslauf-Bewertung für diese Stelle

Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

Logo of NVIDIA

NVIDIA

10.000+ Mitarbeiter

Gegründet 1993

🤖 Künstliche Intelligenz

🎮 Gaming

Artificial Intelligence • Gaming • Automotive

NVIDIA ist ein führendes Technologieunternehmen mit Spezialisierung auf beschleunigtes Computing und Künstliche Intelligenz (AI). NVIDIA treibt Fortschritte bei Grafikprozessoren (GPUs), Cloud Computing, Rechenzentren und Virtual Reality voran und fokussiert dabei Branchen wie Gaming, Automotive, Gesundheitswesen und Robotik. Innovationen des Unternehmens wie NVIDIA Omniverse transformieren traditionelle digitale Prozesse, indem sie hochrealistische Simulationen und Rendering-Aufgaben ermöglichen. Die Anwendungen erstrecken sich über zahlreiche Branchen – von autonomen Fahrzeugen mit NVIDIA DRIVE über Gesundheitslösungen mit NVIDIA Clara bis hin zu AI-gestützten Analysen und Workflows.

Beschreibung

• Architektur und Aufbau von RL-Post-Training-Infrastruktur, die effizient von Experimenten auf einer einzelnen GPU bis zur Produktion auf Tausenden von Knoten skaliert. • Abstimmung und Performance-Optimierung von RL-Trainings-Inferenz-Rollout-Schleifen auf GPUs, CPUs und LPUs dort, wo es zählt. • Mitwirkung an und Verbesserung der Performance und Usability von Open-Source-RL-Frameworks. • Zusammenarbeit mit Teams, die CPU-getriebene Rollout-Workloads entwickeln, einschließlich Werkzeugnutzung, Code-Ausführung und agentischen Umgebungen. • Vertretung der Bedürfnisse von Forschenden und Partnern gegenüber NVIDIAs Teams für Networking, Mathematikbibliotheken und Compiler.

🎯 Anforderungen

• Master- oder PhD-Abschluss in Informatik, Computertechnik oder einem verwandten Fachgebiet (oder gleichwertige Erfahrung) • Mindestens 5 Jahre Berufserfahrung in verteilten Systemen, Hochleistungsrechnen, Deep-Learning-Infrastruktur oder ML-Systems Engineering • Sehr gute Kenntnisse in Python und C/C++ • Nachgewiesene Erfahrung beim Aufbau oder der Mitwirkung an großskaligen verteilten Systemen oder Runtime-Frameworks in Produktion, z. B. in einem führenden AI-Labor, bei einem Hyperscaler oder einem großen Technologieunternehmen • Ausgeprägte mündliche und schriftliche Kommunikationsfähigkeiten sowie die Fähigkeit zur Zusammenarbeit über organisatorische und geografische Grenzen hinweg • Tiefgehende Kenntnisse in einem oder mehreren der folgenden technischen Bereiche: Reinforcement Learning für LLM-Post-Training (RLHF, PPO, GRPO, DPO, Reward Modeling), einschließlich der Abbildung von Algorithmen auf verteilte Ausführung und der damit verbundenen Systemherausforderungen (heterogene Platzierung, Rollouts, Ausführung von Umgebungen, Resharding zwischen Training und Generierung) • Kenntnisse zu PyTorch-Interna, einschließlich verteilter Trainingsprimitiven (FSDP, Tensor-Parallelismus, Pipeline-Parallelismus) und deren Zusammenspiel • Kenntnisse zu Kubernetes-Runtime-Interna (Container-Lifecycle, Pod-Scheduling, Resource Quotas, GPU-Zuweisung) • End-to-End-Design verteilter Systeme (Service-Grenzen, Datenflüsse, Konsistenzmodelle, Fehlertypen, Wiederherstellungsstrategien)

🏖️ Vorteile

• Sehr attraktive, wettbewerbsfähige Vergütung • Umfassendes Leistungspaket

Jetzt Bewerben

Ähnliche Jobs

🔥 vor 1 Stunde

RockstarDevelopers GmbH

11 - 50

🏢 Unternehmen

🤖 Künstliche Intelligenz

🤝 B2B

Senior Fullstack Engineer, der an Softwareprojekten für den öffentlichen Sektor in Deutschland arbeitet. Verantwortlich für Full-Stack-Entwicklung in regulierten Umgebungen mit Schwerpunkt auf KI‑Integration.

🔥 vor 5 Stunden

Caseware

201 - 500

💸 Finanzen

🏢 Unternehmen

☁️ SaaS

Software Developer in Test bei Caseware mit Fokus auf QA und Testautomatisierung für SaaS‑Anwendungen. Zusammenarbeit mit Entwicklern und Mentoring von Junior‑Teammitgliedern in einem dynamischen Umfeld.

🗣️🇳🇱 Niederländisch erforderlich

🗣️🇺🇸🇬🇧 Englisch erforderlich

🔥 vor 7 Stunden

TradeLink

51 - 200

🚗 Transport

🏢 Unternehmen

☁️ SaaS

Senior Product Engineer, der die Entwicklung KI-gestützter Logistiklösungen für TradeLink vorantreibt. Zusammenarbeit mit einem dynamischen Team zur Verbesserung der B2B-SaaS-Logistikplattform.

🗣️🇺🇸🇬🇧 Englisch erforderlich

🔥 vor 13 Stunden

YAZIO

51 - 200

🧘 Wellness

👥 B2C

☁️ SaaS

Senior Engineer für interne Tools bei Yazio, der die Produktivität durch innovative interne Tools und KI beschleunigt. Beseitigung von Engpässen und Steigerung der Effizienz teamübergreifend.

🗣️🇺🇸🇬🇧 Englisch erforderlich

🕒 vor 1 Tag

PCG DACH

201 - 500

🔒 Cybersecurity

Senior Google Workspace Engineer, verantwortlich für Architektur und Lösungen für Enterprise-Kunden. Zusammenarbeit an Cloud-Strategien und Implementierung generativer KI-Lösungen zur Steigerung der Produktivität.

🗣️🇺🇸🇬🇧 Englisch erforderlich