Inferact

Website LinkedIn Alle Stellen

11 - 50 Mitarbeiter

Gegründet 2025

🤖 Künstliche Intelligenz

🤝 B2B

🏢 Unternehmen

Artificial Intelligence • B2B • Enterprise

Inferact ist ein Startup, das von den Schöpfern und Hauptentwicklern von vLLM, der führenden Open-Source-LLM-Inferenz-Engine, gegründet wurde. Das Unternehmen hat das Ziel, den Fortschritt der KI zu beschleunigen, indem es die Modellinferenz kostengünstiger und schneller macht und die Leistung und Unterstützung von vLLM für neue Architekturen und Accelerator-Hardware erweitert. Inferact kombiniert tiefgehende Expertise an der Schnittstelle von Modellen und Hardware, um Infrastrukturen für die Inferenz bereitzustellen, die von Forschungslabors, Großunternehmen und Startups genutzt werden, und entwickelt weiterhin Optimierungen für die Open-Source-Community.

Mitglied des technischen Personals – Herausragender Generalist (Remote)

🕒 vor 4 Monaten

🌏 Überall auf der Welt

⏰ Vollzeit

🔴 Experte

🖥 Softwareentwickler

🗣️🇺🇸🇬🇧 Englisch erforderlich

Cloud

Distributed Systems

Kubernetes

Python

PyTorch

Rust

Jetzt Bewerben

Ähnliche Remote-Jobs finden

📊 Überprüfen Sie Ihre Lebenslauf-Bewertung für diese Stelle

Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

Inferact

Website LinkedIn Alle Stellen

11 - 50 Mitarbeiter

Gegründet 2025

🤖 Künstliche Intelligenz

🤝 B2B

🏢 Unternehmen

Artificial Intelligence • B2B • Enterprise

Beschreibung

• Dies ist eine weltweit remote verfügbare Stelle. • Wir suchen herausragende Generalisten (Engineers), die über den gesamten vLLM-Stack arbeiten können: von niedrigstufigen GPU-Kerneln bis hin zu hochskaligen verteilten Systemen. • Diese Rolle ist für selbstgesteuerte, autonome Personen konzipiert, die die wirkungsvollsten Probleme erkennen und eigenständig End-to-End-Lösungen liefern können, ohne ständige Anleitung. • Sie arbeiten asynchron mit unserem Hauptquartier in San Francisco zusammen und übernehmen die volle Verantwortung für kritische Infrastruktur. • Sie könnten in einer Woche CUDA-Kernel optimieren, in der nächsten Woche verteilte Orchestrierungssysteme entwerfen und in der darauffolgenden Woche neue Modellarchitekturen implementieren. • Die von Ihnen geleistete Arbeit beeinflusst direkt, wie die Welt KI-Inferenz betreibt. • Mögliche Schwerpunktbereiche umfassen: • - Inference Runtime: Die Grenzen der Bereitstellung von LLMs und Diffusionsmodellen verschieben. • - Kernel-Engineering: Schreiben der niedrigstufigen Kernel und deren Optimierungen. • - Performance & Scale: Aufbau verteilter Systeme zur Skalierung von Inferenz auf globaler Ebene. • - Cloud-Orchestrierung: Aufbau des operativen Rückgrats für Cluster-Management, Bereitstellungsautomatisierung und Produktionsüberwachung.

🎯 Anforderungen

• Bachelor-Abschluss oder gleichwertige Erfahrung in Informatik, Ingenieurwissenschaften oder einem ähnlichen Bereich • Nachgewiesene Fähigkeit, eigenständig zu arbeiten und Projekte ohne enge Aufsicht zum Abschluss zu bringen • Ausgezeichnete asynchrone Kommunikationsfähigkeiten und die Fähigkeit, effektiv über Zeitzonen hinweg zusammenzuarbeiten • Nachweislich erfolgreiche Umsetzung von wirkungsstarker Arbeit in komplexen technischen Umgebungen • Tiefgehende Expertise in mindestens einem der folgenden Bereiche: Systemprogrammierung, GPU-/Accelerator-Programmierung, verteilte Systeme oder ML-Infrastruktur • Technische Tiefe (stark in mindestens zwei der folgenden Bereiche): • - CUDA-Kernel oder äquivalente Technologien (Triton, TileLang, Pallas) mit tiefem Verständnis der GPU-Architektur • - Hochleistungsfähige verteilte Systeme in Rust, Go oder C++ • - Python mit PyTorch-Interna und LLM-Inferenzsystemen (vLLM, TensorRT-LLM, SGLang) • - Kubernetes, Container-Orchestrierung und Infrastructure-as-Code in großem Maßstab • - Transformer-Architekturen, KV-Cache-Speicherverwaltung und Model-Serving • Bevorzugte Qualifikationen: • - Beiträge zu vLLM oder anderen bedeutenden Open-Source-ML-/Systemprojekten • - Erfahrung mit mehreren Accelerator-Plattformen (NVIDIA, AMD, TPU, Intel) • - Kenntnisse in Quantisierungstechniken, ML-spezifischer Kernel-Optimierung oder Compiler-Technologien • - Nachweis, Systemzuverlässigkeit und Leistung in großem Maßstab verbessert zu haben • - Veröffentlichung weit verbreiteter technischer Blogs oder wirkungsvolle Nebenprojekte im Bereich ML-Infrastruktur

🏖️ Vorteile

• Inferact bietet wettbewerbsfähige Leistungen, angepasst an Ihren Standort, einschließlich gegebenenfalls Krankenversicherung.

Jetzt Bewerben

Entwickelt von Lior Neu-ner. Ich freue mich über Ihr Feedback — kontaktieren Sie mich per DM oder per E-Mail [email protected]