
11 - 50 Mitarbeiter
Gegründet 2025
🤖 Künstliche Intelligenz
🤝 B2B
🏢 Unternehmen
Artificial Intelligence • B2B • Enterprise
Inferact ist ein Startup, das von den Schöpfern und Hauptentwicklern von vLLM, der führenden Open-Source-LLM-Inferenz-Engine, gegründet wurde. Das Unternehmen hat das Ziel, den Fortschritt der KI zu beschleunigen, indem es die Modellinferenz kostengünstiger und schneller macht und die Leistung und Unterstützung von vLLM für neue Architekturen und Accelerator-Hardware erweitert. Inferact kombiniert tiefgehende Expertise an der Schnittstelle von Modellen und Hardware, um Infrastrukturen für die Inferenz bereitzustellen, die von Forschungslabors, Großunternehmen und Startups genutzt werden, und entwickelt weiterhin Optimierungen für die Open-Source-Community.
🕒 vor 2 Monaten
🗣️🇺🇸🇬🇧 Englisch erforderlich
Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

11 - 50 Mitarbeiter
Gegründet 2025
🤖 Künstliche Intelligenz
🤝 B2B
🏢 Unternehmen
Artificial Intelligence • B2B • Enterprise
Inferact ist ein Startup, das von den Schöpfern und Hauptentwicklern von vLLM, der führenden Open-Source-LLM-Inferenz-Engine, gegründet wurde. Das Unternehmen hat das Ziel, den Fortschritt der KI zu beschleunigen, indem es die Modellinferenz kostengünstiger und schneller macht und die Leistung und Unterstützung von vLLM für neue Architekturen und Accelerator-Hardware erweitert. Inferact kombiniert tiefgehende Expertise an der Schnittstelle von Modellen und Hardware, um Infrastrukturen für die Inferenz bereitzustellen, die von Forschungslabors, Großunternehmen und Startups genutzt werden, und entwickelt weiterhin Optimierungen für die Open-Source-Community.
• Dies ist eine weltweit remote verfügbare Stelle. • Wir suchen herausragende Generalisten (Engineers), die über den gesamten vLLM-Stack arbeiten können: von niedrigstufigen GPU-Kerneln bis hin zu hochskaligen verteilten Systemen. • Diese Rolle ist für selbstgesteuerte, autonome Personen konzipiert, die die wirkungsvollsten Probleme erkennen und eigenständig End-to-End-Lösungen liefern können, ohne ständige Anleitung. • Sie arbeiten asynchron mit unserem Hauptquartier in San Francisco zusammen und übernehmen die volle Verantwortung für kritische Infrastruktur. • Sie könnten in einer Woche CUDA-Kernel optimieren, in der nächsten Woche verteilte Orchestrierungssysteme entwerfen und in der darauffolgenden Woche neue Modellarchitekturen implementieren. • Die von Ihnen geleistete Arbeit beeinflusst direkt, wie die Welt KI-Inferenz betreibt. • Mögliche Schwerpunktbereiche umfassen: • - Inference Runtime: Die Grenzen der Bereitstellung von LLMs und Diffusionsmodellen verschieben. • - Kernel-Engineering: Schreiben der niedrigstufigen Kernel und deren Optimierungen. • - Performance & Scale: Aufbau verteilter Systeme zur Skalierung von Inferenz auf globaler Ebene. • - Cloud-Orchestrierung: Aufbau des operativen Rückgrats für Cluster-Management, Bereitstellungsautomatisierung und Produktionsüberwachung.
• Bachelor-Abschluss oder gleichwertige Erfahrung in Informatik, Ingenieurwissenschaften oder einem ähnlichen Bereich • Nachgewiesene Fähigkeit, eigenständig zu arbeiten und Projekte ohne enge Aufsicht zum Abschluss zu bringen • Ausgezeichnete asynchrone Kommunikationsfähigkeiten und die Fähigkeit, effektiv über Zeitzonen hinweg zusammenzuarbeiten • Nachweislich erfolgreiche Umsetzung von wirkungsstarker Arbeit in komplexen technischen Umgebungen • Tiefgehende Expertise in mindestens einem der folgenden Bereiche: Systemprogrammierung, GPU-/Accelerator-Programmierung, verteilte Systeme oder ML-Infrastruktur • Technische Tiefe (stark in mindestens zwei der folgenden Bereiche): • - CUDA-Kernel oder äquivalente Technologien (Triton, TileLang, Pallas) mit tiefem Verständnis der GPU-Architektur • - Hochleistungsfähige verteilte Systeme in Rust, Go oder C++ • - Python mit PyTorch-Interna und LLM-Inferenzsystemen (vLLM, TensorRT-LLM, SGLang) • - Kubernetes, Container-Orchestrierung und Infrastructure-as-Code in großem Maßstab • - Transformer-Architekturen, KV-Cache-Speicherverwaltung und Model-Serving • Bevorzugte Qualifikationen: • - Beiträge zu vLLM oder anderen bedeutenden Open-Source-ML-/Systemprojekten • - Erfahrung mit mehreren Accelerator-Plattformen (NVIDIA, AMD, TPU, Intel) • - Kenntnisse in Quantisierungstechniken, ML-spezifischer Kernel-Optimierung oder Compiler-Technologien • - Nachweis, Systemzuverlässigkeit und Leistung in großem Maßstab verbessert zu haben • - Veröffentlichung weit verbreiteter technischer Blogs oder wirkungsvolle Nebenprojekte im Bereich ML-Infrastruktur
• Inferact bietet wettbewerbsfähige Leistungen, angepasst an Ihren Standort, einschließlich gegebenenfalls Krankenversicherung.
Jetzt Bewerben🕒 vor 10 Monaten
Werden Sie Teil von Asar Digital als SAP ABAP-Entwickler für S/4HANA-Projekte. Vollständig remote, freiberufliche Teilzeitposition für erfahrene Bewerber.
🗣️🇺🇸🇬🇧 Englisch erforderlich