LLM Inference Deployment Engineer

Ähnliche Remote-Jobs finden

11 - 50 Mitarbeiter

Gegründet 2022

🤖 Künstliche Intelligenz

🔧 Hardware

🤝 B2B

💰 €100.000.000 Series B - EnCharge AI im 2025-02

Artificial Intelligence • Hardware • B2B

EnCharge AI ist ein Unternehmen, das analoge In-Memory-Computing-Hardware und ergänzende Software entwickelt, um KI-Workloads auf Geräten sowie von Edge-zu-Cloud zu beschleunigen. Ihre Technologie umfasst den EN100 Analog AI Accelerator und andere Formfaktoren (Chiplets, ASICs, PCIe-Karten), die im Vergleich zu herkömmlichen GPUs und digitalen Beschleunigern eine wesentlich höhere Energieeffizienz, Rechendichte und niedrigere Gesamtbetriebskosten für Inferenz bieten. EnCharge legt großen Wert auf Nachhaltigkeit, den Datenschutz durch lokale Verarbeitung sowie den Einsatz für Unternehmens- und Entwicklerkunden, die effiziente, skalierbare KI-Berechnungen außerhalb herkömmlicher Cloud-Infrastrukturen suchen.

LLM Inference Deployment Engineer

Stelle nicht auf LinkedIn

🕒 vor 24 Tagen

🇺🇸 Vereinigte Staaten – Remote

💵 $180.000 - $240.000 / Jahr

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

🗣️🇺🇸🇬🇧 Englisch erforderlich

Docker

Kubernetes

Python

PyTorch

Tensorflow

Jetzt Bewerben

📊 Überprüfen Sie Ihre Lebenslauf-Bewertung für diese Stelle

Verbessern Sie Ihre Chancen auf ein Vorstellungsgespräch, indem Sie Ihre Lebenslauf-Bewertung vor der Bewerbung überprüfen.

EnCharge AI

11 - 50 Mitarbeiter

Gegründet 2022

🤖 Künstliche Intelligenz

🔧 Hardware

🤝 B2B

💰 €100.000.000 Series B - EnCharge AI im 2025-02

Artificial Intelligence • Hardware • B2B

Beschreibung

• Deploy and optimize LLMs (GPT, LLaMA, Mistral, Falcon, etc.) post-training from libraries like HuggingFace • Utilize inference runtimes such as ONNX Runtime, vLLM for efficient execution. • Optimize batching, caching, and tensor parallelism to improve LLM scalability in real-time applications. • Develop and maintain high-performance inference pipelines using Docker, Kubernetes, and other inference servers.

🎯 Anforderungen

• Bachelor’s or Master’s degree in Computer Science, Electrical Engineering, or related field. • Experience in LLM inference deployment, model optimization, and runtime engineering. • Strong expertise in LLM inference frameworks (PyTorch, ONNX Runtime, vLLM, TensorRT-LLM, DeepSpeed). • In-depth knowledge of the Python programming language for model integration and performance tuning. • Strong understanding of high-level model representations and experience implementing framework-level optimizations for Generative AI use cases • Experience with containerized AI deployments (Docker, Kubernetes, Triton Inference Server, TensorFlow Serving, TorchServe). • Strong knowledge of LLM memory optimization strategies for long-context applications. • Experience with real-time LLM applications (chatbots, code generation, retrieval-augmented generation).

Jetzt Bewerben

Ähnliche Jobs

Site Reliability Engineer

🕒 vor 24 Tagen

SS&C Technologies

10.000+ Mitarbeiter

🏦 Bankwesen

💳 Fintech

Site Reliability Engineer optimizing infrastructure environments at SS&C Technologies. Collaborate with teams to enhance application reliability and drive technology improvements.

🇺🇸 Vereinigte Staaten – Remote

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

AWS

Cloud

Kubernetes

OpenShift

OpenStack

Prometheus

Splunk

VMware

Senior DevOps Engineer – Infrastructure

🕒 vor 24 Tagen

Button

51 - 200

☁️ SaaS

🛍️ eCommerce

🤝 B2B

Senior DevOps Engineer responsible for platform infrastructure management in a commerce-powered internet company. Collaborating with teams on scalable, stable, and operable solutions for business-critical systems.

🇺🇸 Vereinigte Staaten – Remote

💵 $133.000 - $172.000 / Jahr

⏰ Vollzeit

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

🗣️🇺🇸🇬🇧 Englisch erforderlich

AWS

Docker

DynamoDB

EC2

Google Cloud Platform

Grafana

JavaScript

Node.js

Prometheus

Python

Terraform

DevOps Engineer – ML & Data Infrastructure

🕒 vor 25 Tagen

High 5 Games

51 - 200

🎮 Gaming

🎲 Glücksspiel

🤝 B2B

DevOps Engineer responsible for building and optimizing cloud infrastructure for machine learning operations in gaming. Collaborating with data scientists and ML engineers to ensure reliability and performance.

🇺🇸 Vereinigte Staaten – Remote

⏰ Vollzeit

🟡 Mittelstufe

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

🗣️🇺🇸🇬🇧 Englisch erforderlich

Ansible

BigQuery

Cloud

Docker

Google Cloud Platform

Groovy

Jenkins

Kubernetes

Python

Terraform

DevSecOps and API Management Platform Leader

🕒 vor 25 Tagen

Copper Q8

11 - 50

📋 Compliance

🤝 B2B

DevSecOps and API management Platform Leader shaping secure platforms for digital innovation. Leading the development of automated and secure CI/CD pipelines in a global role.

🇺🇸 Vereinigte Staaten – Remote

⏰ Vollzeit

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🗣️🇺🇸🇬🇧 Englisch erforderlich

AWS

Azure

Cloud

Docker

Google Cloud Platform

Grafana

Jenkins

Kubernetes

Microservices

Prometheus

Terraform

Senior Systems Reliability Engineer

🕒 vor 25 Tagen

IEX

51 - 200

Systems Reliability Engineer ensuring reliable operations and automation of IEX's trading platform systems. Collaborating with engineering to optimize performance and troubleshoot complex issues.

🇺🇸 Vereinigte Staaten – Remote

💵 $150.000 - $225.000 / Jahr

💰 Corporate Round im 2022-04

⏰ Vollzeit

🟠 Senior

⛑ DevOps- und Site Reliability Engineer (SRE)

🦅 H1B-Visum-Sponsor

🗣️🇺🇸🇬🇧 Englisch erforderlich

Ansible

Distributed Systems

Linux

Python

TCP/IP