Engenheiro(a) de Machine Learning — Otimização de Inferência

Vaga não está no LinkedIn

🕒 Janeiro 22

🌏 Qualquer lugar do mundo

⏰ Tempo Integral

🟡 Pleno

🟠 Sênior

🤖 Engenheiro de Machine Learning

🗣️🇺🇸🇬🇧 Inglês obrigatório

Candidatar-se
Encontrar Vagas Remotas Similares

📊 Verifique sua pontuação de currículo para esta vaga

Melhore suas chances de conseguir uma entrevista verificando sua pontuação de currículo antes de se candidatar.

Logo of Featherless AI

Featherless AI

1 - 10 funcionários

Fundada em 2023

🤖 Inteligência Artificial

☁️ SaaS

🔌 API

Artificial Intelligence • SaaS • API

A Featherless AI é um provedor de inferência de IA sem servidor e hospedagem de modelos que oferece acesso via API a um grande e crescente catálogo de modelos de pesos abertos (12. 200+), permitindo que desenvolvedores e empresas implante, ajustem e executem modelos em escala sem gerenciar servidores. A empresa oferece preços de assinatura fixa com tokens ilimitados, orquestração de GPU, uso privado/anônimo (sem logs) e opções para hospedagem própria em nível empresarial ou unidades de escala para alta concorrência. A Featherless AI também opera como um laboratório de pesquisa em IA focado em modelos de código aberto e pós-transformadores, alegando melhorias significativas de custo e desempenho para modelos grandes e agentes de IA.

Descrição

• Otimizar latência, taxa de transferência (throughput) e custo de inferência para modelos de ML em grande escala em produção • Perfilar e identificar gargalos em pipelines de inferência GPU/CPU (memória, kernels, batching, I/O) • Implementar e ajustar técnicas como: • Quantização (fp16, bf16, int8, fp8) • Otimização e reuso de KV-cache • Decodificação especulativa, batching e streaming • Poda de modelos ou simplificações arquiteturais para inferência • Colaborar com engenheiros de pesquisa para colocar novas arquiteturas de modelo em produção • Construir e manter sistemas de serving/serviço de inferência (ex.: Triton, runtimes customizados ou stacks sob medida) • Realizar benchmarks de desempenho em diferentes hardwares (GPUs NVIDIA/AMD, CPUs) e em infraestruturas de cloud • Melhorar confiabilidade do sistema, observabilidade e eficiência de custo sob cargas reais de trabalho

🎯 Requisitos

• Experiência sólida em otimização de inferência de ML ou em sistemas de ML de alto desempenho • Compreensão aprofundada dos detalhes internos do deep learning (attention, layout de memória, grafos de computação) • Experiência prática com PyTorch (ou similares) e deployment de modelos • Familiaridade com tuning de performance em GPU (CUDA, ROCm, Triton ou otimizações em nível de kernel) • Experiência em escalar inferência para usuários reais (não apenas benchmarks de pesquisa) • Confortável trabalhando em ambientes de startup de rápido movimento, com ownership e ambiguidade • Experiência com inferência de LLMs ou modelos de contexto longo • Conhecimento de frameworks de inferência (TensorRT, ONNX Runtime, vLLM, Triton) • Experiência otimizando para diferentes fornecedores de hardware • Contribuições open-source em sistemas de ML ou ferramentas de inferência • Experiência ou formação em sistemas distribuídos ou serviços de baixa latência

🏖️ Benefícios

• Remuneração competitiva + participação acionária significativa (empresa em Série A)

Candidatar-se

Vagas Similares

🕒 Janeiro 8

Prolific

51 - 200

🤝 B2B

Treinador de IA avaliando modelos de IA para os dados humanos de qualidade da Prolific. Buscamos especialistas para tarefas de IA com horário flexível e remuneração competitiva.

🌏 Qualquer lugar do mundo

💵 $150 / hora

⏰ Tempo Integral

🟡 Pleno

🟠 Sênior

🤖 Engenheiro de Machine Learning

🗣️🇺🇸🇬🇧 Inglês obrigatório

🕒 Agosto 17, 2025

GoML

51 - 200

🤖 Inteligência Artificial

🤝 B2B

💊 Farmacêutico

Arquiteto Técnico especializado em soluções AWS e AI para os projetos com clientes da Neuralgo Software. Responsável pelo design da arquitetura e pela colaboração entre equipes multifuncionais para sistemas escaláveis em nuvem.

🌏 Qualquer lugar do mundo

⏰ Tempo Integral

🟠 Sênior

🔴 Especialista

🤖 Engenheiro de Machine Learning

🗣️🇺🇸🇬🇧 Inglês obrigatório