LLM Evaluation Engineer

Vaga não está no LinkedIn

🕒 Março 28

🇺🇸 Estados Unidos – Remoto (EUA)

⏰ Tempo Integral

🟠 Sênior

🔴 Especialista

👷🏻‍♀️ Engenheiro

🗣️🇺🇸🇬🇧 Inglês obrigatório

Candidatar-se
Encontrar Vagas Remotas Similares

📊 Verifique sua pontuação de currículo para esta vaga

Melhore suas chances de conseguir uma entrevista verificando sua pontuação de currículo antes de se candidatar.

Logo of ThirdLaw Molecular

ThirdLaw Molecular

1 - 10 funcionários

Fundada em 2020

🧬 Biotecnologia

💊 Farmacêutico

⚕️ Seguro de Saúde

Biotechnology • Pharmaceuticals • Healthcare Insurance

ThirdLaw Molecular é uma empresa de biotecnologia pioneira que desenvolveu uma plataforma revolucionária utilizando moléculas Spiroligomer™ para descoberta direcionada de medicamentos e diagnósticos. Fundada pelo Dr. Christian Schafmeister, a empresa foca na criação de uma nova classe de terapêuticos mais seguros e eficazes, empregando uma plataforma química única para o design de moléculas sinteticamente engenheiradas. Sua abordagem inovadora permite uma ligação altamente seletiva a proteínas, ampliando o potencial tanto para terapias medicamentosas quanto para aplicações diagnósticas.

Descrição

• Build the evaluation layer in the ThirdLaw platform for LLM prompts and responses • Design and tune guardrails, classifiers, and semantic judgment systems in real-time • Implement evaluation strategies with semantic similarity, foundation model scoring, and rule-based systems • Integrate model outputs with downstream enforcement actions (e.g. redaction, escalation, blocking) • Prototype, tune, and productize small language models for classification, labeling, or scoring • Collaborate with data infrastructure engineers to connect evaluation logic with ingestion and storage • Build tools to observe, debug, and improve evaluator performance across data distributions • Define abstractions for reusable evaluation components that can scale across use cases

🎯 Requisitos

• 7+ years of experience in ML systems or AI engineering roles • At least 1–2 years working directly with LLMs, NLP pipelines, or semantic search • Deep understanding of foundation models (e.g. OpenAI, Claude, Mistral, Llama) and APIs • Hands-on experience with vector search (e.g. FAISS, Qdrant, Weaviate) and embeddings pipelines • Proven ability to implement real-time or near-real-time evaluation logic using semantic similarity, classifier scoring, or structured rules • Strong in Python, with familiarity using libraries like Hugging Face Transformers, LangChain, and PyTorch or TensorFlow • Ability to reason about model behavior, test prompt configurations, and debug complex decision logic in production

🏖️ Benefícios

• Generous benefits • Market cash compensation • Above-market equity • Well-designed benefits

Candidatar-se

Vagas Similares

🕒 Março 27

Core Scientific

201 - 500

₿ Cripto

⚡ Energia

Senior Controls Engineer responsible for designing control systems for data centers and industrial projects. Leading project management and integration for complex systems.

🇺🇸 Estados Unidos – Remoto (EUA)

⏰ Tempo Integral

🟠 Sênior

👷🏻‍♀️ Engenheiro

🗣️🇺🇸🇬🇧 Inglês obrigatório

🕒 Março 27

RaceOn

11 - 50

Vehicle Modelling & Simulation Engineer developing vehicle physics models and collaborating cross-functionally for race engineering. Focused on enhancing simulation tools' accuracy and efficiency.

🇺🇸 Estados Unidos – Remoto (EUA)

⏰ Tempo Integral

🟡 Pleno

🟠 Sênior

👷🏻‍♀️ Engenheiro

🗣️🇺🇸🇬🇧 Inglês obrigatório

🕒 Março 27

Railway

11 - 50

☁️ SaaS

Infrastructure Engineer at Railway building global datacenters with a focus on performance and reliability. Role emphasizes technical challenges and creative solutions in a high ownership environment.

🇺🇸 Estados Unidos – Remoto (EUA)

💰 $20.000.000 Series A em 2022-05

⏰ Tempo Integral

🟡 Pleno

🟠 Sênior

👷🏻‍♀️ Engenheiro

🦅 Patrocina Visto H1B

info

🗣️🇺🇸🇬🇧 Inglês obrigatório

🕒 Março 27

K2 Space Corporation

11 - 50

🚀 Aeroespacial

🔧 Hardware

🏛️ Governo

Senior Mixed-Signal Behavioral Modeling Engineer creating high-level behavioral models for analog and mixed-signal IP in groundbreaking space startup. Directly influence integration and silicon tapeout success.

🇺🇸 Estados Unidos – Remoto (EUA)

💵 $160.000 - $230.000 / ano

⏰ Tempo Integral

🟠 Sênior

👷🏻‍♀️ Engenheiro

🗣️🇺🇸🇬🇧 Inglês obrigatório

🕒 Março 27

ElevenLabs

1 - 10

AI Automations Engineer at ElevenLabs transforming operations through internal tooling and AI automation. Collaborating across teams to optimize processes and drive business impact.

🇺🇸 Estados Unidos – Remoto (EUA)

💰 $19.000.000 Series A em 2023-06

⏰ Tempo Integral

🟡 Pleno

🟠 Sênior

👷🏻‍♀️ Engenheiro

🗣️🇺🇸🇬🇧 Inglês obrigatório