Engenheiro de Dados PL, Focado em IA

🔥 0 minutes ago

🗣️🇧🇷🇵🇹 Portuguese Required

Apply Now
Find Similar Remote Jobs

📊 Check your resume score for this job

Improve your chances of getting an interview by checking your resume score before you apply.

Logo of Stefanini Brasil

Stefanini Brasil

10,000+ employees

Founded 1987

🤖 Artificial Intelligence

🔒 Cybersecurity

Artificial Intelligence • Cybersecurity • Cloud

Stefanini Brasil is a leading provider of digital transformation solutions, offering a range of services including artificial intelligence, cybersecurity, cloud enablement, and consulting. With over 35 years of experience, the company focuses on integrating innovative technologies to help organizations enhance their operations and customer experiences across various industries. Their expertise extends to sectors like healthcare, retail, and industrial goods, enabling businesses to optimize processes and drive value through technology.

📋 Description

• Atuar no desenvolvimento de pipelines de ingestão, transformação e enriquecimento de dados para uso em IA • Trabalhar com dados estruturados e não estruturados (textos, PDFs, HTML, áudios, entre outros) • Implementar processos de chunking, embeddings e indexação vetorial • Construir e manter datasets voltados à matriz de conhecimento corporativa • Desenvolver pipelines utilizando Databricks (Spark / PySpark) • Atuar com arquitetura medalhão (bronze, prata e ouro) • Integrar dados com bancos vetoriais (Azure AI Search, pgvector, entre outros) • Garantir performance, escalabilidade e confiabilidade dos pipelines • Aplicar boas práticas de qualidade de dados (completude, consistência e versionamento) • Implementar políticas de atualização, retenção e expurgo de dados • Garantir rastreabilidade e auditabilidade dos dados utilizados pelos modelos • Atuar em conjunto com times de AI/ML na preparação e otimização de dados • Apoiar estratégias de recuperação de informação (RAG) • Otimizar dados para melhorar a relevância e precisão das respostas dos modelos

🎯 Requirements

• Experiência sólida em engenharia de dados; • Conhecimento em Python e/ou PySpark; • Experiência com Databricks e Spark (batch e/ou streaming); • Experiência com pipelines de dados (ETL/ELT); • Modelagem de dados (Data Lake / Lakehouse); • Experiência com dados não estruturados (documentos, textos, etc.); • Integração e consumo de APIs; • Capacidade de atuar com autonomia na construção de pipelines; • Conhecimento em arquitetura moderna de dados; • Experiência com processamento e preparação de dados para IA; • Atuação em ambientes complexos com múltiplas integrações; • Ter uma das certificações a seguir: Microsoft DevOps Engineer Expert; AWS Developer; Google Cloud Architect; Azure Developer Associate; IBM Cloud ou variações ou ITIL 4 Foundation;

🏖️ Benefits

• Vale-alimentação ou vale-refeição; • Desconto em cursos, universidades e instituições de idiomas; • Academia Stefanini — plataforma com cursos on-line, gratuitos, atualizados e com certificado; • Mentoring; • Clube de vantagens para consultas e exames; • Assistência médica; • Assistência odontológica; • Clube de vantagens e descontos nos melhores estabelecimentos; • Clube de viagens; • Convênio para pets.

Apply Now

Similar Jobs

🔥 2 hours ago

SysMap Solutions

1001 - 5000

Data Engineer designing and implementing data pipelines for Google Cloud at Triggo.ai. Collaborating with data scientists while ensuring quality and scalability of data flows.

🗣️🇧🇷🇵🇹 Portuguese Required

Airflow

Apache

AWS

BigQuery

Cloud

ETL

MySQL

NoSQL

Oracle

Python

SQL

🔥 2 hours ago

SysMap Solutions

1001 - 5000

Senior Data Engineer designing analytical solutions using Snowflake for business transformation. Collaborating with teams to build data products and robust pipelines.

Cloud

ETL

SQL

🔥 2 hours ago

SysMap Solutions

1001 - 5000

Data Engineer optimizing complex SQL queries for analytics in a transformative tech company. Collaborating on data modeling and pipeline construction for strategic business decisions.

🗣️🇧🇷🇵🇹 Portuguese Required

Airflow

BigQuery

Cloud

Google Cloud Platform

SQL

🔥 23 hours ago

Truelogic Software

501 - 1000

☁️ SaaS

🤝 B2B

🏢 Enterprise

Data Engineer building robust data pipelines for an AI-native aftermarket platform. Join a global team to drive machine learning and analytics for impactful projects.

Azure

PySpark

Python

Spark

SQL

Unity

Vault

🕒 Yesterday

Leega

201 - 500

🔌 API

🤖 Artificial Intelligence

Data Engineer managing GCP and DBT environments at Leega. Focused on data architecture, pipeline development, and performance optimization in cloud services.

🗣️🇧🇷🇵🇹 Portuguese Required

BigQuery

Cloud

ETL

Google Cloud Platform

Hadoop

PySpark

Python

Shell Scripting

Spark

SQL