Data Engineer – Databricks

Artificial Intelligence • Data Analytics • Technology Consulting

Derevo is a company that empowers organizations and individuals to unlock the value of their data through comprehensive analytics processes and platforms. They focus on full-cycle analytics, which involves the creation, integration, and analysis of data, as well as fostering a data-driven culture. With over 10 years of experience, Derevo has been an ally in driving organizational change through data. They offer services including data creation, digital transformation, data integration, data analytics, and data sharing. Derevo's nearshore development model utilizes global teams to provide sustainable value, with competitive analytics rates and cultural alignment for clients, particularly in the U. S. and Canada. They work with advanced technologies such as AI and machine learning to deliver business intelligence solutions across various industries, emphasizing robust collaborations with leading technology providers.

51 - 200 employees

Founded 2013

🤖 Artificial Intelligence

Data Engineer – Databricks

Job not on LinkedIn

5 minutes ago

🇲🇽 Mexico – Remote

⏰ Full Time

🟡 Mid-level

🟠 Senior

🚰 Data Engineer

🗣️🇪🇸 Spanish Required

Apache

Azure

ETL

PySpark

Python

Spark

SQL

Unity

Apply Now

Derevo

Artificial Intelligence • Data Analytics • Technology Consulting

51 - 200 employees

Founded 2013

🤖 Artificial Intelligence

📋 Description

• Serás pieza clave para crear e implementar arquitecturas modernas de datos con alta calidad, impulsando soluciones analíticas basadas en tecnologías de Big Data • Diseñarás, mantendrás y optimizarás sistemas de multiprocesamiento paralelo, aplicando las mejores prácticas de almacenamiento y gestión en data warehouses, data lakes y lakehouses • Recolectas, procesas, limpias y orchestras grandes volúmenes de datos, entendiendo modelos estructurados y semi–estructurados, para integrar y transformar múltiples fuentes con eficacia • Definirás la estrategia óptima según objetivos de negocio y requerimientos técnicos, convirtiendo problemas complejos en soluciones alcanzables que ayuden a nuestros clientes a tomar decisiones basadas en datos • Te integrarás al proyecto, sus sprints y ejecutarás las actividades de desarrollo aplicando siempre las mejores prácticas de datos y las tecnologías que implementamos • Identificarás requerimientos y definirás el alcance, participando en sprint planning y sesiones de ingeniería con una visión de consultor que aporte valor extra • Colaborarás proactivamente en workshops y reuniones con el equipo interno y con el cliente • Clasificarás y estimarás actividades bajo metodologías ágiles (épicas, features, historias técnicas/usuario) y darás seguimiento diario para mantener el ritmo del sprint • Cumplirás las fechas de entrega comprometidas y gestionarás riesgos comunicando desviaciones a tiempo

🎯 Requirements

• Experiencia en T-SQL / Spark SQL: DDL y DML, consultas intermedias y avanzadas (subconsultas, CTEs, joins múltiples con reglas de negocio), agrupación y agregación (GROUP BY, funciones de ventana, métricas de negocio), procedimientos almacenados para ETL/ELT, optimización de índices, estadísticas y planes de ejecución para procesos masivos • Python (PySpark): Programación orientada a objetos (clases, módulos), gestión de estructuras y tipos de datos (variables, listas, tuplas, diccionarios), control de flujo mediante condicionales y bucles, ingestión de datos estructurados y semiestructurados, desarrollo de DataFrames y UDFs, ventanas temporales y particionado para optimización, buenas prácticas de código (PEP8, modularidad) • Databricks: Apache Spark & DataFrame API: Diseño de pipelines que aprovechan la API de DataFrames para transformaciones masivas; uso de funciones declarativas y expresiones vectorizadas • Delta Lake: Administración de tablas Delta con ACID transactions, time travel para auditoría y partition pruning para lecturas eficientes dentro de la medallion architecture • Autoloader & Data Ingestion: Configuración de ingesta incremental en OneLake o ADLS Gen2 con Auto Loader, captura de cambios de esquema (schema evolution) y checkpointing para garantizar exactly-once delivery sin código adicional • Structured Streaming: Orquestación de flujos en tiempo real con triggers event-time y processing-time, watermarking y operaciones stateful para baja latencia y tolerancia a fallos • Delta Live Tables (DLT): Declaración de pipelines ETL/ELT en SQL o Python con calidad de datos integrada (Expectations), manejo automático de dependencias y monitoreo continuo • Performance Optimization: Técnicas de caching, broadcast joins, shuffle optimizations y uso de formatos columnar (Parquet/Delta) con Z-Ordering y OPTIMIZE para reducir tiempos de procesamiento • Lakehouse Federation: Consulta unificada sobre fuentes externas a través de Unity Catalog; Jobs & Workflows: Creación de pipelines multietapa con dependencias, retries automáticos, scheduling o llegada de datos; integración con Azure Data Factory si es necesario • Repos & CI/CD: Versionado de notebooks y scripts en GitHub/Azure DevOps, configuración de pipelines de validación (unitarias y de esquema) y despliegue automatizado en entornos dev-test-prod • Monitoreo y Observabilidad: Alertas mediante notificaciones de jobs de Workflows ante eventos como fallos y generación de alertas proactivas automatizadas • Será un plus si tienes conocimientos generales en Azure Data Factory

🏖️ Benefits

• Impulsaremos tu bienestar integral a través del equilibrio personal, profesional y económico • Nuestros beneficios de ley y adicionales te ayudarán a lograrlo • Tendrás la oportunidad de especializarte de manera integral en diferentes áreas y tecnologías, logrando así un desarrollo interdisciplinario • Te impulsaremos a plantearte nuevos retos y superarte a ti mismo • Nos gusta pensar fuera de la caja. Tendrás el espacio, confianza y libertad para crear y la capacitación que se requiera para lograrlo • Participarás en proyectos tecnológicos punteros, multinacionales y con equipos extranjeros

Apply Now

Similar Jobs

Senior Data Engineer, Databricks, GCP – Marketing Analytics

7 minutes ago

Truelogic Software

501 - 1000

☁️ SaaS

🤝 B2B

🏢 Enterprise

Senior Data Engineer leading the design and implementation of data pipelines at a technology-led marketing firm. Collaborating with senior leaders to deliver robust data engineering solutions.

🇲🇽 Mexico – Remote

⏰ Full Time

🟠 Senior

🚰 Data Engineer

BigQuery

Cloud

Distributed Systems

ETL

Google Cloud Platform

Senior Data Engineer

Yesterday

Qualifinds

11 - 50

🎯 Recruiter

👥 HR Tech

Senior Data Engineer at Qualifinds architecting AI-driven valuation tools and market analytics. Leading development of data pipelines and collaborating across engineering and product teams.

🇲🇽 Mexico – Remote

💵 $60k - $85k / year

⏰ Full Time

🟠 Senior

🚰 Data Engineer

Airflow

ETL

Postgres

Python

SQL

Terraform

Senior Data Engineer

Yesterday

Native

51 - 200

🎯 Recruiter

🤝 B2B

Senior Data Engineer building and scaling the data platform for Native, driving data workflows across GCP services. Collaborating with analytics, product, and engineering teams to deliver insights.

🇲🇽 Mexico – Remote

⏰ Full Time

🟠 Senior

🚰 Data Engineer

Airflow

BigQuery

Cloud

ETL

Google Cloud Platform

Python

SQL

Senior Data Engineer

2 days ago

Qualifinds

11 - 50

🎯 Recruiter

👥 HR Tech

Senior Data Engineer architecting and scaling AI-driven valuation tools for Qualifinds. Leading development of data systems and pipelines in a fast-growing art and fintech startup.

🇲🇽 Mexico – Remote

💵 $60k - $85k / year

⏰ Full Time

🟠 Senior

🚰 Data Engineer

Airflow

ETL

Python

SQL

Senior Data Engineer – Marketing Analytics

3 days ago

Truelogic Software

501 - 1000

☁️ SaaS

🤝 B2B

🏢 Enterprise

Senior Data Engineer focusing on design and implementation of data pipelines for marketing analytics. Collaborating with cross-functional teams using Snowflake, AWS, and BigQuery.

🇲🇽 Mexico – Remote

⏰ Full Time

🟠 Senior

🚰 Data Engineer

AWS

BigQuery

Distributed Systems

Google Cloud Platform