Logo de Databricks

Databricks ha anunciado la disponibilidad general de Lakeflow, su plataforma unificada de ingeniería de datos que consolida en un único producto las tres capas fundamentales de cualquier pipeline moderno: ingestión, transformación y orquestación. El lanzamiento responde a una demanda estructural del mercado: los equipos de datos operan habitualmente con stacks fragmentados —una herramienta para ingestión (Fivetran, Airbyte), otra para transformación (dbt, Spark) y otra para orquestación (Airflow, Prefect)— con los costes de integración, mantenimiento y debugging que eso implica.

Lakeflow se articula en tres componentes principales. Lakeflow Connect proporciona conectores gestionados para fuentes empresariales habituales —Salesforce, Snowflake, BigQuery, bases de datos relacionales y ficheros— además de Zerobus, una capa de ingesta de eventos en tiempo real capaz de procesar 100 MB/s en escrituras directas al lakehouse. Lakeflow Declarative Pipelines es el motor de transformación, construido sobre el estándar open source Spark Declarative Pipelines e integrado con un IDE propio que incluye visualización de DAGs, depuración contextual y asistencia de IA para la generación de código. Lakeflow Jobs cierra el ciclo con orquestación nativa que soporta múltiples tipos de tarea, control de flujo condicional, triggers basados en eventos y monitorización integrada.

Con la GA, Databricks extiende también los conectores de comunidad para Lakeflow Connect: conectores open source mantenidos por la comunidad que amplían la cobertura a fuentes sin soporte gestionado, siguiendo un modelo similar al de los proveedores de Terraform o los plugins de dbt. La integración con Unity Catalog asegura que todos los activos generados por Lakeflow —tablas, pipelines, jobs— queden registrados en el catálogo corporativo con linaje, permisos y auditoría desde el primer momento.

La propuesta de valor de Lakeflow apunta directamente a la simplificación del stack. Para organizaciones que ya operan sobre Databricks, eliminar herramientas externas de orquestación o ingestión reduce la superficie de operación y concentra el linaje de datos en un único sistema. El riesgo es el habitual en plataformas integradas: la dependencia de un único vendor frente a la flexibilidad de un stack composable. La apuesta de Databricks es que la reducción de complejidad operativa compensa el lock-in para la mayoría de casos de uso empresarial.

Más en Dataprix: Las mejores herramientas de integración de datos en 2026

Fuente: Databricks Blog