
Databricks ha anunciado la disponibilidad general de Lakeflow, su plataforma unificada de ingeniería de datos que consolida en un único producto las tres capas fundamentales de cualquier pipeline moderno: ingestión, transformación y orquestación. El lanzamiento responde a una demanda estructural del mercado: los equipos de datos operan habitualmente con stacks fragmentados —una herramienta para ingestión (Fivetran, Airbyte), otra para transformación (dbt, Spark) y otra para orquestación (Airflow, Prefect)— con los costes de integración, mantenimiento y debugging que eso implica.
Lakeflow se articula en tres componentes principales. Lakeflow Connect proporciona conectores gestionados para fuentes empresariales habituales —Salesforce, Snowflake, BigQuery, bases de datos relacionales y ficheros— además de Zerobus, una capa de ingesta de eventos en tiempo real capaz de procesar 100 MB/s en escrituras directas al lakehouse. Lakeflow Declarative Pipelines es el motor de transformación, construido sobre el estándar open source Spark Declarative Pipelines e integrado con un IDE propio que incluye visualización de DAGs, depuración contextual y asistencia de IA para la generación de código. Lakeflow Jobs cierra el ciclo con orquestación nativa que soporta múltiples tipos de tarea, control de flujo condicional, triggers basados en eventos y monitorización integrada.
Con la GA, Databricks extiende también los conectores de comunidad para Lakeflow Connect: conectores open source mantenidos por la comunidad que amplían la cobertura a fuentes sin soporte gestionado, siguiendo un modelo similar al de los proveedores de Terraform o los plugins de dbt. La integración con Unity Catalog asegura que todos los activos generados por Lakeflow —tablas, pipelines, jobs— queden registrados en el catálogo corporativo con linaje, permisos y auditoría desde el primer momento.
La propuesta de valor de Lakeflow apunta directamente a la simplificación del stack. Para organizaciones que ya operan sobre Databricks, eliminar herramientas externas de orquestación o ingestión reduce la superficie de operación y concentra el linaje de datos en un único sistema. El riesgo es el habitual en plataformas integradas: la dependencia de un único vendor frente a la flexibilidad de un stack composable. La apuesta de Databricks es que la reducción de complejidad operativa compensa el lock-in para la mayoría de casos de uso empresarial.
Más en Dataprix: Las mejores herramientas de integración de datos en 2026
Fuente: Databricks Blog