dbt Labs, la compañía detrás de la herramienta de transformación de datos más extendida en el sector, ha lanzado adaptadores oficiales que permiten ejecutar modelos dbt directamente sobre Apache Flink, el motor de procesamiento de streams de referencia en la industria. La integración unifica bajo una sola herramienta lo que hasta ahora eran dos mundos separados: las transformaciones batch sobre Snowflake, BigQuery o Databricks, y los pipelines de datos en tiempo real sobre Flink o Confluent.

El adaptador dbt-Flink permite definir transformaciones en SQL estándar dentro de un proyecto dbt y ejecutarlas sobre Flink como si se tratara de cualquier otro destino soportado. Las ventajas son concretas: los modelos comparten las mismas pruebas, documentación y linaje que el resto del proyecto dbt; el equipo de datos no necesita mantener dos toolchains con habilidades y pipelines CI/CD independientes; y las transformaciones en streaming heredan la visibilidad y control que dbt aporta al batch. Confluent y Decodable, dos de los principales proveedores de infraestructura sobre Flink, ya han publicado sus propias implementaciones del adaptador, lo que valida la madurez de la integración.

El contexto en el que llega esta integración es relevante: en octubre de 2025, Fivetran y dbt Labs anunciaron su fusión, creando una empresa combinada con cerca de 600 millones de dólares en facturación anual. La compañía resultante cubre así el ciclo completo de datos desde la ingesta hasta la transformación, y ahora también hasta el procesamiento en tiempo real. Con más de 90.000 proyectos dbt en producción y 5.000 clientes de pago, la base instalada que puede adoptar el adaptador Flink es potencialmente muy amplia.

Para los arquitectos de datos, la decisión de diseño se simplifica. Hasta ahora, añadir streaming a una arquitectura dbt implicaba incorporar Flink o Spark Structured Streaming como componentes independientes con su propia deuda de mantenimiento. Con el adaptador oficial, el streaming pasa a ser otro destino más dentro del mismo flujo de trabajo, lo que reduce la barrera de adopción y facilita la convergencia hacia arquitecturas lambda o kappa sin duplicar la complejidad operativa del equipo.

Más en Dataprix: Integración y transformación de datos: pipelines modernos

Fuente: Kai Waehner