Arquitectura lakehouse con Apache Iceberg

El Databricks Data + AI Summit 2026, celebrado del 15 al 18 de junio en San Francisco con más de 30.000 asistentes presenciales de 150 países, ha dejado claro cuál es la nueva frontera del dato: si el formato de tabla abierto ya está resuelto —Apache Iceberg se ha impuesto—, la batalla se ha movido un nivel hacia arriba, al catálogo. Databricks ha anunciado la disponibilidad general de Apache Iceberg v3 sobre su plataforma y ha posicionado Unity Catalog como, en sus palabras, el catálogo Iceberg más interoperable del mercado.

Con Managed Iceberg ya en disponibilidad general dentro de Unity Catalog, cualquier motor puede crear, leer y escribir tablas Iceberg a través de las APIs del Iceberg REST Catalog, sin quedar atado a un único proveedor. Iceberg v3 añade mejoras técnicas relevantes como los deletion vectors, que aceleran actualizaciones y merges, y el row tracking, que abarata el procesamiento incremental. Unity Catalog se presenta además como un plano de gobierno único por encima de varios sistemas de catálogo: aplica control de acceso, trazabilidad (lineage) a nivel de columna y registro de auditoría consistentes sobre datos que siguen viviendo en su ubicación original.

La pieza que articula todo es un espacio de nombres de cuatro niveles (metastore.catalog.schema.table) que da a cada activo una dirección única en todo el patrimonio de datos de la organización: un solo punto de descubrimiento, un único conjunto de políticas de acceso aplicadas de forma coherente y una sola traza de auditoría. La federación de catálogos —demostrada en el escenario con casos como el de Mastercard— permite gobernar datos repartidos entre plataformas distintas sin moverlos ni duplicarlos.

Para los equipos de datos, el mensaje es práctico: la guerra de formatos ha terminado y la decisión estratégica ya no es «¿Iceberg o Delta?», sino qué catálogo gobierna el lakehouse y con qué grado de apertura. Apostar por un catálogo interoperable reduce el riesgo de lock-in y prepara la plataforma para que los agentes de IA puedan descubrir y consumir datos gobernados. Para quienes evalúan arquitecturas lakehouse, conviene mirar más allá del motor de consulta y poner el foco en la capa de catálogo y gobierno.

Más en Dataprix: Plataformas de datos en Dataprix.

Fuente: Databricks Blog