Si eres nuevo en Delta Lake, este es el primer post que debes ejecutar. Se enfoca en lo mínimo que haces en trabajo real: crear una tabla Delta, leerla y sobrescribirla de forma segura. Referencia oficial: Delta Lake.
Descargas al final: ir a Descargas.
En pocas palabras
- Una tabla Delta es archivos + registro de transacciones.
- Lees/escribes Delta como una tabla normal, pero con confiabilidad.
- Este flujo te deja listo para empezar.
Ejecuta tú mismo
- Spark local (Docker): ruta principal de este blog.
- Databricks Free Edition: alternativa rápida si no quieres Docker.
| |
Links:
Setup mínimo
Generaremos un dataset pequeño, lo escribimos como Delta y luego lo leemos. Usamos spark.range para no depender de datos externos. Ref: Spark range.
| |
Crear la tabla Delta
Aquí persistimos el DataFrame como Delta en una ruta local. Ref: DataFrameWriter.
| |
Leerla de nuevo
Leemos el mismo path para validar que quedó bien. Ref: DataFrameReader.
| |
Salida esperada (ejemplo):
+-----+-----+
|group|count|
+-----+-----+
| 0|10000|
| 1|10000|
| 2|10000|
...
Sobrescribir de forma segura (mismo schema)
Reescribimos con el mismo esquema para simular una actualización.
| |
Salida esperada: No verás salida directa, pero el conteo debe bajar cuando vuelvas a leer.
Qué verificar
- La tabla se lee sin errores.
- Los conteos cambian después del overwrite.
- La carpeta contiene
_delta_log.
Notas de práctica
- Usa
format("delta")explícito para evitar ambigüedad. - Empieza con una ruta local para inspeccionar archivos.
- Mantén rutas simples para principiantes.
Descargas
Si no quieres copiar código, descarga el notebook o el .py.