SeriesSpark & Delta 101
1/5. Delta Table 101: tu primera tabla de inicio a fin2/5. PySpark DataFrames: las tres operaciones diarias3/5. Delta Time Travel: consulta el pasado con confianza4/5. Delta storage layout: qué hay realmente en disco5/5. Particiones en Spark: la palanca del rendimiento
El “time travel” es una de las funciones más útiles de Delta. Permite consultar versiones anteriores sin backups. Este post muestra un antes/después simple para confiar en la técnica. Ref: Delta Time Travel.
Descargas al final: ir a Descargas.
En pocas palabras
- Delta guarda versiones en el transaction log.
- Puedes consultar versiones antiguas con
versionAsOfotimestampAsOf. - Úsalo para auditoría, debugging y validación de rollback.
Ejecuta tú mismo
- Spark local (Docker): ruta principal de este blog.
- Databricks Free Edition: alternativa rápida si no quieres Docker.
| |
Links:
Crear una tabla Delta pequeña
Si ya corriste Delta Table 101, puedes reutilizar la misma ruta. Si no, usa este snippet.
| |
Actualizar la tabla (nueva versión)
Creamos una nueva versión con overwrite para habilitar time travel.
| |
Leer una versión anterior
Leemos la versión 0 para comparar con la última.
| |
Salida esperada (ejemplo):
+------+-----+
|status|count|
+------+-----+
| v1|10000|
Qué verificar
- La versión 0 muestra
status = v1. - La última versión muestra
status = v2. - Puedes comparar conteos entre versiones.
Notas de práctica
- Usa time travel para auditorías, no como backup permanente.
- Si haces vacuum agresivo, versiones antiguas desaparecen.
- Documenta la versión usada cuando compartas resultados.
Descargas
Si no quieres copiar código, descarga el notebook o el .py.