Este post es tu primer paso antes de correr cualquier notebook. Verificamos que Spark levanta, que el UI responde y que puedes escribir/leer Parquet. Úsalo como checklist inicial.
Descargas al final: ir a Descargas.
En pocas palabras
- Confirmas que Spark inicia sin errores.
- Verificas el Spark UI y versión.
- Escribes/lees Parquet en el volumen local.
Ejecuta tú mismo
Usa el stack de Spark con Docker de este blog.
Links:
1) Iniciar Spark y ver versión
Este bloque prueba que Spark está vivo.
| |
Salida esperada (ejemplo):
'3.5.1'
Abre el UI en http://localhost:4040 y confirma que ves el nombre de la app.
2) Conteo simple
Un conteo básico valida que el cluster ejecuta jobs.
| |
Salida esperada:
1000000
3) Escribir y leer Parquet
Esto valida que el volumen local está bien montado.
| |
Salida esperada:
1000000
Notas de práctica
- Si el UI no carga, revisa el puerto en Docker.
- Si el path falla, revisa los volúmenes en el compose.
- Este post es la base antes de Delta Table 101.
Descargas
Si no quieres copiar código, descarga el notebook o el .py.