Este post es tu primer paso antes de correr cualquier notebook. Verificamos que Spark levanta, que el UI responde y que puedes escribir/leer Parquet. Úsalo como checklist inicial.

Descargas al final: ir a Descargas.

En pocas palabras

  • Confirmas que Spark inicia sin errores.
  • Verificas el Spark UI y versión.
  • Escribes/lees Parquet en el volumen local.

Ejecuta tú mismo

Usa el stack de Spark con Docker de este blog.

Links:


1) Iniciar Spark y ver versión

Este bloque prueba que Spark está vivo.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
from pyspark.sql import SparkSession

spark = (
    SparkSession.builder
    .appName("pw0 - env check")
    .config("spark.ui.port", "4040")
    .getOrCreate()
)

spark.version

Salida esperada (ejemplo):

'3.5.1'

Abre el UI en http://localhost:4040 y confirma que ves el nombre de la app.


2) Conteo simple

Un conteo básico valida que el cluster ejecuta jobs.

1
2
df = spark.range(0, 1_000_000)
df.count()

Salida esperada:

1000000

3) Escribir y leer Parquet

Esto valida que el volumen local está bien montado.

1
2
3
4
5
out_path = "/home/jovyan/work/data/env_check_parquet"
df.write.mode("overwrite").parquet(out_path)

df2 = spark.read.parquet(out_path)
df2.count()

Salida esperada:

1000000

Notas de práctica

  • Si el UI no carga, revisa el puerto en Docker.
  • Si el path falla, revisa los volúmenes en el compose.
  • Este post es la base antes de Delta Table 101.

Descargas

Si no quieres copiar código, descarga el notebook o el .py.