Spark local: primer arranque y verificación

Este post es tu primer paso antes de correr cualquier notebook. Verificamos que Spark levanta, que el UI responde y que puedes escribir/leer Parquet. Úsalo como checklist inicial.

Descargas al final: ir a Descargas.

En pocas palabras

Confirmas que Spark inicia sin errores.
Verificas el Spark UI y versión.
Escribes/lees Parquet en el volumen local.

Ejecuta tú mismo

Usa el stack de Spark con Docker de este blog.

Links:

Apache Spark tool

1) Iniciar Spark y ver versión

Este bloque prueba que Spark está vivo.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
from pyspark.sql import SparkSession

spark = (
    SparkSession.builder
    .appName("pw0 - env check")
    .config("spark.ui.port", "4040")
    .getOrCreate()
)

spark.version

Salida esperada (ejemplo):

'3.5.1'

Abre el UI en http://localhost:4040 y confirma que ves el nombre de la app.

2) Conteo simple

Un conteo básico valida que el cluster ejecuta jobs.

1
2
df = spark.range(0, 1_000_000)
df.count()

Salida esperada:

3) Escribir y leer Parquet

Esto valida que el volumen local está bien montado.

1
2
3
4
5
out_path = "/home/jovyan/work/data/env_check_parquet"
df.write.mode("overwrite").parquet(out_path)

df2 = spark.read.parquet(out_path)
df2.count()

Salida esperada:

Notas de práctica

Si el UI no carga, revisa el puerto en Docker.
Si el path falla, revisa los volúmenes en el compose.
Este post es la base antes de Delta Table 101.

Descargas

Si no quieres copiar código, descarga el notebook o el .py.

Download .ipynb Download .py

En pocas palabras#

Ejecuta tú mismo#

1) Iniciar Spark y ver versión#

2) Conteo simple#

3) Escribir y leer Parquet#

Notas de práctica#

Descargas#