Posts

Arregla joins con skew en Spark usando salting

Detecta joins con skew en Spark y aplica salting para repartir las llaves “hot”. Verás el antes/después con tiempos de stage y shuffle, una repro sintética y un dataset real con descargas al final.

Consumer groups en Kafka: cómo se reparte el trabajo

Explica offsets, particiones y rebalances con un ejemplo reproducible que muestra cómo se divide el consumo entre consumidores y qué ocurre cuando se escala o falla un nodo.

Crear un Data Source API en Spark (streaming real)

Implementa `SimpleDataSourceStreamReader`, define schema y offsets, y expone un formato propio para leer eventos en streaming con control y observabilidad, sin depender de connectors externos.

Delta storage layout: qué hay realmente en disco

Explora el layout en disco, commits y checkpoints, y entiende por qué esto importa para performance, mantenimiento y troubleshooting en producción.

Delta Table 101: tu primera tabla de inicio a fin

Recorrido end‑to‑end: crear tabla Delta, insertar datos, leer, filtrar y validar resultados con salidas esperadas. Base mínima para entender Delta antes de optimizar.

Delta Time Travel: consulta el pasado con confianza

Aprende `versionAsOf` y `timestampAsOf`, valida cambios y entiende cuándo usar time travel para auditoría, recovery y análisis de regresiones en Delta Lake.

Kafka + Spark: tu primer streaming real

Conecta Kafka local con Spark Structured Streaming, define un esquema y ejecuta una lectura continua. Verás métricas simples y validaciones para confirmar que el stream funciona.

Kafka 101: tu primer tópico local

Primeros pasos con Kafka CLI: crear tópicos, producir eventos y consumirlos desde consola en un entorno local reproducible. Ideal para practicar sin cloud ni dependencias externas.

Particiones en Spark: la palanca del rendimiento

Introduce `spark.sql.shuffle.partitions`, repartition y coalesce con un ejemplo reproducible para ver impacto en tiempos, stages y tamaño de shuffle.

PySpark DataFrames: las tres operaciones diarias

Guía práctica con ejemplos claros y salidas esperadas para dominar transformaciones básicas en DataFrames. Incluye patrones de chaining legibles y validaciones rápidas.