Un DataFrame de pandas se modifica dentro de una función

Aprende por qué los DataFrames de pandas son mutables, cómo las operaciones in‑place filtran cambios y cómo dejar la intención explícita. Incluye repro ejecutable, salida esperada y patrones seguros.

4 de febrero de 2026 · 2 min · 282 palabras · pw

Consultar versiones pasadas en Delta

Aprende versionAsOf y timestampAsOf, valida cambios y entiende cuándo usar time travel para auditoría, recovery y análisis de regresiones en Delta Lake.

1 de febrero de 2026 · 2 min · 293 palabras · pw

Consumer groups de Kafka, en claro

Explica offsets, particiones y rebalances con un ejemplo reproducible que muestra cómo se divide el consumo entre consumidores y qué ocurre cuando se escala o falla un nodo.

1 de febrero de 2026 · 1 min · 210 palabras · pw

Crear un Data Source de streaming en Spark

Implementa un reader mínimo con offsets reales, un schema claro y un formato utilizable. Comparas el enfoque batch vs streaming y lo ejecutas end-to-end.

1 de febrero de 2026 · 3 min · 440 palabras · pw

Kafka local con CLI, primer recorrido

Primeros pasos con Kafka CLI: crear tópicos, producir eventos y consumirlos desde consola en un entorno local reproducible. Ideal para practicar sin cloud ni dependencias externas.

1 de febrero de 2026 · 2 min · 214 palabras · pw

Leer Kafka con Spark Streaming

Conecta Kafka local con Spark Structured Streaming, define un esquema y ejecuta una lectura continua. Verás métricas simples y validaciones para confirmar que el stream funciona.

1 de febrero de 2026 · 2 min · 217 palabras · pw

Particiones en Spark, sin dolor

Introduce spark.sql.shuffle.partitions, repartition y coalesce con un ejemplo reproducible para ver impacto en tiempos, stages y tamaño de shuffle.

1 de febrero de 2026 · 2 min · 249 palabras · pw

PySpark básico para el día a día

Guía práctica con ejemplos claros y salidas esperadas para dominar transformaciones básicas en DataFrames. Incluye patrones de chaining legibles y validaciones rápidas.

1 de febrero de 2026 · 2 min · 338 palabras · pw
Delta storage layout: qué hay realmente en disco

Qué guarda Delta en disco

Explora el layout en disco, commits y checkpoints, y entiende por qué esto importa para performance, mantenimiento y troubleshooting en producción.

1 de febrero de 2026 · 2 min · 279 palabras · pw

Skew en joins de Spark y cómo arreglarlo

Detecta joins con skew en Spark y aplica salting para repartir las llaves “hot”. Verás el antes/después con tiempos de stage y shuffle, una repro sintética y un dataset real con descargas al final.

1 de febrero de 2026 · 4 min · 681 palabras · pw