APRENDE APACHE SPARK Construya Pipelines Escalables con PySpark y Optimizaci n
Este libro est dirigido a estudiantes, desarrolladores, ingenieros de datos, cient ficos de datos y profesionales de tecnolog a que buscan dominar Apache Spark en la pr ctica, tanto en entornos corporativos como en la nube p blica y en integraciones modernas. Aprender a construir pipelines escalables para el procesamiento de datos a gran escala, orquestando cargas de trabajo distribuidas con AWS EMR, Databricks, Azure Synapse y Google Cloud Dataproc.
El contenido abarca integraci n con Hadoop, Hive, Kafka, SQL, Delta Lake, MongoDB y Python, adem s de t cnicas avanzadas de tuning, optimizaci n de jobs, an lisis en tiempo real, machine learning con MLlib y automatizaci n de workflows.
Incluye:
- Implementaci n de pipelines ETL y ELT con Spark SQL y DataFrames
- Procesamiento de datos en streaming e integraci n con Kafka y AWS Kinesis
- Optimizaci n de jobs distribuidos, tuning de performance y uso de Spark UI
- Integraci n de Spark con S3, Data Lake, NoSQL y bases de datos relacionales
- Deploy en clusters gestionados en AWS, Azure y Google Cloud
- Machine Learning aplicado con MLlib, Delta Lake y Databricks
- Automatizaci n de rutinas, monitoreo y escalabilidad para Big Data
Al final, dominar Apache Spark como soluci n profesional para an lisis de datos, automatizaci n de procesos y machine learning en entornos complejos y de alto rendimiento.