Скачать Learning Spark, 2nd Edition [Jules S. Damji, Brooke Wenig]

Kail · 06.03.2022

Данные больше, поступают быстрее и поступают в различных форматах, и все они должны обрабатываться в масштабе для аналитики или машинного обучения. Но как эффективно справляться с такими разнообразными рабочими нагрузками? Введите Apache Spark.

Это второе издание, обновленное для включения Spark 3.0, показывает инженерам данных и специалистам по данным, почему структура и унификация в Spark так важны. В частности, в этой книге объясняется, как выполнять простой и сложный анализ данных и использовать алгоритмы машинного обучения. С помощью пошаговых руководств, фрагментов кода и блокнотов вы сможете:
- Изучите высокоуровневые структурированные API Python, SQL, Scala или Java.
- Понимание операций Spark и SQL Engine
- Проверяйте, настраивайте и отлаживайте операции Spark с помощью конфигураций Spark и пользовательского интерфейса Spark.
- Подключайтесь к источникам данных: JSON, Parquet, CSV, Avro, ORC, Hive, S3 или Kafka.
- Выполняйте аналитику пакетных и потоковых данных с помощью структурированной потоковой передачи.
- Создавайте надежные конвейеры данных с помощью Delta Lake и Spark с открытым исходным кодом.
- Разрабатывайте конвейеры машинного обучения с помощью MLlib и моделируйте производство с помощью MLflow.

Книга на английском языке.
Формат: EPUB, PDF.