Название: Обработка больших данных с Apache Spark Автор: Бутаков Н.А., Петров М.В., Насонов Д. Издательство: Университет ИТМО Год: 2019 Страниц: 52 Язык: русский Формат: pdf, djvu Размер: 12.7 MB
Учебно-методическое пособие содержит теоретический материал и примеры выполнения задач для курса «Введение в технологии обработки больших данных». Пособие составлено с учётом проведения лабораторных работ с помощью фреймворка Apache Spark. Содержание дисциплины охватывает круг вопросов, связанных с организацией построения ETL-конвейеров на основе Spark SQL и DataFrame API для распределенного выполнения на кластерных вычислительных системах, включая использование итеративных вычислений, важных для машинного обучения, рассмотрения shuffle механизмов и принципов организации управлением памятью в Spark. В результате освоения дисциплины студенты приобретают способности разработки программ и построения конвейеров обработки различных данных, навыки по работе с распределенными кластерными системами, а также способности к применению машинного обучения на распределенных наборах данных.
Содержание: Введение Архитектура распределенного приложения Spark Основные концепции Spark RDD и граф преобразований Основные этапы обработки данных Загрузка данных из внешнего хранилища Изменение размещения данных и количества партиций Как происходит вычисление над данными в Spark Ветвление и итеративные вычисления Shuffle механизм Управление памятью в Apache Spark DataFrame API и Spark SQL Датафреймы Начало работы с DataFrame API: SparkSession Использование пользовательских функций (UDF) Пользовательские функции агрегации Создание, настройка и запуск Spark проекта Настройка окружения Создание нового проекта Запуск Scala проекта в Intellij Idea Первое Spark приложение Заключение Список литературы
Big Data Processing with Apache Spark Название: Big Data Processing with Apache Spark Автор: Srini Penchikala Издательство: Год: 2018 Страниц: 104 Формат: PDF Размер: 10 Mb Язык: English...
Practical Apache Spark: Using the Scala API Название: Practical Apache Spark: Using the Scala API Автор: Subhashini Chellappan, Dharanitharan Ganesan Издательство: Apress Год: 2019 Страниц:...
Изучаем Spark. Молниеносный анализ данных Название: Изучаем Spark. Молниеносный анализ данных Автор: Захария М., Венделл П., Конвински Э., Карау Х. Издательство: ДМК Пресс Год: 2015 Страниц:...
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.