Рекомендуем

Прогностические модели оценки качества и подлинности винаХалафян А.А., Темердашев З.А. Прогностические модели оценки качества и подлинности вина
Аналитическая платформа PolyAnalyst: архитектура, функциональность, практика примененияАнанян С.М., Сазонов Д.С., Слынько Ю.Н., Соломатин Е.Б. Аналитическая платформа PolyAnalyst: архитектура, функциональность, практика применения
Интеллектуальные технологии информационной безопасностиШелухин О.И., Зегжда Д.П., Раковский Д.И., Самарин Н.Н., Александрова Е.Б. Интеллектуальные технологии информационной безопасности

Книга

Математические методы в больших данных

Учебно-методическое пособие для вузов
98 стр.
Формат 60х90/16 (145x215 мм)
Исполнение: в мягкой обложке
ISBN 978-5-9912-1156-7
ББК 16.23
УДК 004.6/.8(075.8)
Аннотация

Представлены 10 лабораторных работ, охватывающих ключевые технологии и концепции в области обработки и анализа больших данных. Каждое задание разработано с учетом принципов практического обучения, что позволит обучающимся не только глубже понять теоретические аспекты, приобрести практические навыки работы с современными инструментами, но и поучить понимание того, как взаимодействуют различные компоненты экосистемы больших данных. Каждая лабораторная работа включает теоретическое введение, которое поможет закрепить знания, а также практическое задание, позволяющее применить изученный материал в реальных сценариях.

Для студентов вузов, обучающихся по направлениям подготовки 09.03.01 – «Информатика и вычислительная техника»; 09.03.04 – «Программная инженерия», будет полезна широкому кругу читателей, осваивающих навыки работы с большими данными.

Оглавление

Лабораторные работы охватывают следующие темы:


1. HDFS (Hadoop Distributed File System) — освоение основ распределенного хранения данных и принципов работы с HDFS


2. MapReduce и YARN — изучение модели программирования MapReduce и управление ресурсами с помощью YARN


3. Hive — работа с Hive для выполнения аналитических запросов на огромных объемах данных


4. HBase — использование HBase для хранения и обработки неструктурированных данных в реальном времени


5. Spark — изучение Apache Spark как одного из самых популярных инструментов для обработки больших данных


6. Spark ML — работа с библиотекой машинного обучения Spark ML для создания и тренировки моделей


7. Spark Streaming — изучение потоковой обработки данных с помощью Spark Streaming для работы с реальными данными


8. Kafka — освоение Apache Kafka для организации надежной передачи данных между различными системами


9. Airflow — использование Apache Airflow для автоматизации и планирования рабочих процессов обработки данных


10. Ozone — знакомство с объектным хранилищем Apache Ozone и его интеграцией в экосистему Hadoop