Распределенная обработка информации (РОИ)
Весенний семестр 2023
9 лекций (18 часов), 27 практических работ (54 часа), экзамен
Экзамен
Материалы лекций
- Лекция 1. Введение в BigData. Модели и инструменты обработки больших объемов данных.
- Лекция 2. Модель MapReduce.
- Лекция 3. Apache Hadoop. HDFS. YARN. Модель программирования.
- Лекция 4. Оптимизация MapRduce-программ. Стратегии обработки текста. Пример «co-occurrence matrix». Составной тип ключа. Состояние задания и счетчики. Пример: подсчет биграмм.
- Лекция 5. MapReduce-алгоритмы на графах
- Лекция 6. MapReduce-алгоритмы построения инвертированных индексов
Практические работы
- Работа 1. MapReduce: подсчет частоты слов
- Работа 2. MapReduce: BiGrams
- Работа 3. MapReduce: анализ графа социальной сети
- Работа 4. MapReduce: инвертированный индекс