Методы и системы обработки больших данных (осень 2018) — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(Added Seminar 2) |
|||
Строка 30: | Строка 30: | ||
| 1 || 06.09 || Семинар: Устройство HDFS кластера. HDFS CLI (интерфейс командной строки HDFS). Пользовательский интерфейс NameNode. Решение задач на вычисление объемов вычислительных ресурсов кластера. || | | 1 || 06.09 || Семинар: Устройство HDFS кластера. HDFS CLI (интерфейс командной строки HDFS). Пользовательский интерфейс NameNode. Решение задач на вычисление объемов вычислительных ресурсов кластера. || | ||
|- | |- | ||
− | + | | 2 || 20.09 || Лекция: MapReduce. Операции Map, Reduce. Distributed Shell как пример MapReduce задачи. Формальная модель парадигмы MapReduce. Задача подсчета слов в датасете (Word Count) Обеспечение отказоустойчивости в MapReduce. Сравнение MapReduce v1 и YARN. История развития MapReduce. MapReduce Streaming на примере Python. || | |
+ | |- | ||
+ | | 2 || 20.09 || Семинар: Решение задач MapReduce Streaming: подсчет количества слов, стоп-слов в Википедии, парсинг логов Apache. Distributed Cache. Метод Монте-Карло и большие данные. || | ||
+ | |- | ||
|} | |} |
Версия 22:45, 12 сентября 2018
Лектор: Алексей Драль
Семинаристы: Павел Ахтямов, Артем Козлов
Контакты: по всем организационным вопросам просьба писать на почту big_data_hse_fall_2018@bigdatateam.org.
У курса есть чат в Telegram. Объявления по курсу вывешиваются в чате!
Отчетность по курсу и критерии оценивания
В курсе предусмотрены следующие отчетные мероприятия:
- тест на проверку знаний по материалам лекции и семинара (5 баллов за каждый тест) (13 недель)
- практическое домашнее задание (50 баллов x (количество недель на задание) за каждое домашнее задание) (13 недель)
Итоговая оценка складывается следующим образом:
Score = (HW_Score + Test_Score) / 50, где
- HW_Score - суммарное количество баллов за домашние задания;
- Test_Score - суммарное количество баллов за тесты.
Программа занятий
Неделя | Дата | Название | Материалы |
---|---|---|---|
1 | 06.09 | Лекция: Понятие "большие данные". Постановка задачи обработки и хранения больших. Примеры применения больших данных в IT индустрии. Основные проблемы в работе распределенных систем. Виды отказов узлов, связей между узлами. Устройство GFS, HDFS. Процесс восстановления HDFS. | презентация |
1 | 06.09 | Семинар: Устройство HDFS кластера. HDFS CLI (интерфейс командной строки HDFS). Пользовательский интерфейс NameNode. Решение задач на вычисление объемов вычислительных ресурсов кластера. | |
2 | 20.09 | Лекция: MapReduce. Операции Map, Reduce. Distributed Shell как пример MapReduce задачи. Формальная модель парадигмы MapReduce. Задача подсчета слов в датасете (Word Count) Обеспечение отказоустойчивости в MapReduce. Сравнение MapReduce v1 и YARN. История развития MapReduce. MapReduce Streaming на примере Python. | |
2 | 20.09 | Семинар: Решение задач MapReduce Streaming: подсчет количества слов, стоп-слов в Википедии, парсинг логов Apache. Distributed Cache. Метод Монте-Карло и большие данные. |