Рендзю (проект)
Ментор | Симагин Денис |
Учебный семестр | Осень 2016 |
Учебный курс | 2-й курс |
Максимальное количество студентов, выбравших проект: 3-4 | |
Что это за проект?
Тема сочетания reinforcement learning и deep learning является "горячей" на сегодняшний день. К примеру, изучите статью Playing atari with deep reinforcement learning. Также вы, наверняка, слышали об AlpaGo, программе, которая впервые смогла победить человека, профессионально играющего в Go. Подробнее об этомздесь. Данный проект заключается в изучении подходов, которые применяются в AlphaGo, и их применении при создание собственного алгоритма для игры рендзю.
Чему вы научитесь?
- Основы машинного обучения
- Альфа-бета отсечения
- Метод Монте-Карло для поиска в дереве
- Глубинные нейронные сети
В дополнение к этому:
- Пройдете процесс ревью своего кода
- Научитесь читать английские статьи
Какие начальные требования?
- Наличие машины с UNIX-подобной ОС, владение командной оболочкой
- Python 3
- Git
- Желательны базовые знания о машинном обучении
Какие будут использоваться технологии?
- В качестве основного языка будет Python 3
- Нейронные сети мы будем обучать
- Так же вы можете проводить вычисления на ресурсах aws или воспользоваться google cloud.
Темы вводных занятий
Будем планомерно погружаться в тему, на это у нас уйдет весь 2-й модуль. Также желательно, чтобы каждый из нас сделал доклад по какой-то статье из этого списка.
Направления развития
1. Совершенствование процесса обучения модели 2. Масштабирование модели на большие вычислительные мощности
Критерии оценки
Оценка складывается из пунктов:
- 3 балла - регулярное посещение занятий, есть некоторая реализация идей, рассказанных на семинаре
- 1 балл - вы пишите качественный код
- 1 балл - разбор статьи на семинаре
- 2 балла - ваш алгоритм играет конкурентно с человеком
Остается еще 3 балла, эта часть оценки будет определена тем, на сколько силен ваш алгоритм по сравнению с решениями коллег.
Ориентировочное расписание занятий
Семинары будут проходить в стенах Яндекса каждую неделю в фиксированный день (вторник, среда или четверг). Если будет желание, то можно несколько раз в выходные провести своеобразные хакатоны: собираемся вместе на целый день, работаем, общаемся и трескаем пиццу.