Рендзю (проект) — различия между версиями

Версия 19:37, 16 сентября 2016


Ментор	Симагин Денис
Учебный семестр	Осень 2016
Учебный курс	2-й курс

Максимальное количество студентов, выбравших проект: 3-4
Содержание 1 Что это за проект? 2 Чему вы научитесь? 3 Какие начальные требования? 4 Какие будут использоваться технологии? 5 Темы вводных занятий 6 Направления развития 7 Критерии оценки 8 Ориентировочное расписание занятий

Что это за проект?

Тема сочетания reinforcement learning и deep learning является "горячей" на сегодняшний день. К примеру, изучите статью Playing atari with deep reinforcement learning. Также вы, наверняка, слышали о AlpaGo, программе, которая впервые победила человека, профессионально играющего в Go. Подробнее об этом здесь. Данный проект заключается в изучении подходов, которые применяются в AlphaGo, и их применении при создание собственного алгоритма для игры рендзю.

Чему вы научитесь?

Основы машинного обучения
Альфа-бета отсечения
Метод Монте-Карло для поиска в дереве
Глубинные нейронные сети

В дополнение к этому:

Пройдете процесс ревью своего кода
Научитесь читать английские статьи

Какие начальные требования?

Наличие машины с UNIX-подобной ОС, владение командной оболочкой
Python 3
Git
Желательны базовые знания о машинном обучении

Какие будут использоваться технологии?

В качестве основного языка будет Python 3.
Нейронные сети мы будем обучать с помощью [библиотеки].
Так же вы можете проводить вычисления на ресурсах aws или воспользоваться google cloud.

Темы вводных занятий

Будем планомерно погружаться в тему, весь 2-й модуль. Также желательно, чтобы каждый сделал доклад по статье из списка.

Направления развития

Совершенствование процесса обучения модели
Масштабирование модели на большие вычислительные мощности

Критерии оценки

Оценка складывается из пунктов:

3 балла - регулярное посещение занятий, есть некоторая реализация идей, рассказанных на семинаре
1 балл - вы пишите качественный код
1 балл - разбор статьи на семинаре
2 балла - ваш алгоритм играет конкурентно с человеком

Остается еще 3 балла, эта часть оценки будет определена тем, на сколько силен ваш алгоритм по сравнению с решениями коллег.

Ориентировочное расписание занятий

Семинары будут проходить в стенах Яндекса каждую неделю в фиксированный день (вторник, среда или четверг). Если будет желание, то можно несколько раз в выходные провести своеобразные хакатоны: собираемся вместе на целый день, работаем, общаемся и трескаем пиццу.

@@ Строка 11: / Строка 11: @@
 === Что это за проект? ===
-Тема сочетания [https://en.wikipedia.org/wiki/Reinforcement_learning reinforcement learning] и [https://en.wikipedia.org/wiki/Deep_learning deep learning] является "горячей" на сегодняшний день. К примеру, изучите статью [http://arxiv.org/pdf/1312.5602v1.pdf Playing atari with deep reinforcement learning]. Также вы, наверняка, слышали об [https://en.wikipedia.org/wiki/AlphaGo AlpaGo], программе, которая впервые смогла победить человека, профессионально играющего в Go. Подробнее об этом[https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf здесь]. Данный проект заключается в изучении подходов, которые применяются в AlphaGo, и их применении при создание собственного алгоритма для игры [https://en.wikipedia.org/wiki/Renju рендзю].
+Тема сочетания [https://en.wikipedia.org/wiki/Reinforcement_learning reinforcement learning] и [https://en.wikipedia.org/wiki/Deep_learning deep learning] является "горячей" на сегодняшний день. К примеру, изучите статью [http://arxiv.org/pdf/1312.5602v1.pdf Playing atari with deep reinforcement learning]. Также вы, наверняка, слышали о [https://en.wikipedia.org/wiki/AlphaGo AlpaGo], программе, которая впервые победила человека, профессионально играющего в Go. Подробнее об этом [https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf здесь]. Данный проект заключается в изучении подходов, которые применяются в AlphaGo, и их применении при создание собственного алгоритма для игры [https://en.wikipedia.org/wiki/Renju рендзю].
 === Чему вы научитесь? ===

Рендзю (проект) — различия между версиями

Версия 19:37, 16 сентября 2016

Содержание

Что это за проект?

Чему вы научитесь?

Какие начальные требования?

Какие будут использоваться технологии?

Темы вводных занятий

Направления развития

Критерии оценки

Ориентировочное расписание занятий

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты