Рендзю (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница, с помощью формы Новый_проект)
 
(Что это за проект?)
Строка 11: Строка 11:
  
 
=== Что это за проект? ===
 
=== Что это за проект? ===
Тема сочетания [https://en.wikipedia.org/wiki/Reinforcement_learning reinforcement learning] и [https://en.wikipedia.org/wiki/Deep_learning deep learning] является "горячей" на сегодняшний день. В частности вы можете изучить статью [http://arxiv.org/pdf/1312.5602v1.pdf Playing Atari with Deep Reinforcement Learning]. А также вы, наверняка, слышали об [https://en.wikipedia.org/wiki/AlphaGo AlpaGo], программе, которая впервые смогла победить человека, профессионально играющего в Go. Подробнее об этом можно почитать [https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf здесь]. Данный проект заключается в изучении подходов, которые применяются в AlphaGo, и их применении при создание собственного алгоритма для игры в [https://en.wikipedia.org/wiki/Renju рендзю].
+
Тема сочетания [https://en.wikipedia.org/wiki/Reinforcement_learning reinforcement learning] и [https://en.wikipedia.org/wiki/Deep_learning deep learning] является "горячей" на сегодняшний день. К примеру, изучите статью [http://arxiv.org/pdf/1312.5602v1.pdf Playing atari with deep reinforcement learning]. Также вы, наверняка, слышали об [https://en.wikipedia.org/wiki/AlphaGo AlpaGo], программе, которая впервые смогла победить человека, профессионально играющего в Go. Подробнее об этом[https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf здесь]. Данный проект заключается в изучении подходов, которые применяются в AlphaGo, и их применении при создание собственного алгоритма для игры [https://en.wikipedia.org/wiki/Renju рендзю].
  
 
=== Чему вы научитесь? ===
 
=== Чему вы научитесь? ===

Версия 20:09, 15 сентября 2016

Ментор Симагин Денис
Учебный семестр Осень 2016
Учебный курс 2-й курс
Максимальное количество студентов, выбравших проект: 3-4



Что это за проект?

Тема сочетания reinforcement learning и deep learning является "горячей" на сегодняшний день. К примеру, изучите статью Playing atari with deep reinforcement learning. Также вы, наверняка, слышали об AlpaGo, программе, которая впервые смогла победить человека, профессионально играющего в Go. Подробнее об этомздесь. Данный проект заключается в изучении подходов, которые применяются в AlphaGo, и их применении при создание собственного алгоритма для игры рендзю.

Чему вы научитесь?

  1. Основы машинного обучения
  2. Альфа-бета отсечения
  3. Метод Монте-Карло для поиска в дереве
  4. Глубинные нейронные сети

В дополнение к этому:

  1. Пройдете процесс ревью своего кода
  2. Научитесь читать английские статьи

Какие начальные требования?

1. Наличие машины с UNIX-подобной ОС, владение командной оболочкой 2. Python 3 3. Git 4. Желательны базовые знания о машинном обучении

Какие будут использоваться технологии?

  1. В качестве основного языка будет Python 3
  2. Нейронные сети мы будем обучать
  3. Так же вы можете проводить вычисления на ресурсах aws или воспользоваться google cloud.

Темы вводных занятий

Будем планомерно погружаться в тему, на это у нас уйдет весь 2-й модуль. Также желательно, чтобы каждый из нас сделал доклад по какой-то статье из этого списка.

Направления развития

1. Совершенствование процесса обучения модели 2. Масштабирование модели на большие вычислительные мощности

Критерии оценки

Оценка складывается из пунктов:

  • 3 балла - регулярное посещение занятий, есть некоторая реализация идей, рассказанных на семинаре
  • 1 балл - вы пишите качественный код
  • 1 балл - разбор статьи на семинаре
  • 2 балла - ваш алгоритм играет конкурентно с человеком

Остается еще 3 балла, эта часть оценки будет определена тем, на сколько силен ваш алгоритм по сравнению с решениями коллег.

Ориентировочное расписание занятий

Семинары будут проходить в стенах Яндекса каждую неделю в фиксированный день (вторник, среда или четверг). Если будет желание, то можно несколько раз в выходные провести своеобразные хакатоны: собираемся вместе на целый день, работаем, общаемся и трескаем пиццу.