ИИ и БД — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Материалы лекций)
(Материалы лекций)
 
Строка 41: Строка 41:
 
# [https://drive.google.com/file/d/1UM8ivMLUiZ8FlaJuUh-aXTok2Gf5Kh0q/view?usp=sharing Лекция 15]
 
# [https://drive.google.com/file/d/1UM8ivMLUiZ8FlaJuUh-aXTok2Gf5Kh0q/view?usp=sharing Лекция 15]
 
# [https://drive.google.com/file/d/1wNoXOuZMsd-ntivoB6JK7TMszyPfetmf/view?usp=sharing Лекция 16]
 
# [https://drive.google.com/file/d/1wNoXOuZMsd-ntivoB6JK7TMszyPfetmf/view?usp=sharing Лекция 16]
# [https://drive.google.com/file/d/19b2m1HHkgzvQmSLViNHLRm8QTU68jL4p/view?usp=sharing Лекция 17,PRE], [https://drive.google.com/file/d/1n4yVSMbLRTwk7y571aL7fyT2a7cdqXDY/view?usp=sharing Лекция 17, MAIN]
+
# [https://drive.google.com/file/d/19b2m1HHkgzvQmSLViNHLRm8QTU68jL4p/view?usp=sharing Лекция 17 - PRE], [https://drive.google.com/file/d/1n4yVSMbLRTwk7y571aL7fyT2a7cdqXDY/view?usp=sharing Лекция 17 - MAIN]
  
 
== Сроки тестов и заданий ==
 
== Сроки тестов и заданий ==

Текущая версия на 20:15, 14 июня 2018

Страница курса "Искусственный интеллект и большие данные"

Ссылки

  1. Telegram-канал: https://t.me/joinchat/AAAAAEqSqaGmihzF3ZnE4g
  2. Форум: https://groups.google.com/forum/#!forum/aibd-course-2018 (лучше писать в группу ФБ - ответ будет оперативнее)
  3. FB: https://facebook.com/groups/1983952831632009
  4. ПУД: https://www.hse.ru/edu/courses/206643947
  5. Книга "Статистика и котики": http://www.statcats.ru/2016/03/blog-post.html
  6. Опрос по качеству курса: https://goo.gl/forms/gJHOhjxs6fxSqzd82
  7. Журнал: https://docs.google.com/spreadsheets/d/1FJFiWu1wmPLRxa-mJ_juvZpZdak_NHNQOb9C8isN-Zk/edit?usp=sharing

Преподаватели и консультации

Консультации указаны на личных страницах.

Преподаватели:

  1. Мягких Павел Игоревич - https://www.hse.ru/org/persons/213956876
  2. Рыжиков Артем Сергеевич - https://www.hse.ru/org/persons/190912317
  3. Трусов Иван Алексеевич - https://www.hse.ru/staff/renarde

Ассистенты:

  1. Ященко Анастасия
  2. Бобровских Глеб

Материалы лекций

  1. Лекция 1
  2. Лекция 2
  3. Лекция 3
  4. Лекция 4
  5. Лекция 5
  6. Лекция 6
  7. Лекция 7
  8. Лекция 8
  9. Лекция 9
  10. Лекция 10
  11. Лекция 11
  12. Лекция 12
  13. Лекция 13
  14. Лекция 14
  15. Лекция 15
  16. Лекция 16
  17. Лекция 17 - PRE, Лекция 17 - MAIN

Сроки тестов и заданий

  1. Тест №1 по темам лекций 1-5 (Машинное обучение) открыт 6 марта в 14:00 и будет закрыт 13 марта в 14:00. Примерный список вопросов, инструкция по прохождению и картинки выложены ниже.
  2. Тест №2 по темам лекций 6,7 (Статистика) открыт (ссылка) 15 мая в 14:00 и будет закрыт 29 мая в 15:00 (ответы после 15:00 22 мая будут считаться как -50% баллов). Примерный список вопросов выложен ниже.
  3. Эссе-задание №1 по теме "Визуализация" принимается в любом виде до 30 мая. Если у вас электронный вариант - присылайте его на почту aibdcourse2018@gmail.com (не забудьте указать авторов), если физический - приносите на лекции вплоть до 30 мая.
  4. Финальное эссе по теме "Будущее ИИ и Больших Данных" принимается в виде .pdf документа на почту aibdcourse2018@gmail.com до 17 июня включительно.

Справочная информация по 1 тесту

Структура теста:

  1. 15 вопросов с одним или несколькими вариантами ответа
  2. 3 открытых вопроса (ответ в 3-4 предложения)
  3. 2 вопроса по картинке и матрице ошибок классификации (ответ в 3-4 предложения)

Примеры вопросов 1 части:

  1. Установите последовательность преобразования сигнала в знание (лекция 2)
  2. Представлена генеральная совокупность автомобилей 3 цветов из 6 элементов (например,ЧЧККЖЖ, где Ч - черный, К - красный, Ж - желтый). Необходимо сделать такую выборку, которая репрезентативна по признаку цвета. Выберите репрезентативную выборку из вариантов - (ЧКК, ЧЖЖ, ЧКЖ)
  3. Выберите, каким методом необходимо решать следующие задачи (дан набор задач, для каждой необходимо выбрать между классификацией, регрессией и кластеризацией)
  4. Выберите качественные признаки из (и 4 варианта признаков)
  5. Выберите количественные признаки из (и 4 варианта признаков)
  6. Данные утверждения верны для матрицы объект-признак (даны утвержения, выберите верные)
  7. Дано уравнение линейной регрессии цены квартиры в зависимости от площади: price=20*square+10 (где price - цена, square - площадь). Рассчитайте цену квартиры при площади 30.
  8. Приведен пример дерева решений, дан вектор признаков на объекте. Укажите, каково будет предсказание дерева решений на данном объекте.

Примеры вопросов 2 части:

  1. В чем смысл метода kNN (k ближайших соседей) в задаче классификации? Почему не стоит выбирать K четным? Объясните суть метода и ответьте на вопрос (3-4 предложения).
  2. Можно ли оцифровать картинку? Если да, в какую математическую структуру ее можно преобразовать?

Примеры вопросов 3 части:

  1. Дан график рассеяния точек зависимости роста от возраста, на нем проведены три линии. Выберите ту, которая в смысле метода наименьших квадратов является наиболее релевантной к приведенным данным. Объясните смысл метода наименьших квадратов.
  2. Опишите, чем отличаются ошибки первого и второго рода. Рассчитайте accuracy по заданной матрице ошибок классификации

Детальная инструкция по первому тесту

Инструкция по прохождению теста

  1. При прохождении теста советуем использовать ноутбук с браузерами Google Chrome / Firefox / Safari. С мобильных платформ отображение теста может быть некорректным.
  2. Мы так же обратили внимание, что с внутренней сети ВШЭ иногда не работают картинки. Дабы не возникало проблем с их отображением, картинки отдельно выложены в wiki.
  3. Заходим на ссылку теста: https://onlinetestpad.com/t/917c9b358ee242a595e12c3ecc41ef05
  4. Придумайте для себя кодовое слово (желательно - на русском языке, без дефисов и других символов).
  5. Отправляем со своего email свое кодовое слово на указанный на первой странице теста email с указанной темой. Важно - это достаточно сделать один раз.
  6. Проходим тест. На прохождение выдается 120 минут, в это время для данной вкладки браузера нельзя нажимать кнопки назад или обновить страницу - результаты не будут засчитаны.
  7. В финальном окне теста вводим в разделе "Введите свое имя" своей Email (тот же, что и в начале). Рядом появится галочка - нажмите ее.
  8. Очень не советуем списывать друг у друга или из интернета текстовые ответы - как вы знаете, с помощью анализа данных можно легко рассчитать расстояния между строками и проверить схожесть двух ответов. Для тех, у кого текстовые ответы будут совпадать слишком сильно, баллы за тест обратятся в 0.
  9. Вы можете проходить тест сколько угодно раз, но засчитывать для вашего Email мы будем только первые три результата по времени. Из них будет выбираться наилучший, и этот результат мы и будем считать финальной итоговой оценкой за данный тест.

Картинки по первому тесту

Выложены в виде .PDF - https://drive.google.com/open?id=1hV-FLzxgik4OZj71hsmjqoDDfkPsO4kk

Эссе по визуализации

Эссе по визуализации принимается до 30 мая. Работать можно в командах до 5 человек включительно.

Концепция задания следующая:

  1. Возьмите данные о каком-либо социальном процессе, явлении, историческом, культурном или политическом событии. Под данными подразумевается некоторый набор статистики.
  2. Проведите анализ этих данных - посмотрите на распределения, выделите средние, распределения, медианы и дисперсии - о чем они говорят?
  3. Визуализируйте результаты описанными в лекциях графиками и графическими инструментами. Проследите за тем, чтобы визуализации получились наглядными, выдержанными в едином стиле, информационно полными (с соблюдением принципов, описанных в лекциях).
  4. Под полученными визуализациями добавьте текстовые аннотации на ± полстраницы текста на каждую графическую единицу.
  5. Итоговая размерность задания, если переводить его в word / pdf с 14 Times New Roman - около 3-5 страниц (больше - по желанию).
  6. Итоговая работа может быть в любом виде по желанию вашей команды, например:
    1. .docx / .pdf / .pptx с картинками и подписями (самый простой вариант).
    2. веб-страница с графиками и текстом (взгляните, например, на Tableau Public - там можно рисовать графики (включая картографические) и прочее в Web-версии без знания особых инструментов)
    3. Бумажный ватман с распечатанными и наклеенными / нарисованными графиками и подписями (если вдруг такое взбредет вам в голову, получится что-то похожее на стенгазету).
    4. любой неперечисленный выше формат лучше все таки уточнить у нас (я правда не знаю что еще может прийти в голову, но если вдруг).
    5. Позаботьтесь о том, чтобы в вашем задании был некоторый осмысленный и осязаемый из графиков вывод об объекте изучения. Он должен быть не менее 3-х предложений по теме.

N.B. Постарайтесь подойти к этому заданию творчески. Возможно, вы захотите чтобы оно вошло в портфолио ваших проектов - получится явная польза помимо курса.

Возможные вопросы:

Q: Я не умею в сложный web и не очень хорошо рисую, как мне сделать это задание?

A: Самый простой способ - возьмите обычный Excel и Word, разберите данные там, сделайте графики в Excel и перенесите их в Word.

Q: А где брать данные?

A: Вопрос непростой, но есть некоторые базовые локации:

  1. Социальная / экономическая статистика:
    1. Росстат - http://www.gks.ru/
    2. Всемирный банк - http://www5.worldbank.org/eca/russian/data/
  2. Портал Открытых Данных Правительства Москвы (отсюда взят пример с барами в лекции) - https://data.mos.ru/
  3. Любые цифровые выкладки по вашему предмету визуалиации - желательно чтобы данные были открытыми.
  4. В сообществе ods.ai в канале #datasets есть самые разнообразные данные (даже картинки со сканом легких). Зарегистрируйтесь (это займет около 1 дня на рассмотрение регистрации) - и спросите там (или у нас)
  5. Спросите нас - может сможем что-нибудь подсказать.
  6. Airbnb выложил свои датасеты в открытый доступ - https://www.airbnbcitizen.com/data/#/

Q: Можно ли мне сделать что-нибудь по данным с realtime API (twitter / google / etc)?

A: Конечно же да, но тогда должно быть понятно о чем именно вы рассказываете.

Q: А какими инструментами можно пользоваться?

A: Если вы хотите сделать задание чуть сложнее, чем простой Word и Excel - посмотрите в сторону Tableau Public https://public.tableau.com/en-us/s/ - тоже не требует специальных знаний. Отличный пример - интерактивная визуализация, в которой рассказывается о том, в каких странах и отраслях девушкам сложно получать образование: https://public.tableau.com/en-us/s/gallery/toughest-places-girl-get-education-2017?gallery=votd


Критерии оценивания эссе по визуализации


  1. Логическая связность повествования - от 1 до 5 баллов
  2. Понятность графических объектов (не менее 3-х графических объектов, меньше - 1 балл) - от 1 до 10 баллов
  3. Аккуратность, информативность графиков, подписанные оси, грамотные аннотации - от 1 до 10 баллов
  4. Наличие логичного вывода в концовке эссе и его связность с темой - от 1 до 5 баллов

Примерные вопросы к тесту №2 по теме "Статистика"

В тесте 12 вопросов, 10 оцениваются в 2 балла (итого 20), 2 вопроса - в 5 балла (итого 10), суммарно можно получить 30 баллов. На тест дается 60 минут (по 5 минут на вопрос).

Суммарно за тест можно набрать 30 баллов (20 за секцию с вопросами с одним ответом и 10 за секцию с вопросами с многочисленным выбором ответа).

Вопросы с одним ответом (2 балла за каждый вопрос, всего 10 баллов за секцию):

  1. Медиана - это (выберите определение)
  2. Дана выборка цветов, выберите моду и введите ответ
  3. Рассчитайте среднее числового ряда
  4. Статистический выброс - это (выберите определение)
  5. Дисперсия - это (выберите определение)
  6. Распределение, имеющее два ярко выраженных пика - это (выберите название распределения)
  7. Коэффициент корреляции равный единице означает что между признаками имеется (X) связь (выберите X)
  8. Квантиль - это (выберите определение)
  9. Большое значение дисперсии означает что (выберите, что означает)
  10. Представлен график распределения, на нем отмечены точки A,B,C. Выберите точку, которая соответствует среднему данного распределения.

Вопросы с выбором ответа (5 баллов за каждый вопрос, всего 10 баллов за секцию):

  1. Представлен график распределения, выберите верные утверждения относительно данного распределения (дан набор утверждений)
  2. Представьте, что вы на телешоу, в котором вам нужно выбрать одну из трех дверей. За одной из дверей автомобиль, а за двумя другими - козы. Вы выбираете дверь номер 1, после чего ведущий, который знает где находится автомобиль, открывает одну из дверей (например, дверь номер 3), и за ней оказывается коза. Какова вероятность вашего выигрышав случае когда вы меняете свой выбор? Запишите ответ в процентах, округлив его до целого числа.

Финальное эссе

Сроки: до 17 июня включительно

Формат: в виде .pdf документа с Times New Roman 12, 1,5 интервал на почту aibdcourse2018@gmail.com

Данное эссе посвящено теме будущего ИИ и Больших данных с точки зрения студентов.

Работы выполняются самостоятельно, в случае нахождения плагиата будет проставлено строго 0 баллов всем, у кого этот плагиат будет.

Это эссе должно быть предельно коротким и емким (не более 2-5 страниц в 12 Times New Roman с отступом 1,5).

Ожидаемое содержание эссе:

  1. Введение
    1. Расскажите о том, в какой области вам было бы интересно применять методы и механизмы искусственного интеллекта (и/или анализа больших данных). В этой секции желательно описать практические проблемы, которые можно решить с помощью методов ИИ и БД.
  2. Текущая практика
    1. В этой секции необходимо со ссылками на источники описать примеры применения ИИ и БД в указанной профессиональной отрасли или сфере. В случае, если такие примеры совершенно отсутствуют, это необходимо явно указать.
  3. Возможное будущее
    1. Данная секция является ключевой для эссе. Опишите, своими словами, какими методами ИИ и БД из изученных (или известных вам) можно улучшить тот или иной процесс, интерфейс или отрасль за счет использования искусственного интеллекта или анализа больших данных. Хорошим тоном так же будет сослаться на анализ отрасли c точки зрения технологических евангелистов и развить их идеи в своем рассуждении.

Критерии оценивания эссе

  1. Размерность - менее 1 страницы - 0 баллов, более 5 страниц - 1 балл, от 2 до 5 - 3 балла
  2. Практическая секция - менее одного примера текущего использования технологий - 1 балл, 1 и более - 2 балла
  3. Возможное будущее - корректное, обоснованное источниками (или логическими аргументами) описание возможностей применения ИИ в отрасли или процессе - 5 баллов. Полное отсутствие ссылок на любые источники - 4 балла. Отсутствие базовых логических аргументов - 2 балла.

Итого по данному эссе можно получить 10 баллов (они не будут шкалироваться к максимуму, как тесты и эссе по визуализации).

Набор баллов через блиц

Блиц предоставляется для того, чтобы дать студентам возможность набрать от 0 до 2 баллов к накопленной оценке. Блиц проводится преподавателем или ассистентом в формате опроса после занятия, в рамках блица может быть задано от 1 до 5 вопросов из нижеприведенного списка в 10 вопросов. Если у студента максимальный балл, прохождение блица не улучшит результат за курс.

Распределение добавляемых баллов за блиц:

Количество верных ответов Добавляемый балл
5 2
4 1,6
3 1,2
2 0,8
1 0,4
0 0

Вопросы к блицу:

  1. Что такое тестовая и обучающая выборка? Для чего выделяется тестовая выборка?
  2. Что такое задача классификации в машинном обучении?
  3. Опишите что такое линейная регрессия и что означают коэффициенты в модели линейной регрессии?
  4. Что такое распределение? Какие бывают распределения?
  5. Как влияет ассиметрия распределения на медиану и среднее?
  6. Что такое нормальное распределение? Почему оно так называется? Какие особые свойства есть у нормального распределения?
  7. Что такое искусственная нейронная сеть? Какие задачи можно решать с помощью таких сетей?
  8. Что такое GAN? Как ( и чему) обучаются такие сети?
  9. Что такое большие данные? В чем состоит сложность работы с большими данными?
  10. Data driven организации - что это за компании? Приведите пример и объясните, чем они отличаются от других компаний


Формирование оценок по дисциплине

Подведение итогов промежуточной аттестации по дисциплине проводится только на основании результатов текущего контроля без проведения аттестационного испытания в форме экзамена, т.е.:

О_рез = О_нак

Накопленная оценка по дисциплине рассчитывается по формуле:

O_нак = 0,6*O_тек + 0.4*O_итоговое эссе

Текущая оценка вычисляется как средняя арифметическая по всем промежуточным формам контроля: 2 онлайн-теста и эссе по storytelling. На выполнение промежуточных заданий студентам дается 7 календарных дней. Если задание выполнено позже указанного срока, студент получает минус балл за каждый день опоздания.

Итоговое задание выполняется не позднее, чем за неделю до начала сессии четвертого модуля. В случае невыполнения итогового задания в указанный срок, студент получает за него 0 баллов. Результирующая оценка по учебной дисциплине округляется к ближайшему целому. Оценки за курс выставляются в течение сессии четвертого модуля.