ИИ и БД

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

Страница курса "Искусственный интеллект и большие данные"

Ссылки

  1. Telegram-канал: https://t.me/joinchat/AAAAAEqSqaGmihzF3ZnE4g
  2. Форум: https://groups.google.com/forum/#!forum/aibd-course-2018 (лучше писать в группу ФБ - ответ будет оперативнее)
  3. FB: https://facebook.com/groups/1983952831632009
  4. ПУД: https://www.hse.ru/edu/courses/206643947
  5. Книга "Статистика и котики": http://www.statcats.ru/2016/03/blog-post.html
  6. Опрос по качеству курса: https://goo.gl/forms/gJHOhjxs6fxSqzd82

Преподаватели и консультации

Консультации указаны на личных страницах.

Преподаватели:

  1. Мягких Павел Игоревич - https://www.hse.ru/org/persons/213956876
  2. Рыжиков Артем Сергеевич - https://www.hse.ru/org/persons/190912317
  3. Трусов Иван Алексеевич - https://www.hse.ru/staff/renarde

Ассистенты:

  1. Ященко Анастасия
  2. Бобровских Глеб

Материалы лекций

  1. Лекция 1
  2. Лекция 2
  3. Лекция 3
  4. Лекция 4
  5. Лекция 5
  6. Лекция 6
  7. Лекция 7
  8. Лекция 8
  9. Лекция 9
  10. Лекция 10
  11. Лекция 11
  12. Лекция 12

Сроки тестов и заданий

  1. Тест №1 по темам лекций 1-5 (Машинное обучение) открыт 6 марта в 14:00 и будет закрыт 13 марта в 14:00. Примерный список вопросов, инструкция по прохождению и картинки выложены ниже.
  2. Тест №2 по темам лекций 6,7 (Статистика) будет открыт 15 мая в 14:00 и будет закрыт 22 мая в 14:00. Примерный список вопросов выложен ниже.
  3. Эссе-задание №1 по теме "Визуализация" принимается в любом виде до 30 мая. Если у вас электронный вариант - присылайте его на почту aibdcourse2018@gmail.com (не забудьте указать авторов), если физический - приносите на лекции вплоть до 30 мая.

Справочная информация по 1 тесту

Структура теста:

  1. 15 вопросов с одним или несколькими вариантами ответа
  2. 3 открытых вопроса (ответ в 3-4 предложения)
  3. 2 вопроса по картинке и матрице ошибок классификации (ответ в 3-4 предложения)

Примеры вопросов 1 части:

  1. Установите последовательность преобразования сигнала в знание (лекция 2)
  2. Представлена генеральная совокупность автомобилей 3 цветов из 6 элементов (например,ЧЧККЖЖ, где Ч - черный, К - красный, Ж - желтый). Необходимо сделать такую выборку, которая репрезентативна по признаку цвета. Выберите репрезентативную выборку из вариантов - (ЧКК, ЧЖЖ, ЧКЖ)
  3. Выберите, каким методом необходимо решать следующие задачи (дан набор задач, для каждой необходимо выбрать между классификацией, регрессией и кластеризацией)
  4. Выберите качественные признаки из (и 4 варианта признаков)
  5. Выберите количественные признаки из (и 4 варианта признаков)
  6. Данные утверждения верны для матрицы объект-признак (даны утвержения, выберите верные)
  7. Дано уравнение линейной регрессии цены квартиры в зависимости от площади: price=20*square+10 (где price - цена, square - площадь). Рассчитайте цену квартиры при площади 30.
  8. Приведен пример дерева решений, дан вектор признаков на объекте. Укажите, каково будет предсказание дерева решений на данном объекте.

Примеры вопросов 2 части:

  1. В чем смысл метода kNN (k ближайших соседей) в задаче классификации? Почему не стоит выбирать K четным? Объясните суть метода и ответьте на вопрос (3-4 предложения).
  2. Можно ли оцифровать картинку? Если да, в какую математическую структуру ее можно преобразовать?

Примеры вопросов 3 части:

  1. Дан график рассеяния точек зависимости роста от возраста, на нем проведены три линии. Выберите ту, которая в смысле метода наименьших квадратов является наиболее релевантной к приведенным данным. Объясните смысл метода наименьших квадратов.
  2. Опишите, чем отличаются ошибки первого и второго рода. Рассчитайте accuracy по заданной матрице ошибок классификации

Детальная инструкция по первому тесту

Инструкция по прохождению теста

  1. При прохождении теста советуем использовать ноутбук с браузерами Google Chrome / Firefox / Safari. С мобильных платформ отображение теста может быть некорректным.
  2. Мы так же обратили внимание, что с внутренней сети ВШЭ иногда не работают картинки. Дабы не возникало проблем с их отображением, картинки отдельно выложены в wiki.
  3. Заходим на ссылку теста: https://onlinetestpad.com/t/917c9b358ee242a595e12c3ecc41ef05
  4. Придумайте для себя кодовое слово (желательно - на русском языке, без дефисов и других символов).
  5. Отправляем со своего email свое кодовое слово на указанный на первой странице теста email с указанной темой. Важно - это достаточно сделать один раз.
  6. Проходим тест. На прохождение выдается 120 минут, в это время для данной вкладки браузера нельзя нажимать кнопки назад или обновить страницу - результаты не будут засчитаны.
  7. В финальном окне теста вводим в разделе "Введите свое имя" своей Email (тот же, что и в начале). Рядом появится галочка - нажмите ее.
  8. Очень не советуем списывать друг у друга или из интернета текстовые ответы - как вы знаете, с помощью анализа данных можно легко рассчитать расстояния между строками и проверить схожесть двух ответов. Для тех, у кого текстовые ответы будут совпадать слишком сильно, баллы за тест обратятся в 0.
  9. Вы можете проходить тест сколько угодно раз, но засчитывать для вашего Email мы будем только первые три результата по времени. Из них будет выбираться наилучший, и этот результат мы и будем считать финальной итоговой оценкой за данный тест.

Картинки по первому тесту

Выложены в виде .PDF - https://drive.google.com/open?id=1hV-FLzxgik4OZj71hsmjqoDDfkPsO4kk

Эссе по визуализации

Эссе по визуализации принимается до 30 мая. Работать можно в командах до 5 человек включительно.

Концепция задания следующая:

  1. Возьмите данные о каком-либо социальном процессе, явлении, историческом, культурном или политическом событии. Под данными подразумевается некоторый набор статистики.
  2. Проведите анализ этих данных - посмотрите на распределения, выделите средние, распределения, медианы и дисперсии - о чем они говорят?
  3. Визуализируйте результаты описанными в лекциях графиками и графическими инструментами. Проследите за тем, чтобы визуализации получились наглядными, выдержанными в едином стиле, информационно полными (с соблюдением принципов, описанных в лекциях).
  4. Под полученными визуализациями добавьте текстовые аннотации на ± полстраницы текста на каждую графическую единицу.
  5. Итоговая размерность задания, если переводить его в word / pdf с 14 Times New Roman - около 3-5 страниц (больше - по желанию).
  6. Итоговая работа может быть в любом виде по желанию вашей команды, например:
    1. .docx / .pdf / .pptx с картинками и подписями (самый простой вариант).
    2. веб-страница с графиками и текстом (взгляните, например, на Tableau Public - там можно рисовать графики (включая картографические) и прочее в Web-версии без знания особых инструментов)
    3. Бумажный ватман с распечатанными и наклееными / нарисованными графиками и подписями (если вдруг такое взбредет вам в голову, получится что-то похожее на стенгазету).
    4. любой неперечисленный выше формат лучше все таки уточнить у нас (я правда не знаю что еще может прийти в голову, но если вдруг).
    5. Позаботьтесь о том, чтобы в вашем задании был некоторый осмысленный и осязаемый из графиков вывод об объекте изучения. Он должен быть не менее 3-х предложений по теме.

N.B. Постарайтесь подойти к этому заданию творчески. Возможно, вы захотите чтобы оно вошло в портфолио ваших проектов - получится явная польза помимо курса.

Возможные вопросы:

Q: Я не умею в сложный web и не очень хорошо рисую, как мне сделать это задание?

A: Самый простой способ - возьмите обычный Excel и Word, разберите данные там, сделайте графики в Excel и перенесите их в Word.

Q: А где брать данные?

A: Вопрос непростой, но есть некоторые базовые локации:

  1. Социальная / экономическая статистика:
    1. Росстат - http://www.gks.ru/
    2. Всемирный банк - http://www5.worldbank.org/eca/russian/data/
  2. Портал Открытых Данных Правительства Москвы (отсюда взят пример с барами в лекции) - https://data.mos.ru/
  3. Любые цифровые выкладки по вашему предмету визуалиации - желательно чтобы данные были открытыми.
  4. В сообществе ods.ai в канале #datasets есть самые разнообразные данные (даже картинки со сканом легких). Зарегистрируйтесь (это займет около 1 дня на рассмотрение регистрации) - и спросите там (или у нас)
  5. Спросите нас - может сможем что-нибудь подсказать.
  6. Airbnb выложил свои датасеты в открытый доступ - https://www.airbnbcitizen.com/data/#/

Q: Можно ли мне сделать что-нибудь по данным с realtime API (twitter / google / etc)? A: Конечно же да, но тогда должно быть понятно о чем именно вы рассказываете.

Q: А какими инструментами можно пользоваться? A: Если вы хотите сделать задание чуть сложнее, чем простой Word и Excel - посмотрите в сторону Tableau Public https://public.tableau.com/en-us/s/ - тоже не требует специальных знаний.

  Отличный пример:
  Интерактивная визуализация, в которой рассказывается о том, в каких странах и отраслях девушкам сложно получать образование: https://public.tableau.com/en-us/s/gallery/toughest-places-girl-get-education-2017?gallery=votd

Критерии оценивания эссе по визуализации

  1. Логическая связность повествования - от 1 до 5 баллов
  2. Понятность графических объектов (не менее 3-х графических объектов, меньше - 1 балл) - от 1 до 10 баллов
  3. Аккуратность, информативность графиков, подписанные оси, грамотные аннотации - от 1 до 10 баллов
  4. Наличие логичного вывода в концовке эссе и его связность с темой - от 1 до 5 баллов

Примерные вопросы к тесту №2 по теме "Статистика"

В тесте 12 вопросов, 10 оцениваются в 2 балла (итого 22), 2 вопроса - в 4 балла (итого 8), суммарно можно получить 30 баллов. На тест дается 65 минут (по 5 минут на вопрос).

Суммарно за тест можно набрать 30 баллов (22 за секцию с вопросами с одним ответом и 8 за секцию с вопросами с многочисленным выбором ответа).

Вопросы с одним ответом (2 балла за каждый вопрос, всего 22 баллов за секцию):

  1. Медиана - это (выберите определение)
  2. Дана выборка цветов, выберите моду и введите ответ
  3. Рассчитайте среднее числового ряда
  4. Статистический выброс - это (выберите определение)
  5. Дисперсия - это (выберите определение)
  6. Распределение, имеющее два ярко выраженных пика - это (выберите название распределения)
  7. Коэффициент корреляции равный единице означает что между признаками имеется (X) связь (выберите X)
  8. Квантиль - это (выберите определение)
  9. Большое значение дисперсии означает что (выберите, что означает)
  10. Представлен график распределения, на нем отмечены точки A,B,C. Выберите точку, которая соответствует среднему данного распределения.

Вопросы с выбором ответа (4 балла за каждый вопрос, всего 8 баллов за секцию):

  1. Представлен график распределения, выберите верные утверждения относительно данного распределения (дан набор утверждений)
  2. Представьте, что вы на телешоу, в котором вам нужно выбрать одну из трех дверей. За одной из дверей автомобиль, а за двумя другими - козы. Вы выбираете дверь номер 1, после чего ведущий, который знает где находится автомобиль, открывает одну из дверей (например, дверь номер 3), и за ней оказывается коза. Какова вероятность вашего выигрышав случае когда вы меняете свой выбор? Запишите ответ в процентах, округлив его до целого числа.

Формирование оценок по дисциплине

Подведение итогов промежуточной аттестации по дисциплине проводится только на основании результатов текущего контроля без проведения аттестационного испытания в форме экзамена, т.е.:

О_рез = О_нак

Накопленная оценка по дисциплине рассчитывается по формуле:

O_нак = 0,6*O_тек + 0.4*O_итоговое эссе

Текущая оценка вычисляется как средняя арифметическая по всем промежуточным формам контроля: 2 онлайн-теста и эссе по storytelling. На выполнение промежуточных заданий студентам дается 7 календарных дней. Если задание выполнено позже указанного срока, студент получает минус балл за каждый день опоздания.

Итоговое задание выполняется не позднее, чем за неделю до начала сессии четвертого модуля. В случае невыполнения итогового задания в указанный срок, студент получает за него 0 баллов. Результирующая оценка по учебной дисциплине округляется к ближайшему целому. Оценки за курс выставляются в течение сессии четвертого модуля.