ИИ и БД — различия между версиями
Renarde (обсуждение | вклад) (→Материалы лекций) |
Renarde (обсуждение | вклад) (→Ссылки) |
||
Строка 9: | Строка 9: | ||
# Книга "Статистика и котики": http://www.statcats.ru/2016/03/blog-post.html | # Книга "Статистика и котики": http://www.statcats.ru/2016/03/blog-post.html | ||
# Опрос по качеству курса: https://goo.gl/forms/gJHOhjxs6fxSqzd82 | # Опрос по качеству курса: https://goo.gl/forms/gJHOhjxs6fxSqzd82 | ||
+ | # Журнал: https://docs.google.com/spreadsheets/d/1FJFiWu1wmPLRxa-mJ_juvZpZdak_NHNQOb9C8isN-Zk/edit?usp=sharing | ||
== Преподаватели и консультации == | == Преподаватели и консультации == |
Версия 01:06, 30 мая 2018
Страница курса "Искусственный интеллект и большие данные"
Содержание
Ссылки
- Telegram-канал: https://t.me/joinchat/AAAAAEqSqaGmihzF3ZnE4g
- Форум: https://groups.google.com/forum/#!forum/aibd-course-2018 (лучше писать в группу ФБ - ответ будет оперативнее)
- FB: https://facebook.com/groups/1983952831632009
- ПУД: https://www.hse.ru/edu/courses/206643947
- Книга "Статистика и котики": http://www.statcats.ru/2016/03/blog-post.html
- Опрос по качеству курса: https://goo.gl/forms/gJHOhjxs6fxSqzd82
- Журнал: https://docs.google.com/spreadsheets/d/1FJFiWu1wmPLRxa-mJ_juvZpZdak_NHNQOb9C8isN-Zk/edit?usp=sharing
Преподаватели и консультации
Консультации указаны на личных страницах.
Преподаватели:
- Мягких Павел Игоревич - https://www.hse.ru/org/persons/213956876
- Рыжиков Артем Сергеевич - https://www.hse.ru/org/persons/190912317
- Трусов Иван Алексеевич - https://www.hse.ru/staff/renarde
Ассистенты:
- Ященко Анастасия
- Бобровских Глеб
Материалы лекций
- Лекция 1
- Лекция 2
- Лекция 3
- Лекция 4
- Лекция 5
- Лекция 6
- Лекция 7
- Лекция 8
- Лекция 9
- Лекция 10
- Лекция 11
- Лекция 12
- Лекция 13
- Лекция 14
- Лекция 15
Сроки тестов и заданий
- Тест №1 по темам лекций 1-5 (Машинное обучение) открыт 6 марта в 14:00 и будет закрыт 13 марта в 14:00. Примерный список вопросов, инструкция по прохождению и картинки выложены ниже.
- Тест №2 по темам лекций 6,7 (Статистика) открыт (ссылка) 15 мая в 14:00 и будет закрыт 29 мая в 15:00 (ответы после 15:00 22 мая будут считаться как -50% баллов). Примерный список вопросов выложен ниже.
- Эссе-задание №1 по теме "Визуализация" принимается в любом виде до 30 мая. Если у вас электронный вариант - присылайте его на почту aibdcourse2018@gmail.com (не забудьте указать авторов), если физический - приносите на лекции вплоть до 30 мая.
Справочная информация по 1 тесту
Структура теста:
- 15 вопросов с одним или несколькими вариантами ответа
- 3 открытых вопроса (ответ в 3-4 предложения)
- 2 вопроса по картинке и матрице ошибок классификации (ответ в 3-4 предложения)
Примеры вопросов 1 части:
- Установите последовательность преобразования сигнала в знание (лекция 2)
- Представлена генеральная совокупность автомобилей 3 цветов из 6 элементов (например,ЧЧККЖЖ, где Ч - черный, К - красный, Ж - желтый). Необходимо сделать такую выборку, которая репрезентативна по признаку цвета. Выберите репрезентативную выборку из вариантов - (ЧКК, ЧЖЖ, ЧКЖ)
- Выберите, каким методом необходимо решать следующие задачи (дан набор задач, для каждой необходимо выбрать между классификацией, регрессией и кластеризацией)
- Выберите качественные признаки из (и 4 варианта признаков)
- Выберите количественные признаки из (и 4 варианта признаков)
- Данные утверждения верны для матрицы объект-признак (даны утвержения, выберите верные)
- Дано уравнение линейной регрессии цены квартиры в зависимости от площади: price=20*square+10 (где price - цена, square - площадь). Рассчитайте цену квартиры при площади 30.
- Приведен пример дерева решений, дан вектор признаков на объекте. Укажите, каково будет предсказание дерева решений на данном объекте.
Примеры вопросов 2 части:
- В чем смысл метода kNN (k ближайших соседей) в задаче классификации? Почему не стоит выбирать K четным? Объясните суть метода и ответьте на вопрос (3-4 предложения).
- Можно ли оцифровать картинку? Если да, в какую математическую структуру ее можно преобразовать?
Примеры вопросов 3 части:
- Дан график рассеяния точек зависимости роста от возраста, на нем проведены три линии. Выберите ту, которая в смысле метода наименьших квадратов является наиболее релевантной к приведенным данным. Объясните смысл метода наименьших квадратов.
- Опишите, чем отличаются ошибки первого и второго рода. Рассчитайте accuracy по заданной матрице ошибок классификации
Детальная инструкция по первому тесту
Инструкция по прохождению теста
- При прохождении теста советуем использовать ноутбук с браузерами Google Chrome / Firefox / Safari. С мобильных платформ отображение теста может быть некорректным.
- Мы так же обратили внимание, что с внутренней сети ВШЭ иногда не работают картинки. Дабы не возникало проблем с их отображением, картинки отдельно выложены в wiki.
- Заходим на ссылку теста: https://onlinetestpad.com/t/917c9b358ee242a595e12c3ecc41ef05
- Придумайте для себя кодовое слово (желательно - на русском языке, без дефисов и других символов).
- Отправляем со своего email свое кодовое слово на указанный на первой странице теста email с указанной темой. Важно - это достаточно сделать один раз.
- Проходим тест. На прохождение выдается 120 минут, в это время для данной вкладки браузера нельзя нажимать кнопки назад или обновить страницу - результаты не будут засчитаны.
- В финальном окне теста вводим в разделе "Введите свое имя" своей Email (тот же, что и в начале). Рядом появится галочка - нажмите ее.
- Очень не советуем списывать друг у друга или из интернета текстовые ответы - как вы знаете, с помощью анализа данных можно легко рассчитать расстояния между строками и проверить схожесть двух ответов. Для тех, у кого текстовые ответы будут совпадать слишком сильно, баллы за тест обратятся в 0.
- Вы можете проходить тест сколько угодно раз, но засчитывать для вашего Email мы будем только первые три результата по времени. Из них будет выбираться наилучший, и этот результат мы и будем считать финальной итоговой оценкой за данный тест.
Картинки по первому тесту
Выложены в виде .PDF - https://drive.google.com/open?id=1hV-FLzxgik4OZj71hsmjqoDDfkPsO4kk
Эссе по визуализации
Эссе по визуализации принимается до 30 мая. Работать можно в командах до 5 человек включительно.
Концепция задания следующая:
- Возьмите данные о каком-либо социальном процессе, явлении, историческом, культурном или политическом событии. Под данными подразумевается некоторый набор статистики.
- Проведите анализ этих данных - посмотрите на распределения, выделите средние, распределения, медианы и дисперсии - о чем они говорят?
- Визуализируйте результаты описанными в лекциях графиками и графическими инструментами. Проследите за тем, чтобы визуализации получились наглядными, выдержанными в едином стиле, информационно полными (с соблюдением принципов, описанных в лекциях).
- Под полученными визуализациями добавьте текстовые аннотации на ± полстраницы текста на каждую графическую единицу.
- Итоговая размерность задания, если переводить его в word / pdf с 14 Times New Roman - около 3-5 страниц (больше - по желанию).
- Итоговая работа может быть в любом виде по желанию вашей команды, например:
- .docx / .pdf / .pptx с картинками и подписями (самый простой вариант).
- веб-страница с графиками и текстом (взгляните, например, на Tableau Public - там можно рисовать графики (включая картографические) и прочее в Web-версии без знания особых инструментов)
- Бумажный ватман с распечатанными и наклеенными / нарисованными графиками и подписями (если вдруг такое взбредет вам в голову, получится что-то похожее на стенгазету).
- любой неперечисленный выше формат лучше все таки уточнить у нас (я правда не знаю что еще может прийти в голову, но если вдруг).
- Позаботьтесь о том, чтобы в вашем задании был некоторый осмысленный и осязаемый из графиков вывод об объекте изучения. Он должен быть не менее 3-х предложений по теме.
N.B. Постарайтесь подойти к этому заданию творчески. Возможно, вы захотите чтобы оно вошло в портфолио ваших проектов - получится явная польза помимо курса.
Возможные вопросы:
Q: Я не умею в сложный web и не очень хорошо рисую, как мне сделать это задание?
A: Самый простой способ - возьмите обычный Excel и Word, разберите данные там, сделайте графики в Excel и перенесите их в Word.
Q: А где брать данные?
A: Вопрос непростой, но есть некоторые базовые локации:
- Социальная / экономическая статистика:
- Росстат - http://www.gks.ru/
- Всемирный банк - http://www5.worldbank.org/eca/russian/data/
- Портал Открытых Данных Правительства Москвы (отсюда взят пример с барами в лекции) - https://data.mos.ru/
- Любые цифровые выкладки по вашему предмету визуалиации - желательно чтобы данные были открытыми.
- В сообществе ods.ai в канале #datasets есть самые разнообразные данные (даже картинки со сканом легких). Зарегистрируйтесь (это займет около 1 дня на рассмотрение регистрации) - и спросите там (или у нас)
- Спросите нас - может сможем что-нибудь подсказать.
- Airbnb выложил свои датасеты в открытый доступ - https://www.airbnbcitizen.com/data/#/
Q: Можно ли мне сделать что-нибудь по данным с realtime API (twitter / google / etc)?
A: Конечно же да, но тогда должно быть понятно о чем именно вы рассказываете.
Q: А какими инструментами можно пользоваться?
A: Если вы хотите сделать задание чуть сложнее, чем простой Word и Excel - посмотрите в сторону Tableau Public https://public.tableau.com/en-us/s/ - тоже не требует специальных знаний. Отличный пример - интерактивная визуализация, в которой рассказывается о том, в каких странах и отраслях девушкам сложно получать образование: https://public.tableau.com/en-us/s/gallery/toughest-places-girl-get-education-2017?gallery=votd
Критерии оценивания эссе по визуализации
- Логическая связность повествования - от 1 до 5 баллов
- Понятность графических объектов (не менее 3-х графических объектов, меньше - 1 балл) - от 1 до 10 баллов
- Аккуратность, информативность графиков, подписанные оси, грамотные аннотации - от 1 до 10 баллов
- Наличие логичного вывода в концовке эссе и его связность с темой - от 1 до 5 баллов
Примерные вопросы к тесту №2 по теме "Статистика"
В тесте 12 вопросов, 10 оцениваются в 2 балла (итого 20), 2 вопроса - в 5 балла (итого 10), суммарно можно получить 30 баллов. На тест дается 60 минут (по 5 минут на вопрос).
Суммарно за тест можно набрать 30 баллов (20 за секцию с вопросами с одним ответом и 10 за секцию с вопросами с многочисленным выбором ответа).
Вопросы с одним ответом (2 балла за каждый вопрос, всего 10 баллов за секцию):
- Медиана - это (выберите определение)
- Дана выборка цветов, выберите моду и введите ответ
- Рассчитайте среднее числового ряда
- Статистический выброс - это (выберите определение)
- Дисперсия - это (выберите определение)
- Распределение, имеющее два ярко выраженных пика - это (выберите название распределения)
- Коэффициент корреляции равный единице означает что между признаками имеется (X) связь (выберите X)
- Квантиль - это (выберите определение)
- Большое значение дисперсии означает что (выберите, что означает)
- Представлен график распределения, на нем отмечены точки A,B,C. Выберите точку, которая соответствует среднему данного распределения.
Вопросы с выбором ответа (5 баллов за каждый вопрос, всего 10 баллов за секцию):
- Представлен график распределения, выберите верные утверждения относительно данного распределения (дан набор утверждений)
- Представьте, что вы на телешоу, в котором вам нужно выбрать одну из трех дверей. За одной из дверей автомобиль, а за двумя другими - козы. Вы выбираете дверь номер 1, после чего ведущий, который знает где находится автомобиль, открывает одну из дверей (например, дверь номер 3), и за ней оказывается коза. Какова вероятность вашего выигрышав случае когда вы меняете свой выбор? Запишите ответ в процентах, округлив его до целого числа.
Формирование оценок по дисциплине
Подведение итогов промежуточной аттестации по дисциплине проводится только на основании результатов текущего контроля без проведения аттестационного испытания в форме экзамена, т.е.:
О_рез = О_нак
Накопленная оценка по дисциплине рассчитывается по формуле:
O_нак = 0,6*O_тек + 0.4*O_итоговое эссе
Текущая оценка вычисляется как средняя арифметическая по всем промежуточным формам контроля: 2 онлайн-теста и эссе по storytelling. На выполнение промежуточных заданий студентам дается 7 календарных дней. Если задание выполнено позже указанного срока, студент получает минус балл за каждый день опоздания.
Итоговое задание выполняется не позднее, чем за неделю до начала сессии четвертого модуля. В случае невыполнения итогового задания в указанный срок, студент получает за него 0 баллов. Результирующая оценка по учебной дисциплине округляется к ближайшему целому. Оценки за курс выставляются в течение сессии четвертого модуля.