ИИ и БД — различия между версиями
Renarde (обсуждение | вклад) |
Renarde (обсуждение | вклад) |
||
Строка 82: | Строка 82: | ||
Выложены в виде .PDF - https://drive.google.com/open?id=1hV-FLzxgik4OZj71hsmjqoDDfkPsO4kk | Выложены в виде .PDF - https://drive.google.com/open?id=1hV-FLzxgik4OZj71hsmjqoDDfkPsO4kk | ||
+ | == Эссе по визуализации == | ||
+ | |||
+ | Эссе по визуализации принимается до 30 мая. Работать можно в командах до 5 человек включительно. | ||
+ | |||
+ | Концепция задания следующая: | ||
+ | # Возьмите данные о каком-либо социальном процессе, явлении, историческом, культурном или политическом событии. Под данными подразумевается некоторый набор статистики. | ||
+ | # Проведите анализ этих данных - посмотрите на распределения, выделите средние, распределения, медианы и дисперсии - о чем они говорят? | ||
+ | # Визуализируйте результаты описанными в лекциях графиками и графическими инструментами. Проследите за тем, чтобы визуализации получились наглядными, выдержанными в едином стиле, информационно полными (с соблюдением принципов, описанных в лекциях). | ||
+ | # Под полученными визуализациями добавьте текстовые аннотации на ± полстраницы текста на каждую графическую единицу. | ||
+ | # Итоговая размерность задания, если переводить его в word / pdf с 14 Times New Roman - около 3-5 страниц (больше - по желанию). | ||
+ | # Итоговая работа может быть в любом виде по желанию вашей команды, например: | ||
+ | ## .docx / .pdf / .pptx с картинками и подписями (самый простой вариант). | ||
+ | ## веб-страница с графиками и текстом (взгляните, например, на Tableau Public - там можно рисовать графики (включая картографические) и прочее в Web-версии без знания особых инструментов) | ||
+ | ## Бумажный ватман с распечатанными и наклееными / нарисованными графиками и подписями (если вдруг такое взбредет вам в голову, получится что-то похожее на стенгазету). | ||
+ | ## любой неперечисленный выше формат лучше все таки уточнить у нас (я правда не знаю что еще может прийти в голову, но если вдруг). | ||
+ | ## Позаботьтесь о том, чтобы в вашем задании был некоторый осмысленный и осязаемый из графиков вывод об объекте изучения. Он должен быть не менее 3-х предложений по теме. | ||
+ | |||
+ | '''N.B. Постарайтесь подойти к этому заданию творчески. Возможно, вы захотите чтобы оно вошло в портфолио ваших проектов - получится явная польза помимо курса. | ||
+ | ''' | ||
+ | |||
+ | Возможные вопросы: | ||
+ | |||
+ | Q: Я не умею в сложный web и не очень хорошо рисую, как мне сделать это задание? | ||
+ | A: Самый простой способ - возьмите обычный Excel и Word, разберите данные там, сделайте графики в Excel и перенесите их в Word. | ||
+ | |||
+ | Q: А где брать данные? | ||
+ | A: Вопрос непростой, но есть некоторые базовые локации: | ||
+ | 1. Социальная / экономическая статистика: | ||
+ | 1.1 Росстат - http://www.gks.ru/ | ||
+ | 1.2 Всемирный банк - http://www5.worldbank.org/eca/russian/data/ | ||
+ | 2. Портал Открытых Данных Правительства Москвы (отсюда взят пример с барами в лекции) - https://data.mos.ru/ | ||
+ | 3. Любые цифровые выкладки по вашему предмету визуалиации - желательно чтобы данные были открытыми. | ||
+ | 4. В сообществе ods.ai в канале #datasets есть самые разнообразные данные (даже картинки со сканом легких). Зарегистрируйтесь (это займет около 1 дня на рассмотрение регистрации) - и спросите там (или у нас) | ||
+ | 5. Спросите нас - может сможем что-нибудь подсказать. | ||
+ | |||
+ | Q: Можно ли мне сделать что-нибудь по данным с realtime API? | ||
+ | A: Конечно же да, но тогда должно быть понятно о чем именно вы рассказываете. | ||
+ | |||
+ | Q: А какими инструментами можно пользоваться? | ||
+ | A: Если вы хотите сделать задание чуть сложнее, чем простой Word и Excel - посмотрите в сторону Tableau Public https://public.tableau.com/en-us/s/ - тоже не требует специальных знаний. | ||
+ | Отличный пример - интерактивная визуализация, в которой рассказывается о том, в каких странах и отраслях девушкам сложно получать образование: https://public.tableau.com/en-us/s/gallery/toughest-places-girl-get-education-2017?gallery=votd | ||
+ | ''' | ||
+ | Критерии оценивания эссе по визуализации | ||
+ | ''' | ||
+ | # Логическая связность повествования - от 1 до 5 баллов | ||
+ | # Понятность графических объектов (не менее 3-х графических объектов, меньше - 1 балл) - от 1 до 10 баллов | ||
+ | # Аккуратность, информативность графиков, подписанные оси, грамотные аннотации - от 1 до 10 баллов | ||
+ | # Наличие логичного вывода в концовке эссе и его связность с темой - от 1 до 5 баллов | ||
== Формирование оценок по дисциплине == | == Формирование оценок по дисциплине == |
Версия 23:03, 30 апреля 2018
Страница курса "Искусственный интеллект и большие данные"
Содержание
Ссылки
- Telegram-канал: https://t.me/joinchat/AAAAAEqSqaGmihzF3ZnE4g
- Форум: https://groups.google.com/forum/#!forum/aibd-course-2018 (лучше писать в группу ФБ - ответ будет оперативнее)
- FB: https://facebook.com/groups/1983952831632009
- ПУД: https://www.hse.ru/edu/courses/206643947
- Книга "Статистика и котики": http://www.statcats.ru/2016/03/blog-post.html
- Опрос по качеству курса: https://goo.gl/forms/gJHOhjxs6fxSqzd82
Преподаватели и консультации
Консультации указаны на личных страницах.
Преподаватели:
- Мягких Павел Игоревич - https://www.hse.ru/org/persons/213956876
- Рыжиков Артем Сергеевич - https://www.hse.ru/org/persons/190912317
- Трусов Иван Алексеевич - https://www.hse.ru/staff/renarde
Ассистенты:
- Ященко Анастасия
- Бобровских Глеб
Материалы лекций
- Лекция 1
- Лекция 2
- Лекция 3
- Лекция 4
- Лекция 5
- Лекция 6
- Лекция 7
- Лекция 8
- Лекция 9
- Лекция 10
- Лекция 11
- Лекция 12
Сроки тестов и заданий
- Тест по темам лекций 1-5 (Машинное обучение) открыт 6 марта в 14:00 и будет закрыт 13 марта в 14:00. Примерный список вопросов, инструкция по прохождению и картинки выложены ниже.
Справочная информация по 1 тесту
Структура теста:
- 15 вопросов с одним или несколькими вариантами ответа
- 3 открытых вопроса (ответ в 3-4 предложения)
- 2 вопроса по картинке и матрице ошибок классификации (ответ в 3-4 предложения)
Примеры вопросов 1 части:
- Установите последовательность преобразования сигнала в знание (лекция 2)
- Представлена генеральная совокупность автомобилей 3 цветов из 6 элементов (например,ЧЧККЖЖ, где Ч - черный, К - красный, Ж - желтый). Необходимо сделать такую выборку, которая репрезентативна по признаку цвета. Выберите репрезентативную выборку из вариантов - (ЧКК, ЧЖЖ, ЧКЖ)
- Выберите, каким методом необходимо решать следующие задачи (дан набор задач, для каждой необходимо выбрать между классификацией, регрессией и кластеризацией)
- Выберите качественные признаки из (и 4 варианта признаков)
- Выберите количественные признаки из (и 4 варианта признаков)
- Данные утверждения верны для матрицы объект-признак (даны утвержения, выберите верные)
- Дано уравнение линейной регрессии цены квартиры в зависимости от площади: price=20*square+10 (где price - цена, square - площадь). Рассчитайте цену квартиры при площади 30.
- Приведен пример дерева решений, дан вектор признаков на объекте. Укажите, каково будет предсказание дерева решений на данном объекте.
Примеры вопросов 2 части:
- В чем смысл метода kNN (k ближайших соседей) в задаче классификации? Почему не стоит выбирать K четным? Объясните суть метода и ответьте на вопрос (3-4 предложения).
- Можно ли оцифровать картинку? Если да, в какую математическую структуру ее можно преобразовать?
Примеры вопросов 3 части:
- Дан график рассеяния точек зависимости роста от возраста, на нем проведены три линии. Выберите ту, которая в смысле метода наименьших квадратов является наиболее релевантной к приведенным данным. Объясните смысл метода наименьших квадратов.
- Опишите, чем отличаются ошибки первого и второго рода. Рассчитайте accuracy по заданной матрице ошибок классификации
Детальная инструкция по первому тесту
Инструкция по прохождению теста
- При прохождении теста советуем использовать ноутбук с браузерами Google Chrome / Firefox / Safari. С мобильных платформ отображение теста может быть некорректным.
- Мы так же обратили внимание, что с внутренней сети ВШЭ иногда не работают картинки. Дабы не возникало проблем с их отображением, картинки отдельно выложены в wiki.
- Заходим на ссылку теста: https://onlinetestpad.com/t/917c9b358ee242a595e12c3ecc41ef05
- Придумайте для себя кодовое слово (желательно - на русском языке, без дефисов и других символов).
- Отправляем со своего email свое кодовое слово на указанный на первой странице теста email с указанной темой. Важно - это достаточно сделать один раз.
- Проходим тест. На прохождение выдается 120 минут, в это время для данной вкладки браузера нельзя нажимать кнопки назад или обновить страницу - результаты не будут засчитаны.
- В финальном окне теста вводим в разделе "Введите свое имя" своей Email (тот же, что и в начале). Рядом появится галочка - нажмите ее.
- Очень не советуем списывать друг у друга или из интернета текстовые ответы - как вы знаете, с помощью анализа данных можно легко рассчитать расстояния между строками и проверить схожесть двух ответов. Для тех, у кого текстовые ответы будут совпадать слишком сильно, баллы за тест обратятся в 0.
- Вы можете проходить тест сколько угодно раз, но засчитывать для вашего Email мы будем только первые три результата по времени. Из них будет выбираться наилучший, и этот результат мы и будем считать финальной итоговой оценкой за данный тест.
Картинки по первому тесту
Выложены в виде .PDF - https://drive.google.com/open?id=1hV-FLzxgik4OZj71hsmjqoDDfkPsO4kk
Эссе по визуализации
Эссе по визуализации принимается до 30 мая. Работать можно в командах до 5 человек включительно.
Концепция задания следующая:
- Возьмите данные о каком-либо социальном процессе, явлении, историческом, культурном или политическом событии. Под данными подразумевается некоторый набор статистики.
- Проведите анализ этих данных - посмотрите на распределения, выделите средние, распределения, медианы и дисперсии - о чем они говорят?
- Визуализируйте результаты описанными в лекциях графиками и графическими инструментами. Проследите за тем, чтобы визуализации получились наглядными, выдержанными в едином стиле, информационно полными (с соблюдением принципов, описанных в лекциях).
- Под полученными визуализациями добавьте текстовые аннотации на ± полстраницы текста на каждую графическую единицу.
- Итоговая размерность задания, если переводить его в word / pdf с 14 Times New Roman - около 3-5 страниц (больше - по желанию).
- Итоговая работа может быть в любом виде по желанию вашей команды, например:
- .docx / .pdf / .pptx с картинками и подписями (самый простой вариант).
- веб-страница с графиками и текстом (взгляните, например, на Tableau Public - там можно рисовать графики (включая картографические) и прочее в Web-версии без знания особых инструментов)
- Бумажный ватман с распечатанными и наклееными / нарисованными графиками и подписями (если вдруг такое взбредет вам в голову, получится что-то похожее на стенгазету).
- любой неперечисленный выше формат лучше все таки уточнить у нас (я правда не знаю что еще может прийти в голову, но если вдруг).
- Позаботьтесь о том, чтобы в вашем задании был некоторый осмысленный и осязаемый из графиков вывод об объекте изучения. Он должен быть не менее 3-х предложений по теме.
N.B. Постарайтесь подойти к этому заданию творчески. Возможно, вы захотите чтобы оно вошло в портфолио ваших проектов - получится явная польза помимо курса.
Возможные вопросы:
Q: Я не умею в сложный web и не очень хорошо рисую, как мне сделать это задание? A: Самый простой способ - возьмите обычный Excel и Word, разберите данные там, сделайте графики в Excel и перенесите их в Word.
Q: А где брать данные? A: Вопрос непростой, но есть некоторые базовые локации:
1. Социальная / экономическая статистика: 1.1 Росстат - http://www.gks.ru/ 1.2 Всемирный банк - http://www5.worldbank.org/eca/russian/data/ 2. Портал Открытых Данных Правительства Москвы (отсюда взят пример с барами в лекции) - https://data.mos.ru/ 3. Любые цифровые выкладки по вашему предмету визуалиации - желательно чтобы данные были открытыми. 4. В сообществе ods.ai в канале #datasets есть самые разнообразные данные (даже картинки со сканом легких). Зарегистрируйтесь (это займет около 1 дня на рассмотрение регистрации) - и спросите там (или у нас) 5. Спросите нас - может сможем что-нибудь подсказать.
Q: Можно ли мне сделать что-нибудь по данным с realtime API? A: Конечно же да, но тогда должно быть понятно о чем именно вы рассказываете.
Q: А какими инструментами можно пользоваться? A: Если вы хотите сделать задание чуть сложнее, чем простой Word и Excel - посмотрите в сторону Tableau Public https://public.tableau.com/en-us/s/ - тоже не требует специальных знаний.
Отличный пример - интерактивная визуализация, в которой рассказывается о том, в каких странах и отраслях девушкам сложно получать образование: https://public.tableau.com/en-us/s/gallery/toughest-places-girl-get-education-2017?gallery=votd
Критерии оценивания эссе по визуализации
- Логическая связность повествования - от 1 до 5 баллов
- Понятность графических объектов (не менее 3-х графических объектов, меньше - 1 балл) - от 1 до 10 баллов
- Аккуратность, информативность графиков, подписанные оси, грамотные аннотации - от 1 до 10 баллов
- Наличие логичного вывода в концовке эссе и его связность с темой - от 1 до 5 баллов
Формирование оценок по дисциплине
Подведение итогов промежуточной аттестации по дисциплине проводится только на основании результатов текущего контроля без проведения аттестационного испытания в форме экзамена, т.е.:
О_рез = О_нак
Накопленная оценка по дисциплине рассчитывается по формуле:
O_нак = 0,6*O_тек + 0.4*O_итоговое эссе
Текущая оценка вычисляется как средняя арифметическая по всем промежуточным формам контроля: 2 онлайн-теста и эссе по storytelling. На выполнение промежуточных заданий студентам дается 7 календарных дней. Если задание выполнено позже указанного срока, студент получает минус балл за каждый день опоздания.
Итоговое задание выполняется не позднее, чем за неделю до начала сессии четвертого модуля. В случае невыполнения итогового задания в указанный срок, студент получает за него 0 баллов. Результирующая оценка по учебной дисциплине округляется к ближайшему целому. Оценки за курс выставляются в течение сессии четвертого модуля.