Домашние задания по Цифровой грамотности 2018 (2 семестр) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Домашнее задание 6 (NGrams&AntConc))
(Домашнее задание 6 (NGrams&AntConc))
Строка 89: Строка 89:
  
 
1. Найдите 10 самых частотных продолжений фразы "due to the".  
 
1. Найдите 10 самых частотных продолжений фразы "due to the".  
Сделайте скриншот графика и Вашего запроса. Скриншот поместите в гугл-док.
+
Сделайте скриншот графика и Вашего запроса. Скриншот поместите в ридми.
 
В инструкции по Advanced Usage данный тип поиска называется Wildcard search.   
 
В инструкции по Advanced Usage данный тип поиска называется Wildcard search.   
  
2. Выберите слово, которое может одновременно относиться к 2 или более различным частям речи. Это может быть слово любого языка, представленного в Google Ngrams. Постройте график. На графике должны быть две кривые (или более). Для каждого слова должен был указан частеречный тэг. Сделайте скриншот графика и Вашего запроса. Скриншот поместите в гугл-док.
+
2. Выберите слово, которое может одновременно относиться к 2 или более различным частям речи. Это может быть слово любого языка, представленного в Google Ngrams. Постройте график. На графике должны быть две кривые (или более). Для каждого слова должен был указан частеречный тэг. Сделайте скриншот графика и Вашего запроса. Скриншот поместите в ридми.
 
См. в инструкции часть Part-of-speech Tags.
 
См. в инструкции часть Part-of-speech Tags.
  
3. Выберите два синонима: один характерный для британского английского, другой – для американского. Посмотрите в Google Ngrams, действительно ли это так (т.е. действительно ли слова характерны для разных вариантов английского). На графике должно быть четыре кривые: две отражают частотность первого слова в корпусе британского и американского английского, две – частотность второго слова. Сделайте скриншот графика и Вашего запроса. Скриншот поместите в гугл-док.
+
3. Выберите два синонима: один характерный для британского английского, другой – для американского. Посмотрите в Google Ngrams, действительно ли это так (т.е. действительно ли слова характерны для разных вариантов английского). На графике должно быть четыре кривые: две отражают частотность первого слова в корпусе британского и американского английского, две – частотность второго слова. Сделайте скриншот графика и Вашего запроса. Скриншот поместите в ридми.
Какие выводы Вы можете сделать из полученных данных? Приведите Ваши размышления в гугл-доке.  
+
Какие выводы Вы можете сделать из полученных данных? Приведите Ваши размышления в ридми.  
 
См. в инструкции часть Corpora, а также объяснения для corpus selection operator.  
 
См. в инструкции часть Corpora, а также объяснения для corpus selection operator.  
  

Версия 18:14, 9 апреля 2018

Домашнее задание 1

Дедлайн 27 января 2018 23:59.
Важно: После дедлайна работы не принимаются.

Предварительная часть (для тех, кто этого еще не сделал):

  1. создать аккаунт на github
  2. зарегистрироваться в Telegram
  3. вступить в чат своей группы
  4. заполнить форму-анкету

Основная часть:

  1. Создать репозиторий с названием hw1
  2. Добавить в репозиторий README
  3. Заполнить README информацией о себе, уместно(!) используя как можно больше средств разметки markdown (заголовки, подзаголовки, выделения, списки, ссылки, картинки...).
    Минимальный объём: 1000 знаков (с учетом элементов разметки).

Бонусная часть (за это начисляются дополнительные баллы):

  1. Добавить в README таблицу (например, это может быть ваше расписание)


Домашнее задание 2

Дедлайн 2 февраля 2018 23:59.
Важно: После дедлайна работы не принимаются.

Суть: Используя ворд (или любой другой текстовый редактор) надо составить свое CV (резюме)

Требования к оформлению:.
1. Резюме должно занимать ровно 1 страницу и иметь четкую структуру (а не быть сплошным текстом)
2. В верхней части файла указать ваше Имя, Фамилию, контактные данные, можно добавить фотографию
3. Основная часть резюме должна состоять минимум из 4 разделов.
Примеры разделов:

  • образование
  • достижения (грамоты, сертификаты, дополнительные курсы)
  • владение иностранными языками
  • опыт работы (если есть)
  • профессиональные навыки
  • личные качества и увлечения

(Можно придумать другие варианты)

4. Каждый раздел должен содержать заголовок и несколько подпунктов.
5. Разделы отделить друг от друга отступами или горизонтальными линиями
6. Хотя бы один раздел должен содержать две колонки. Например:

  • период обучения – образовательное учреждение
  • иностранный язык – уровень владения

7. Готовое резюме надо экспортировать в pdf и загрузить вместе с исходным документом Word на GitHub (Важно: под тем же самым профилем, под которым Вы сдавали первое дз) в репозиторий с названием hw2

Примеры красивых резюме можно посмотреть здесь (они сделаны не в ворде, но можно постараться сделать так же красиво:)

Домашнее задание 5

Дедлайн 11 марта 2018 23:59.
Важно: После дедлайна работы не принимаются.

Результатом задания должен быть отчёт, сохраненный в PDF! (см. Правила сдачи)
1. Сравните частоту употреблений (ipm) слов "ныне" и "сейчас" в разное время (например, в 18, 19, 20 веках) на основе Национального корпуса русского языка. С помощью Excel постройте столбчатые диаграммы по частотам употреблений этих слов в 18-20 веках (основной подкорпус). Сравните частоты употреблений в основном и поэтическом подкорпусах. Напишите небольшой отчёт, включите в него иллюстрации и их интерпретацию.
2. Перед Вами несколько диалогов. Могли ли они встретиться в таком виде во времена правления Екатерины Второй? Подкрепите свои рассуждения данными из Национального корпуса русского языка. Полученные выводы включите в отчёт.

 — Отдай!
 — Пиши пропало. Что пряжка, третьего дня эта поганка у меня с груди звезду Александра Невского уперла! Любит, сволочь, блестящее.
 — Ох, ну просто немыслимо! Нет, как можно быть таким лопухом?!
  — Я гнева вашего никак не растолкую. Он в доме здесь живет, великая напасть!

3. Бонусное задание. Посмотрите динамику употребления слова "щас" в основном подкорпусе с 1950 года до наших дней, постройте график. Сравните употребление слова "щас" в текстах разных жанров (жанр можно задать при выборе подкорпуса. Включите анализ полученных результатов в отчет.
4. Бонусное задание. Найдите в основном подкорпусе сочетания "литература/культура/искусство/язык + существительное в Р.п" (филологам -- литература, культурологам -- культура, искусствовелам -- искусство, дия - язык), скачайте выдачу в формате Excel (ссылка на скачивание будет в самом низу), отсортируйте строки по столбцу F (там будут существительные в Р.п.) и проанализируйте результаты. Какая литература/культура/искусство/язык упоминается в корпусе чаще всего? Выводы включите в отчет.

Важно! Правила сдачи:

Создаем отдельный репозиторий на GitHub (Важно: под тем же самым профилем, под которым Вы сдавали первое дз) с именем hw5. Отчёт нужно писать в Word (или любом аналоге), затем конвертировать этот файл в PDF, итоговый файл должен называться ruscorpora_report.pdf. Перед сдачей проверьте, пожалуйста, что иллюстрации, поля и форматирование документа в порядке. Придерживайтесь строгого стиля.

Домашнее задание 6 (NGrams&AntConc)

Дедлайн 9 апреля 2018 23:59.
Важно: После дедлайна работы не принимаются.
Правила сдачи: Создаем отдельный репозиторий на GitHub (Важно: под тем же самым профилем, под которым Вы сдавали первое дз) с именем hw6. Ответы на задания помещайте в readme.

Useful Tips:
Как сделать скриншот?
1) если у вас Windows, скриншот удобно делать с помощью стандартной программы “Ножницы”
2) если у вас Mac, используйте команду Command+Shift+4: выделите нужную часть экрана (скриншот окажется у вас на рабочем столе).

Как вставить картинку в readme?
Для того, чтобы вставить в readme картинку, вам понадобится ссылка на нее.
Получить ссылку можно в том числе следующим образом:
1) откройте свой репозиторий hw6, выберите upload files. Загрузите картинку со скриншотом. 2) откройте загрузившийся рисунок и скопируйте ссылку из адресной строки. Она должна быть следующего вида:

 https://github.com/имя_пользователя/название_репозитория/blob/master/имя_файла.расширение


Google NGrams

1. Найдите 10 самых частотных продолжений фразы "due to the". Сделайте скриншот графика и Вашего запроса. Скриншот поместите в ридми. В инструкции по Advanced Usage данный тип поиска называется Wildcard search.

2. Выберите слово, которое может одновременно относиться к 2 или более различным частям речи. Это может быть слово любого языка, представленного в Google Ngrams. Постройте график. На графике должны быть две кривые (или более). Для каждого слова должен был указан частеречный тэг. Сделайте скриншот графика и Вашего запроса. Скриншот поместите в ридми. См. в инструкции часть Part-of-speech Tags.

3. Выберите два синонима: один характерный для британского английского, другой – для американского. Посмотрите в Google Ngrams, действительно ли это так (т.е. действительно ли слова характерны для разных вариантов английского). На графике должно быть четыре кривые: две отражают частотность первого слова в корпусе британского и американского английского, две – частотность второго слова. Сделайте скриншот графика и Вашего запроса. Скриншот поместите в ридми. Какие выводы Вы можете сделать из полученных данных? Приведите Ваши размышления в ридми. См. в инструкции часть Corpora, а также объяснения для corpus selection operator.

AntConc

Суть: Анализ стилистических (языковых) особенностей текста посредством использования программы AntConc.

Используя программу AntConc, сравните текст Л. Толстого «Анна Каренина» и произведение любого современного автора.

Для обоих текстов:

а) Отсортируйте слова по частоте (Word List - Sort by Freq). Какие слова оказались в 5-ке наиболее частотных? Не только назовите конкретные слова, а подумайте, почему они там оказались.
б) Какие слова оказались самыми редкими? Как быстро получить эти результаты? (Выпишите, какие настройки вы использовали)
в) выберите 3 слова и проанализируйте контексты, в которых они используются (Concordance)
г) постройте для них Concordance Plot для каждого слова, проанализируйте функционирование этих слов в разных частях текста
д) выберите по одному слову из каждого текста и составьте для них список биграмм - N-грамм (Clusters/N-gram → min (2) - max (5)?)
е) сделайте вывод об индивидуальных особенностях авторских стилей. Все наблюдения и иллюстрации объедините в отчет в свободной форме.
ж) бонусное задание: воспользуйтесь любой опцией, не указанной выше, которая может сообщить какую-либо дополнительную информацию о тексте.