Цифровая грамотность суперсекретно — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 1: Строка 1:
 
== Задание 4 ==  
 
== Задание 4 ==  
'''Дедлайн 09.10.2017 23:59'''. <br />
+
'''Дедлайн 21.10.2017 23:59'''. <br />
'''0.''' Выполните [[#Бонусная часть - извлечение данных из исходника с помощью регулярных выражений|бонусную часть]] или скачайте готовую [https://docs.google.com/spreadsheets/d/1Nz7q2cw0G0qu4ALygXchW_wuMs7ZutL4E5WIV3Avco4/edit?usp=sharing таблицу].<br />
+
Результатом задания должна быть презентация, сохраненная в pdf!'<br />
'''1.''' Постройте столбец "Предполагаемое окончание службы" по правилу: ''Если в тексте не найдено окончание службы, то оно равно началу службы + 1 год.''<br />
+
'''1.''' Сравните частоту употреблений слов "сей" и "этот" в 18, 19, 20 веках на основе [http://www.ruscorpora.ru/ Национального корпуса русского языка].  
'''2.''' Подсчитайте длительность службы для каждого дьяка/подьячего. Подсчитайте, сколько в среднем служили дьяки и подьячие и запишите в конце столбца "Длительность" .<br />
+
С помощью Excel постройте столбчатые диаграммы по частотам употреблений этих слов в 18-20 веках. Сделайте короткие выводы и включите их и диаграммамы в презентацию.<br />
'''3.''' Отсортируйте дьяков и подьячих по длительностям службы по убыванию. <br />
+
'''2.''' Перед Вами несколько диалогов. Какова вероятность встретить их в таком виде во времена правления Екатерины Второй?
'''4.''' Постройте столбчатую диаграмму по срокам службы.<br />
+
Подкрепите свои рассуждения данными из [http://www.ruscorpora.ru/ Национального корпуса русского языка]: <br />
'''5.''' '''Бонусное задание''': С помощью [https://support.office.com/ru-ru/article/%D0%9F%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5-%D1%83%D1%81%D0%BB%D0%BE%D0%B2%D0%BD%D0%BE%D0%B3%D0%BE-%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F-%D1%81-%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D1%8C%D1%8E-%D1%84%D0%BE%D1%80%D0%BC%D1%83%D0%BB%D1%8B-fed60dfa-1d3f-4e13-9ecb-f1951ff89d7f Условного форматирования] покрасьте одним цветом дьяков, другим - подьячих.<br />
+
  ''— Отдай!''
'''6.''' Сохраните полученную таблицу в PDF-формате.
+
  ''— Пиши пропало. Что пряжка, третьего дня эта поганка у меня с груди звезду Александра Невского уперла! Любит, сволочь, блестящее.''
  
 +
  ''— Ох, ну просто немыслимо! Нет, как можно быть таким лопухом?!''
  
=== Бонусная часть - извлечение данных из исходника с помощью регулярных выражений ===
+
  '' — Я гнева вашего никак не растолкую. Он в доме здесь живет, великая напасть!''
Скачайте [https://drive.google.com/file/d/0ByLHeRX-gMWMT2dxTTA0TWZXc1E/view?usp=sharing '''файл'''] с отрывком из работы С. Б. Веселовского [https://elibrary.ru/item.asp?id=22024689 ДЬЯКИ И ПОДЬЯЧИЕ XV -XVII ВВ].<br />
+
Опишите полученные выводы в презентации.
Вам необходимо получить таблицу в Excel/Google Sheets с должностями и сроками службы вида:<br />
+
 
+
{| class="wikitable"
+
|-
+
! Имя, Фамилия !! Должность  !! Начало службы !! Окончание службы, найденное в тексте !! Предполагаемое окончание службы !! Длительность
+
|-
+
| Амирев Артемий || подьячий || 1646 || 1648 || 1648 || 2
+
|-
+
| Амирев Василий || дьяк || 1529 ||  || 1530 || 1
+
|}
+
 
+
Чтобы ее построить, решите '''вспомогательные задания''':<br />
+
'''1.''' Обратите внимание на записи, где для одного человека указаны несколько должностей, например <br />
+
''Путилов Спиридон - подьячий Потешного двора, 15 июля 1670 г. по 1671 г.; 8 июля 1671 г. подьячий.''<br />
+
С помощью регулярных выражений '''замените''' каждую такую запись на две отдельные записи:<br />
+
''Путилов Спиридон - подьячий Потешного двора, 15 июля 1670 г. по 1671 г.;''<br />
+
''Путилов Спиридон - 8 июля 1671 г. подьячий.''<br />
+
(Совет: используйте обратные ссылки \1 \2 и.т.д.)<br />
+
'''2.''' С помощью регулярных выражений из исходного текста получите столбец с '''именами и фамилиями'''.<br />
+
'''3.''' С помощью регулярных выражений из исходного текста получите столбец с '''должностями''' - дьяк или подьячий.<br />
+
Давайте заметим, что теперь в каждой записи может быть либо два четырехзначных числа (вначале дата начала, потом дата окончания службы), либо одно четырехзначное (дата начала).<br />
+
'''4.''' С помощью регулярных выражений из исходного текста получите столбец с '''датами начала службы'''.<br />
+
'''5.''' С помощью регулярных выражений из исходного текста получите столбец с '''датами окончания службы'''. Обратите внимание, что таких может и не быть в записи. В этом случае, ячейка должна пустовать.<br />
+
'''6.''' Перенесите столбцы в Excel/Google Sheets. <br />
+
  
 
''' Важно! Правила сдачи: '''<br />
 
''' Важно! Правила сдачи: '''<br />
Создаем отдельный репозиторий на [https://github.com/ GitHub] (Важно: под тем же самым профилем, под которым Вы сдавали первое дз) с именем '''DL_homework_4'''. Под задание нужен отдельный файл в репозитории с именем '''table.pdf''' с построенной таблицей и файл '''bonus.txt'''.
+
Создаем отдельный репозиторий на [https://github.com/ GitHub] (Важно: под тем же самым профилем, под которым Вы сдавали первое дз) с именем '''DL_homework_5'''. Под задание нужен отдельный файл в репозитории с именем '''presentation.pdf''' с презентацией.  
==== Формат файла bonus.txt: ====
+
Первые четыре строки должны содержать описание того, что Вы делали, чтобы решить каждое задание из [[#Бонусная часть - извлечение данных из исходника с помощью регулярных выражений|бонусной части]]. Например:<br />
+
''1 строка: Использовал регулярное выражение: ... заменил все вхождения на ...''<br />
+
...<br />
+
''4 строка: Использовал регулярное выражение: ... заменил все вхождения на ...<br />''
+
''5 строка: Использовал регулярное выражение: ... заменил все вхождения на ...<br />''
+
  
  
 
P.S. По вопросам, связанным с дз, обращайтесь, пожалуйста, в Telegram-группы нашего курса. Ссылки есть на [http://wiki.cs.hse.ru/Цифровая_грамотность Wiki].
 
P.S. По вопросам, связанным с дз, обращайтесь, пожалуйста, в Telegram-группы нашего курса. Ссылки есть на [http://wiki.cs.hse.ru/Цифровая_грамотность Wiki].

Версия 01:24, 14 октября 2017

Задание 4

Дедлайн 21.10.2017 23:59.
Результатом задания должна быть презентация, сохраненная в pdf!'
1. Сравните частоту употреблений слов "сей" и "этот" в 18, 19, 20 веках на основе Национального корпуса русского языка. С помощью Excel постройте столбчатые диаграммы по частотам употреблений этих слов в 18-20 веках. Сделайте короткие выводы и включите их и диаграммамы в презентацию.
2. Перед Вами несколько диалогов. Какова вероятность встретить их в таком виде во времена правления Екатерины Второй? Подкрепите свои рассуждения данными из Национального корпуса русского языка:

 — Отдай!
 — Пиши пропало. Что пряжка, третьего дня эта поганка у меня с груди звезду Александра Невского уперла! Любит, сволочь, блестящее.
 — Ох, ну просто немыслимо! Нет, как можно быть таким лопухом?!
  — Я гнева вашего никак не растолкую. Он в доме здесь живет, великая напасть!

Опишите полученные выводы в презентации.

Важно! Правила сдачи:
Создаем отдельный репозиторий на GitHub (Важно: под тем же самым профилем, под которым Вы сдавали первое дз) с именем DL_homework_5. Под задание нужен отдельный файл в репозитории с именем presentation.pdf с презентацией.


P.S. По вопросам, связанным с дз, обращайтесь, пожалуйста, в Telegram-группы нашего курса. Ссылки есть на Wiki.