Домашние задания по ЦГ история 2018 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Задание 3)
Строка 8: Строка 8:
 
'''3.''' Найти всех князей и города, имя и название которых оканчивается на "слав". Написать, сколько их нашлось во всем тексте. <br /> <b>NB!</b> Имена и названия городов нужно искать во всех падежах. Отчества, образованные от таких имен, тоже нужны. Помните, что в них могут содержаться спецсимволы из допетровской кириллицы.<br />
 
'''3.''' Найти всех князей и города, имя и название которых оканчивается на "слав". Написать, сколько их нашлось во всем тексте. <br /> <b>NB!</b> Имена и названия городов нужно искать во всех падежах. Отчества, образованные от таких имен, тоже нужны. Помните, что в них могут содержаться спецсимволы из допетровской кириллицы.<br />
 
'''4.''' Найти все упоминания Новгорода. Написать, сколько их нашлось во всем тексте. Учтите, что написание может быть разным.<br />
 
'''4.''' Найти все упоминания Новгорода. Написать, сколько их нашлось во всем тексте. Учтите, что написание может быть разным.<br />
'''5.''' Бонусное задание (на дополнительный балл). Можно ли найти отдельно князей на "-слав" или отдельно города на "-слав"? Почему? Есть ли какие-то случаи, не являющиеся именами князей и названиями городов, которые ловятся данным выражением и которые при текущем форматировании текста никак нельзя отфильтровать?  
+
'''5.''' Бонусное задание (на дополнительный балл). Можно ли найти отдельно князей на "-слав" или отдельно города на "-слав"? Почему? Есть ли какие-то случаи, не являющиеся именами князей и названиями городов, которые ловятся данным выражением и которые сложно/нельзя отфильтровать?  
  
 
''' Важно! Правила сдачи: '''<br />
 
''' Важно! Правила сдачи: '''<br />

Версия 20:14, 4 ноября 2018

Задание 3

Дедлайн 14.11.2018 23:59.

Скачайте файл с Повестью Временных Лет.
Летопись необходимо отредактировать следующим образом:
1. Удалить все пустые строки.
2. После каждого знака препинания поставить пробел (но выставлять их стоит только если того требуют правила русского языка).
3. Найти всех князей и города, имя и название которых оканчивается на "слав". Написать, сколько их нашлось во всем тексте.
NB! Имена и названия городов нужно искать во всех падежах. Отчества, образованные от таких имен, тоже нужны. Помните, что в них могут содержаться спецсимволы из допетровской кириллицы.
4. Найти все упоминания Новгорода. Написать, сколько их нашлось во всем тексте. Учтите, что написание может быть разным.
5. Бонусное задание (на дополнительный балл). Можно ли найти отдельно князей на "-слав" или отдельно города на "-слав"? Почему? Есть ли какие-то случаи, не являющиеся именами князей и названиями городов, которые ловятся данным выражением и которые сложно/нельзя отфильтровать?

Важно! Правила сдачи:
Задание выполняется в гугл-доке. Гугл-док необходимо поместить в папку, в которой находятся ваши размеченные тексты.

Название у файла должно быть следующим: %Surname%_regex

Формат файла:

Первые четыре строки должны содержать описание того, что Вы делали, чтобы решить каждое задание. Например:
1 строка: Использовал регулярное выражение: ... заменил все вхождения на ...
2 строка: Использовал регулярное выражение: ... заменил все вхождения на ...
3 строка: Использовал регулярное выражение: ... Всего упоминаний о князьях нашел: (число)
4 строка: Использовал регулярное выражение: ... Всего упоминаний Новгорода нашел: (число)

Каждый шаг сопровождаете скриншотами! Чтобы было видно, что искали, на что заменяли. Т.е. скриншоты должны быть после каждой строки. Работать с регулярными выражениями можно в любом текстовом редакторе (Notepad++, Atom, Sublime, Geany etc.) или на любом из сайтов, указанных в конспекте. Оттуда и должны быть скриншоты.

Подсказка №1 Символы допетровской кириллицы не входят в стандартные диапазоны кириллических символов, поэтому их нужно добавлять к диапазонам самостоятельно. Как это сделать, указано в конспекте.

Подсказка №2 Находиться должны только правильные слова! К ним не должны быть приклеены пунктуация, пробелы и т.п.

Подсказка №3 Нет единственно правильного регулярного выражения, которое решает поставленную задачу! Правильный ответ можно получить несколькими способами.

Внимание: При нарушении правил сдачи задание может быть оценено в 0 баллов!

Задание 2

Дедлайн 19.10.2018 23:59.
Важно: После дедлайна работы принимаются со штрафом. Если работа вообще не сдана - это 0.

Проведите формулярный анализ актов, над которыми вы работали в ДЗ 1.

Инструкция по формулярному анализу и разметке.

Шпаргалка по формулярному анализу с примерами.

Конспект семинара 4 по формулярному анализу.

Примеры разметки.

Размеченный текст нужно поместить в файл с TEI header-ом, над которым вы работали в ДЗ 1. Полученный файл сохраните в формате .xml. Название у файла должно быть следующим:

ASEI_%vol%_%idno%_%Surname%_%markup%.xml

Здесь вместо %vol% нужно вписать номер тома (1), вместо %idno% - номер акта (с ведущими нулями, если номер не трехзначный, например, 001, 010), вместо %Surname% - вашу фамилию, как она указана в названии папке из пункта 1.

Пример: ASEI_1_001_Sarkisyan_markup.xml

Пример итогового файла (хедер + разметка).

Важно! Не заменяйте этим файлом файл с ДЗ 1 в своей папке, добавьте этот файл к существующим.

Задание 1

Дедлайн 05.10.2018 23:59.
Важно: После дедлайна работы принимаются со штрафом. Если работа вообще не сдана - это 0.

1. Создайте папку под своей фамилией в папке своей группы в папке курса

2. Настройте в папке права доступа: доступ должен быть только у лекторов, семинаристов и ассистента вашей группы (контакты есть на Вики в разделе "Преподаватели").

3. Сделайте вычитку своих актов: для этого найдите номера своих текстов в табличке. Скопируйте тексты из оригинала в pdf в Sublime Text. Некоторые символы скопируются с ошибками: ваша задача устранить все расхождения между оригиналом и получившимся текстом (исправить буквы, удалить лишние пробелы и переносы строк). Конспект, в котором описаны все дополнительные кириллические буквы.

4. Сделайте разметку вычитанных актов: в данном дз проводить формулярный анализ не требуется, достаточно только оформить хедер TEI. Важно: каждый акт нужно сохранять в отдельном файле.

Шпаргалка по составлению хедера.

Примеры хедера для текстов из второго тома АСЭИ один, два, три.

5. Сохраните полученные файлы с разметкой в формате xml. Название файла должно быть следующим:

ASEI_%vol%_%idno%_%Surname%.xml

Здесь вместо %vol% нужно вписать номер тома (1), вместо %idno% - номер акта (с ведущими нулями, если номер не трехзначный, например, 001, 010), вместо %Surname% - вашу фамилию, как она указана в названии папке из пункта 1.

Пример: ASEI_1_001_Sarkisyan.xml

6. Загрузите полученные файлы в вашу папку из пункта 1.