Программирование (python) для лингвистов дз — различия между версиями

Версия 13:27, 20 сентября 2017

Задание 1.

1. Реализовать функцию fibonacci(n) вычисления n-ого числа Фибоначчи со сложностью не хуже O(n) по вренени

2. Реализуйте иерархию наследования с нетривиальной структурой (т.е. иерархия должна образовывать дерево / лес), не менее 6 классов. Например: группы языков, систематика животного мира и т.д. Продемонстрируйте на примере применение полиморфизма к решению какой то задачи. (Например, обслуживание зоопарка в случае животных). P.S. укажите в комментариях к коду (например, в реализации класса зоопарка), в каком месте вы применяете полиформизм

3. Реализуйте средствами ООП паттерн поведения Singleton: класс UniqObject реализует метод класса create_object, который возращает объект UniqObject. Объект UniqObject должен всегда существовать в единственном экземпляре.

Сделанная домашняя работа выкладывается в репозиторий в папку homework_1, решение каждого задания - в отдельный файл task_<номер задания>.py

Задание 2.

Цель задания - научится самостоятельно ориентроваться в документации к библиотекам.

библиотека pattern

Вам необходимо написать программу, которая парсит статьи википедии (language=en) и считает по ним некоторые статистики.

1. Реализовать класс WikiParser с конструктором без аргументов и методом get_articles, который принимает название исходной статьи start и глубину поиска depth и возвращает список заголовков найденных статей (list of titles), но размером не более чем max_count.

Т.е. на ориентированном графе, где узлы это статьи, а ссылки - это ребра, вы выполняете поиск в ширину от заданного узла и возвращаете все узлы графа, расттояние до которых не более чем depth. Поиск в ширину
Обход ссылок выполняется в лексикографическом порядке по названию статей => При заданных depth и max_count результат работы метода однозначно определен.
При парсинге каждой статьи для того, чтобы убрать html теги, используется функция pattern.web.plaintext.
В результате парсинга между соседними словами должно быть 1 пробел.
В результате парсинга весь текст переводится в lowercase, знаки пунктуации выкидываются

Интерфейс:

  class WikiParser:
     def __init__(self):
        pass
     def get_articles(self, start, depth, max_count):
        pass

2. Реализовать класс TextStatistics с конструктором, который принимает в качестве аргумента список заголовков статей, и реализует методы:

get_top_3grams - возвращает tuple, первым элемент которого - список 3-грамм в порядке убывания их частот, второй элемент - соотвественно список сколько раз встретилась каждая 3грамма. Подсчет идет по всему корпусу articles. При подсчете 3-грамм исключить из рассмотрения все числа и пунктуацию.
get_top_words - возвращает tuple, первым элемент которого - список слов в порядке убывания их частот, второй элемент - соотвественно список сколько раз встретилась каждое слово. Подсчет идет по всему корпусу articles. При подсчете слов исключить из рассмотрения все числа, предлоги, артикли и пунктуацию.

Интерфейс:

  class TextStatistics:
     def __init___(self, articles):
        pass

     def get_top_3grams(self, n):
        return (list_of_3grams_in_descending_order_by_freq, list_of_their_corresponding_freq)

     def get_top_words(self, n):
        return (list_of_words_in_descending_order_by_freq, list_of_their_corresponding_freq)

3. Реализовать класс Experiment с методом show_results, который используя WikiParser и TextStatistics:

Выполняет парсинг статей википедии, начиная с "Natural language processing" на глубину depth=3 и max_count=500
По полученному корпусу текстов считает топ-20 3-грамм и топ-20 слов.
По статье "Natural language processing" (только по ней) считает топ-5 3-грамм и топ-5 слов.
Печатает результаты эксперимента в структурированной форме

4. В комментариях после класса Experiment привести результаты выполнения метода show_results.

5. Результатом выполнения задания является код указанных классов и корректные результаты эксперимента

Программирование (python) для лингвистов дз — различия между версиями

Версия 13:27, 20 сентября 2017

Задание 1.

Задание 2.

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты

@@ Строка 21: / Строка 21: @@
 Вам необходимо написать программу, которая парсит статьи википедии (language=en) и считает по ним некоторые статистики.
-. Реализовать класс WikiParser с конструктором без аргументов и методом get_articles(start, depth), который принимает название исходной статьи start и глубину поиска depth и возвращает список найденных статей (список строк, то есть каждой статье соотвествует одна строка).
+. Реализовать класс WikiParser с конструктором без аргументов и методом get_articles, который принимает название исходной статьи start и глубину поиска depth и возвращает список '''заголовков''' найденных статей (list of titles), но размером не более чем max_count.
-. Например, если depth=3, то "start article" -(link)-> "article1" -(link)-> "article2" -(link)-> "article3", при условии, что статьи не повторяются.
+# Т.е. на ориентированном графе, где узлы это статьи, а ссылки - это ребра, вы выполняете поиск в ширину от заданного узла и возвращаете все узлы графа, расттояние до которых не более чем depth. [https://en.wikipedia.org/wiki/Depth-first_search Поиск в ширину]
-. При парсинге каждой статьи для того, чтобы убрать html теги, используется функция pattern.web.plaintext.
+# Обход ссылок выполняется в лексикографическом порядке по названию статей => При заданных depth и max_count результат работы метода однозначно определен.
-. В результате парсинга между соседними словами должно быть 1 пробел.
+# При парсинге каждой статьи для того, чтобы убрать html теги, используется функция pattern.web.plaintext.
-. В результате парсинга весь текст переводится в lowercase, знаки пунктуации выкидываются
+# В результате парсинга между соседними словами должно быть 1 пробел.
+# В результате парсинга весь текст переводится в lowercase, знаки пунктуации выкидываются
 Интерфейс:
@@ Строка 32: / Строка 33: @@
        def __init__(self):
           pass
-       def get_articles(self, start, depth):
+       def get_articles(self, start, depth, max_count):
           pass
-. Реализовать класс TextStatistics с конструктором, который принимает в качестве аргумента список статей (список строк) - articles, и реализует методы:
+. Реализовать класс TextStatistics с конструктором, который принимает в качестве аргумента список '''заголовков''' статей, и реализует методы:
-. get_top_3grams - возвращает tuple, первым элемент которого - список 3-грамм в порядке убывания их частот, второй элемент - соотвественно список сколько раз встретилась каждая 3грамма. Подсчет идет по всему корпусу articles. При подсчете 3-грамм исключить из рассмотрения все числа и пунктуацию.
+# get_top_3grams - возвращает tuple, первым элемент которого - список 3-грамм в порядке убывания их частот, второй элемент - соотвественно список сколько раз встретилась каждая 3грамма. Подсчет идет по всему корпусу articles. При подсчете 3-грамм исключить из рассмотрения все числа и пунктуацию.
-. get_top_words - возвращает tuple, первым элемент которого - список слов в порядке убывания их частот, второй элемент - соотвественно список сколько раз встретилась каждое слово. Подсчет идет по всему корпусу articles. При подсчете слов исключить из рассмотрения все числа, предлоги, артикли и пунктуацию.
+# get_top_words - возвращает tuple, первым элемент которого - список слов в порядке убывания их частот, второй элемент - соотвественно список сколько раз встретилась каждое слово. Подсчет идет по всему корпусу articles. При подсчете слов исключить из рассмотрения все числа, предлоги, артикли и пунктуацию.
@@ Строка 48: / Строка 49: @@
        def get_top_3grams(self, n):
-          pass
+          return (list_of_3grams_in_descending_order_by_freq, list_of_their_corresponding_freq)
        def get_top_words(self, n):
-          pass
+          return (list_of_words_in_descending_order_by_freq, list_of_their_corresponding_freq)
 . Реализовать класс Experiment с методом show_results, который используя WikiParser и TextStatistics:
-. Выполняет парсинг статей википедии, начиная с "Natural language processing" на глубину depth=3
+# Выполняет парсинг статей википедии, начиная с "Natural language processing" на глубину depth=3 и max_count=500
-. По полученному корпусу текстов считает топ-20 3-грамм и топ-20 слов.
+# По полученному корпусу текстов считает топ-20 3-грамм и топ-20 слов.
-. По статье "Natural language processing" (только по ней) считает топ-5 3-грамм и топ-5 слов.
+# По статье "Natural language processing" (только по ней) считает топ-5 3-грамм и топ-5 слов.
-. Печатает результаты эксперимента в структурированной форме
+# Печатает результаты эксперимента в структурированной форме
 . В комментариях после класса Experiment привести результаты выполнения метода show_results.
 . Результатом выполнения задания является код указанных классов и корректные результаты эксперимента