Рекомендательная система (семинар) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Изменено название страницы. Немного изменена структура. Добавлен раздел Материалы.)
м (Изменен порядок разделов)
Строка 6: Строка 6:
 
Описание проекта: [[Рекомендательная система (проект)]].
 
Описание проекта: [[Рекомендательная система (проект)]].
  
 +
 +
==Материалы==
 +
===Python===
 +
* [https://brett.is/writing/about/my-python-web-crawler/ My Python Web Crawler - Brett.Is] How to write a very simplistic Web Crawler in Python for fun.
 +
===Git===
 +
* [https://try.github.io Code School - Try Git] интерактивная почти игра, которая учит основным командам Git.
 +
* [http://git-scm.com/doc Git - Documentation] официальная документация Git.
 +
* [http://git-scm.com/book/ru/v1 Git - Book] перевод довольно обширной обучающей книги о Git от Скотта Шакона.
 +
===Книги===
 +
===Туториалы===
 
== Семинары ==
 
== Семинары ==
 
===S02.03===
 
===S02.03===
Строка 27: Строка 37:
 
* [https://github.com/andreiled/mipt-cs-4sem/wiki/%D0%9F%D0%BE%D1%88%D0%B0%D0%B3%D0%BE%D0%B2%D0%B0%D1%8F-%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%86%D0%B8%D1%8F-%D0%BF%D0%BE-%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B5-%D1%81-git-%D0%B8-github-%D0%B4%D0%BB%D1%8F-%D1%81%D1%82%D1%83%D0%B4%D0%B5%D0%BD%D1%82%D0%BE%D0%B2 Пошаговая инструкция по работе с git и github для студентов] маленькая обзорная статья, с чего начать.
 
* [https://github.com/andreiled/mipt-cs-4sem/wiki/%D0%9F%D0%BE%D1%88%D0%B0%D0%B3%D0%BE%D0%B2%D0%B0%D1%8F-%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%86%D0%B8%D1%8F-%D0%BF%D0%BE-%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B5-%D1%81-git-%D0%B8-github-%D0%B4%D0%BB%D1%8F-%D1%81%D1%82%D1%83%D0%B4%D0%B5%D0%BD%D1%82%D0%BE%D0%B2 Пошаговая инструкция по работе с git и github для студентов] маленькая обзорная статья, с чего начать.
 
* [https://brett.is/writing/about/my-python-web-crawler/ My Python Web Crawler - Brett.Is] How to write a very simplistic Web Crawler in Python for fun.
 
* [https://brett.is/writing/about/my-python-web-crawler/ My Python Web Crawler - Brett.Is] How to write a very simplistic Web Crawler in Python for fun.
 
==Материалы==
 
===Python===
 
* [https://brett.is/writing/about/my-python-web-crawler/ My Python Web Crawler - Brett.Is] How to write a very simplistic Web Crawler in Python for fun.
 
===Git===
 
* [https://try.github.io Code School - Try Git] интерактивная почти игра, которая учит основным командам Git.
 
* [http://git-scm.com/doc Git - Documentation] официальная документация Git.
 
* [http://git-scm.com/book/ru/v1 Git - Book] перевод довольно обширной обучающей книги о Git от Скотта Шакона.
 
===Книги===
 
===Туториалы===
 

Версия 20:13, 4 февраля 2016

Общая информация

Семинар проходит в Яндексе (корпус ШАДа), по средам, с 17:00. Встречаемся у входа в БЦ Мамонтов. Опоздание минут на 10 приводит к тому, что проектом вы будете заниматься дома, так что лучше все-таки не опаздывать.

Ментор: Денис Симагин. Вопросы задавать можно и нужно, но не те, ответ на которые можно найти на первой странице поисковой выдачи.

Описание проекта: Рекомендательная система (проект).


Материалы

Python

Git

  • Code School - Try Git интерактивная почти игра, которая учит основным командам Git.
  • Git - Documentation официальная документация Git.
  • Git - Book перевод довольно обширной обучающей книги о Git от Скотта Шакона.

Книги

Туториалы

Семинары

S02.03

Первая встреча. Обсуждали организационные моменты. Оговорили, кто какие ресурсы собирается взять для своей рекомендательной системы, но этот выбор еще можно поменять в течение недели. Указания к ресурсу: должно быть достаточно много статей, более-менее одной тематики.

Для хранения кода будет использоваться git, по крайней мере на первых порах. Соответственно, главное задание на эту неделю — разобраться с git'ом.

Также необходимо изучить выбранный ресурс и подумать, каким именно образом выкачивать оттуда статьи (например, бежать по ссылкам или использовать ленту).

Кто уже знает git, по желанию может уже начать писать crawler. Что для этого нужно:

  1. Скачать всю статью в HTML.
  2. Распарсить эту статью. Почистить от всякого мусора: картинок, ссылок, прочего, оставить только текст. Если есть опыт работы с базами, то можно использовать их, в противном случае лучше не тратить время на их изучение, достаточно хранить все в обычной директории. Распарсенные статьи хранятся отдельно, у них должны быть свои индексы и нужно уметь сопоставлять этот индекс с url статьи.
  3. Выкачать таким образом весь ресурс (mining).
  4. Уметь определять свежесть статьи.
  5. Уметь получать новые статьи.

Потенциально полезные ссылки: