Описание:
Этот курс предназначен для тех, кто хочет научиться автоматизированному сбору информации с различных сайтов, то есть парсингу. Для прохождения курса требуются базовые знания питона.
На лекциях будут рассмотрены основные подходы к сбору данных с использованием таких библиотек, как
requests
,
beautifulsoup4
и
splash
, а также фреймворков
Scrapy
и
Selenium
.
В этом курсе рассматриваются основные базовые подходы к сбору данных, а также затрагивается вопрос этичного парсинга. По итогам курса студенты будут иметь базовое представление о том, как парсить различные сайты, используя Python.
Этот курс будет не очень интересен тем, кто уже имеет базовое представление о том, что такое парсинг и как создавать скрипты для автоматизированного сбора данных.
После прохождения курса студенты будут знать:
Как найти и установить необходимые библиотеки для парсинга данных.
Что такое
этичный парсинг
, как не нарушить права и закон при парсинге данных.
Для чего нужен файл
robots.txt
.
Каким образом получать
HTML
сайта для извлечения необходимой информации.
Как пользоваться
xpath
для указания точного расположения элементов на странице.
Как переходить по страницам на
многостраничном
сайте.
Как создавать проект и запускать «пауков»
Scrapy
.
Как парсить всю информацию о каждом товаре на сайте.
Как осуществлять переход на страницу каждого товара.
Каким образом парсить сайты, использующие
JavaScript
при загрузке.
Как авторизовываться на сайте, используя фреймворк
Selenium
.
Как парсить сайты с
бесконечной прокруткой
, имитируя действия пользователя на странице.
Этот курс предназначен для тех, кто хочет научиться автоматизированному сбору информации с различных сайтов, то есть парсингу. Для прохождения курса требуются базовые знания питона.
На лекциях будут рассмотрены основные подходы к сбору данных с использованием таких библиотек, как
requests
,
beautifulsoup4
и
splash
, а также фреймворков
Scrapy
и
Selenium
.
В этом курсе рассматриваются основные базовые подходы к сбору данных, а также затрагивается вопрос этичного парсинга. По итогам курса студенты будут иметь базовое представление о том, как парсить различные сайты, используя Python.
Этот курс будет не очень интересен тем, кто уже имеет базовое представление о том, что такое парсинг и как создавать скрипты для автоматизированного сбора данных.
После прохождения курса студенты будут знать:
Как найти и установить необходимые библиотеки для парсинга данных.
Что такое
этичный парсинг
, как не нарушить права и закон при парсинге данных.
Для чего нужен файл
robots.txt
.
Каким образом получать
HTML
сайта для извлечения необходимой информации.
Как пользоваться
xpath
для указания точного расположения элементов на странице.
Как переходить по страницам на
многостраничном
сайте.
Как создавать проект и запускать «пауков»
Scrapy
.
Как парсить всю информацию о каждом товаре на сайте.
Как осуществлять переход на страницу каждого товара.
Каким образом парсить сайты, использующие
JavaScript
при загрузке.
Как авторизовываться на сайте, используя фреймворк
Selenium
.
Как парсить сайты с
бесконечной прокруткой
, имитируя действия пользователя на странице.
Скрытое содержимое могут видеть только пользователи групп(ы): VIP