Skip to content

Парсер документации Python и PEP на Scrapy

Notifications You must be signed in to change notification settings

94R1K/scrapy_parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

author
Ярослав Лошкарев
Oct 6, 2023
7e2835d · Oct 6, 2023

History

7 Commits
Apr 11, 2023
Apr 11, 2023
Apr 10, 2023
Apr 2, 2023
Apr 2, 2023
Oct 6, 2023
Apr 2, 2023
Apr 2, 2023
Apr 10, 2023

Repository files navigation

Typing SVG

Проект асинхронного парсинга документации PEP

Описание

Выполняется парсинг данных со страницы с общей информацией о PEP (https://peps.python.org/), переход по ссылкам и сбор данных о каждом PEP. Парсер подготавливает данные и сохраняет их в два файла формата csv в папку results.

Перед использованием

Клонируйте репозиторий к себе на компьютер:

git clone https://github.com/94R1K/scrapy_parser_pep.git

В корневой папке создайте виртуальное окружение и установите зависимости:

python -m venv venv
pip install -r requirements.txt

Запуск парсера из командной строки:

scrapy crawl pep

Вывод результатов

Результатом работы парсера будет создание двух файлов:

  1. pep_ДатаВремя.csv - содержит список всех PEP (number, name, status);
  2. status_summary_ДатаВремя.csv - содержит сводку по статусам PEP: сколько найдено документов в каждом статусе (Status, Quantity). В последней строке этого файла в колонке Total выводится общее количество всех документов.

Об авторе

Лошкарев Ярослав Эдуардович
Python-разработчик (Backend)
Россия, г. Москва
E-mail: real-man228@yandex.ru

VK TG

About

Парсер документации Python и PEP на Scrapy

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages