Skip to content

Alexshifter/bs4_parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Парсинг документации Python

Описание проекта

Проект представляет собой консольное приложение для парсинга документации c сайта Python.org.

Возможности проекта

  • Формирование списка с ссылками на актуальные статьи об изменениях в разных версиях Python;
  • Формироваание списка версий Python с их статусом и ссылкой на документацию;
  • Скачивание последний версии Python;
  • Подсчет количества документов PEP в разном статусе, формирование сводной таблицы;
  • Логгирование событий в файл; Предусмотрены три флага логов: INFO, ERROR, EXCEPTION;
  • Кэширование страниц для парсинга;
  • Вывод полученных данных доступен в терминал, в консольную таблицу, в файл в формате .CSV.

Установка

Клонируйте репозиторий локально:

git clone git@github.com:Alexshifter/bs4_parser_pep.git

Находясь в директории проекта разверните виртуальное окружение

python -m venv venv

Запустите виртуальное окружение

source venv/scripts/activate

Обновите pip

pip install --upgrade pip

Установите зависимости

pip install -r requirements.txt

Для работы с приложением перейдите в директорию /src

cd src/

Работа с приложением

Получение справки по режиму работы парсера

python main.py -h
Парсер документации Python

positional arguments:
  {whats-new,latest-versions,download,pep}
                        Режимы работы парсера

optional arguments:
  -h, --help            show this help message and exit
  -c, --clear-cache     Очистка кеша
  -o {pretty,file}, --output {pretty,file}
                        Дополнительные способы вывода данных

Примеры использования

Получение всех статусов PEP и их количества, вывод результатов в .csv

python main.py pep -o file

Получение ссылок на статьи об изменениях в python, режим с очисткой кэша, вывод в консоль в виде таблицы:

python main.py whats-new -co pretty

Скачивание последней версии Python

python main.py download

Получения списка всех версий Python и ссылок на документацию, режим терминала и очистки кэша:

python main.py -c latest-versions

Основные технологии

Python 3.9.13, beautifulsoup4 4.9.3, tqdm 4.61.0, requests 2.27.1, requests-cache 1.0.0, prettytable 2.1.0

Автор

Alexey Pakaev

Releases

No releases published

Packages

No packages published

Languages