Проект представляет собой консольное приложение для парсинга документации c сайта Python.org
.
- Формирование списка с ссылками на актуальные статьи об изменениях в разных версиях Python;
- Формироваание списка версий Python с их статусом и ссылкой на документацию;
- Скачивание последний версии Python;
- Подсчет количества документов PEP в разном статусе, формирование сводной таблицы;
- Логгирование событий в файл; Предусмотрены три флага логов:
INFO
,ERROR
,EXCEPTION
; - Кэширование страниц для парсинга;
- Вывод полученных данных доступен в терминал, в консольную таблицу, в файл в формате .CSV.
Клонируйте репозиторий локально:
git clone git@github.com:Alexshifter/bs4_parser_pep.git
Находясь в директории проекта разверните виртуальное окружение
python -m venv venv
Запустите виртуальное окружение
source venv/scripts/activate
Обновите pip
pip install --upgrade pip
Установите зависимости
pip install -r requirements.txt
Для работы с приложением перейдите в директорию /src
cd src/
Получение справки по режиму работы парсера
python main.py -h
Парсер документации Python
positional arguments:
{whats-new,latest-versions,download,pep}
Режимы работы парсера
optional arguments:
-h, --help show this help message and exit
-c, --clear-cache Очистка кеша
-o {pretty,file}, --output {pretty,file}
Дополнительные способы вывода данных
Получение всех статусов PEP и их количества, вывод результатов в .csv
python main.py pep -o file
Получение ссылок на статьи об изменениях в python, режим с очисткой кэша, вывод в консоль в виде таблицы:
python main.py whats-new -co pretty
Скачивание последней версии Python
python main.py download
Получения списка всех версий Python и ссылок на документацию, режим терминала и очистки кэша:
python main.py -c latest-versions
Python 3.9.13, beautifulsoup4 4.9.3, tqdm 4.61.0, requests 2.27.1, requests-cache 1.0.0, prettytable 2.1.0