Это проект по парсингу сайтов narod.ru в исследовательских, нетсталкерских целях
Микросервисы:
- parser. это клиент, который будетпарсить рандомные сайты с .narod.ru, и делать запросы на добавление в БД
- letter-checker. для того, чтобы проверить, делался ли запрос на определённый нерабочий url или нет
- db-backend. микросервис взаимодействия с БД существующих сайтов. добавляет сайты в БД, добавляет их описание
- html-parser. микросервис очистки HTML кода от HTML
- ai-summarizer. микросервис по сокращению текста
Полный пайплайн, задействующий все 4 микросервиса: parser (находит существующий сайт) => letter-checkr (проверяет, проверяли ли мы его и является ли он рабочим) => db-backend (пишет сайт в БД, делает запрос на добывку описания) => html-parser (очищает текст от HTML) => ai-summarizer (сокращает текст) => db-backend (пишет описание в БД)
некоторые шутки ещё дорабатываю, когда можно будет использовать - скажу :)
Как только доделаю, я добавлю в код бинарник для parse.go, вы сможете его скачать, и он будет слать запросы о сайтах на бэкенд. Таким образом, вы мне поможете, и станете нет-сталкерами :)