Para construir uma biblioteca de análise de sentimento eficiente e diferenciada, podemos combinar tecnologias robustas e modernas:
- Python: Popular para NLP, com excelente suporte a bibliotecas e modelos de machine learning.
- Alternativa: JavaScript (para bibliotecas executadas no navegador ou em backends baseados em Node.js).
- spaCy: Para processamento de linguagem natural com modelos otimizados e extensíveis.
- Transformers (Hugging Face): Para usar modelos pré-treinados de NLP (BERT, RoBERTa) com suporte a português.
- NLTK ou TextBlob: Para análises mais simples e rápidas.
- Open Source Datasets:
- Corpus Brasileiro: Dataset público para português.
- Opiniões de usuários (anônimos e legais) coletados da R360 (com permissão).
- Ferramentas de Etiquetagem:
- Doccano ou Prodigy para rotular textos e criar datasets personalizados.
- FastAPI ou Flask: Para expor a biblioteca como uma API.
- PyPI: Publicar a biblioteca como pacote Python para fácil instalação.
- Docker: Para fornecer uma versão containerizada para desenvolvedores.
- Jupyter Notebooks: Para experimentação e demonstrações.
- GitHub Actions: Para testes automáticos e deploy contínuo.
- Sphinx: Para gerar documentação detalhada.