- Python 3.10
- Pip
- Git
Postavljanje projekta za prikupljanje podataka sa FOI stranice
git clone https://github.com/dsabljic/PAP-FOI-docs.git
cd PAP-FOI-docs
python3 -m venv env
source env/bin/activate
pip3 install notebook
deactivate
sudo apt update
sudo apt install tesseract-ocr
sudo apt-get install tesseract-ocr-hrv
export PATH=$PATH:/putanja/do/tesseract
Nakon toga može se pokrenuti Main.ipynb notebook kako bi se dokumenti preuzeli lokalno.
Priložena je i finalna csv datoteka data.csv
te docs.db
za brzi pristup podacima (bez scrapinga i ekstrakcije teksta).
Priprema za upotrebu (csv)
df = pd.read_csv('./data.csv')
df['datum'] = pd.to_datetime(df['datum'])
Nakon toga može se odmah pokrenuti baza i nastaviti s radom.
Učitavanje podataka iz baze u DataFrame
df = pd.read_sql('dokument', 'sqlite:///docs.db')