Skip to content

Projekt za prikupljanje, analizu i pretragu FOI dokumenata

License

Notifications You must be signed in to change notification settings

dsabljic/PAP-FOI-docs

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

89 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PAP-FOI-docs

Zahtjevi

  • Python 3.10
  • Pip
  • Git

Postavljanje projekta za prikupljanje podataka sa FOI stranice

Kloniranje repozitorija

git clone https://github.com/dsabljic/PAP-FOI-docs.git
cd PAP-FOI-docs

Kreiranje virtualnog okruženja

python3 -m venv env

Aktivacija virtualnog okruženja

source env/bin/activate

Instalacija Jupyter Notebook-a

pip3 install notebook

Deaktivacija virtualnog okruženja

deactivate

Postavljanje Tesseract OCR-a

Ažuriranje paket menadžera

sudo apt update

Instalacija Tesseract OCR-a

sudo apt install tesseract-ocr

Instalacija hrvatskog jezičnog paketa za Tesseract

sudo apt-get install tesseract-ocr-hrv

Dodavanje Tesseract-a u path

export PATH=$PATH:/putanja/do/tesseract

Nakon toga može se pokrenuti Main.ipynb notebook kako bi se dokumenti preuzeli lokalno.


Priložena je i finalna csv datoteka data.csv te docs.db za brzi pristup podacima (bez scrapinga i ekstrakcije teksta).

Priprema za upotrebu (csv)

df = pd.read_csv('./data.csv')
df['datum'] = pd.to_datetime(df['datum'])

Nakon toga može se odmah pokrenuti baza i nastaviti s radom.

Učitavanje podataka iz baze u DataFrame

df = pd.read_sql('dokument', 'sqlite:///docs.db')

About

Projekt za prikupljanje, analizu i pretragu FOI dokumenata

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published