Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Text differ a lot from Adobe Acrobat reader #219

Closed
laleksandrov opened this issue Dec 16, 2018 · 1 comment · Fixed by #634
Closed

Text differ a lot from Adobe Acrobat reader #219

laleksandrov opened this issue Dec 16, 2018 · 1 comment · Fixed by #634
Labels
missing or incomplete functionality For something which is not a bug, but more like an incomplete feature.

Comments

@laleksandrov
Copy link

F1.pdf

Hi! I am trying to read a cyrillic file with pdfparser, but text is quite different than what you see, when you copy from Adobe Acrobat.
Why is that? What can I do to get better result with pdfparser?

Thanks in advance!

@GreyWyvern
Copy link
Contributor

PR #634 should rectify this issue. The output of getText() from the current v2.7.0 performed on F1.pdf is:

ФактураФактуН омер:  0 0 0 0 0 0 1 2 7 2
Д а та :  3 0 . 1 1 . 2 0 1 8ФактурНоме:0127ДД3е  .88ФФФК  динвсвс73сДв2/лгтМ  двсвс73сДвячу/КаЦоС0/члкъ5М  е9лкучу4оСе  д%зп8щТелефонРадослав  ПетковПолучателТЕХНОМАШПРОГРЕС  -  ООДФФК  дBG0400314272/лгтМ  д040031427ячу/СОФИЯ0/члкул.  Тодорини  кукли  №4п8щТелефондКодНаименование  на  стоката/услугатаМяркаКоличествоЦенаСума7344ум5уру4чМз1.6668.33в32крем  карамел4чМ7с1.41614.16330мляко  с  ориз4чМ7с7Мссс7сМсс336мини  карамел4чМзсМ%Д73.96зчийзкейк4чМз7Мс3взМв767%геврек4чМзсМ%зс3.75%7моЦ5оНмо4чМ7в1.16773МссДанъчна  основа:  59.41ДДС  20%:  11.88Сума  за  плащане:  71.29Словом: Седемдесет  и  един  лв.  и  29  ст.Дата  на данъчно  събитие:  30.11.2018Основание  на  сделката:Описание  на  сделката:Място  на  сделката:  СофияПлащане:  По  сметкаIBAN:  BG21FINV91501017032817Банка:  FiBankБанков  код:Доставсчик"РАВвсч  ИА1о"сАВ Д9Р4оВДЕоОЕАС9№ BЕо1т4Р  G20де2н.Грф ян.е20Г  удел  Р9сБб775МЛТТЛбТл  П фф Х 5 5НННБШ20де2н.ГрфБнГф1

... while the output of getText() from the updated PR code is:

Фактура
Копие	Н омер:  0 0 0 0 0 0 1 2 7 2
Д а та :  3 0 . 1 1 . 2 0 1 8
Доставчик"РАВИ1994"  ЕООД
ДДС  № BG202014092
Идент.  №202014092
Град София
Адрес ул.  "Бесарабия"  №75
МОЛ
Телефон
Радослав  Петков
ПолучателТЕХНОМАШПРОГРЕС  -  ООД
ДДС  № BG040031427
Идент.  №040031427
Град СОФИЯ
Адрес ул.  Тодорини  кукли  №4
МОЛ
Телефон
№ Код Наименование  на  стоката/услугатаМярка Количество Цена Сума
134 баклава	бр. 5 1.666 8.33
232 крем  карамел	бр. 1 0 1.416 14.16
330 мляко  с  ориз	бр. 1 0 1.000 10.00
4 3 6 мини  карамел	бр . 5 0.791 3.96
5 чийзкейк	бр. 5 1.042 5.21
6 1 7 геврек	бр. 5 0.750 3.75
7 1 кифлички	бр. 1 2 1.167 14.00
Данъчна  основа:  59.41
ДДС  20%:  11.88
Сума  за  плащане:  71.29
Словом: Седемдесет  и   един  лв.  и   29  ст.
Дата  на данъчно  събитие:  30.11.2018
Основание  на  сделката:
Описание  на  сделката:
Място  на   сделката:  София
Плащане:  По  сметка
IBAN:  BG21FINV91501017032817
Банка:  FiBank
Банков  код:
Получил:	Съставил:  Радослав Петков
Програмен продукт  Microinvest Invoice  Pro,  тел.088/1344304,  h tt p / /www.microinvest.net 1

@k00ni k00ni added the missing or incomplete functionality For something which is not a bug, but more like an incomplete feature. label Aug 22, 2023
@k00ni k00ni closed this as completed in #634 Nov 7, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
missing or incomplete functionality For something which is not a bug, but more like an incomplete feature.
Projects
None yet
Development

Successfully merging a pull request may close this issue.

3 participants