diff --git a/CHANGELOG.md b/CHANGELOG.md index 0be70ae..0f50ae0 100644 --- a/CHANGELOG.md +++ b/CHANGELOG.md @@ -1,3 +1,44 @@ +## v3.3.2, 2021-05-01 + +### 🔴 Виправлення помилок + +#### ENG🇬🇧 + +- виправлено помилку `nlp.max_length limit exceeded`: + Text of length 1195652 exceeds maximum of 1000000. The parser and NER models require roughly 1GB of temporary memory per 100,000 characters in the input. This means long texts may cause memory allocation errors. If you're not using the parser or NER, it's probably safe to increase the nlp.max_length limit. The limit is in number of characters, so you can check whether your inputs are too long by checking len(text). + Встановлено ліміт `NLP_EN.max_length = 5000000`; +- виправлено помилку `ImportError: cannot import name 'escape' from 'jinja2'`: + This happens because Jinja has removed those functions in a recent version — 3.1.0 — [released on March 24th, 2022](https://jinja.palletsprojects.com/en/3.1.x/changes/#version-3-1-0). + + > ``Markup`` and ``escape`` should be imported from MarkupSafe. + + You have two options form here: + 1. either this error comes from one of your dependency. + The first thing you should consider is to upgrade the said dependence(s). If this is not possible, what you can do, from here is to downgrade your Jinja version to a version that would still include `escape`, for example, adding it explicitly in your _requirements.txt_: + + ``` + jinja2<3.1.0 + ``` + 2. or, your error is from code you wrote, so you can fix it by importing it from MarkupSafe, as suggested in the Jinja release notes. + + So, you should use + ```python + from markupsafe import escape + ``` + instead of + ```python + from jinja2 import escape + ``` + При використанні `Flask==1.1.2` треба зафікмувати наступні залежності: `jinja2<3.1.0`; `itsdangerous==2.0.1`, `Werkzeug<2.0.0`; +- дрібні виправлення коду. + +### ⚠️ Зауваження + +#### ENG🇬🇧 + +- оновлено бібліотеку spaCy до версії `3.0.6`; +- встановлено `keepalive_timeout 1050` для nginx; + ## v3.3.1, 2021-04-21 ### 🔴 Виправлення помилок diff --git a/KNOWN-ISSUES.md b/KNOWN-ISSUES.md new file mode 100644 index 0000000..24373f7 --- /dev/null +++ b/KNOWN-ISSUES.md @@ -0,0 +1,19 @@ +# Відомі проблеми + +## v3.3.2, 2022-05-01 + +#### ENG🇬🇧 + +- необхідне оновлення бібліотеки `Flask` до актальної версії та внесення відповідних змін до початкоого коду; +- необхідне оновлення бібліотеки `spaCy` та статистичних моделей до актальної версії, і внесення відповідних змін до початкоого коду; +- потрібно динамічно встановити `nlp.max_length` відповідно до довжини документа. Це спрощує роботу з документами/текстом невідомої довжини; +- виправити і оновити до актуального стану документацію англійською мовою; +- Валідація іменних груп **NP** (так званих `base noun phrases`, `noun chunks` - словосполучень, в якому іменник є вершиною, тобто головним словом, що визначає характеристику всієї складової) на підтвердження того, чи є вони **термінами** (**Те́рмін** (від лат. terminus — межа, кордон) — слово або словосполучення, застосоване для позначення деякого **поняття**. + + > `base noun phrases`, `noun chunks` - a noun phrase or nominal phrase is a phrase that has a noun (or indefinite pronoun) as its head or performs the same grammatical function as such a phrase. Noun phrases are very common cross-linguistically, and they may be the most frequently occurring phrase type. + + > Именная группа (ИГ) (англ. noun phrase, NP) — словосочетание, в котором имя существительное является вершиной, то есть главным словом, определяющим характеристику всей составляющей. Иногда к ИГ относятся также группы с вершиной в виде местоимения, но чаще они обозначаются как PRNP или PrNP (англ. pronoun phrase). В современных синтаксических теориях принято считать, что даже если имя не содержит зависимых, оно всё равно является именной группой (состоящей из одного слова). + Обычно именные группы функционируют как объекты и субъекты глаголов, предикативные выражения и комплименты предлогов и послелогов. Именные группы могут быть вложены внутрь друг друга, например, ИГ замок с привидениями содержит внутри себя предложную группу (ПГ) (англ. prepositional phrase, PP) с привидениями, комплементом которой является другая ИГ привидениями в творительном падеже. + Именная группа, содержащая детерминатор, является детерминированной группой (ДГ) (англ. determiner phrase, DP). Детерминатор может быть непроизносимым (англ. silent determiner), тогда ИГ всё равно является ДГ. + +- оформити належним чином Обробку винятків. diff --git a/README.md b/README.md index c85e232..ed9f3a6 100644 --- a/README.md +++ b/README.md @@ -6,6 +6,8 @@ ------- +Актуальна версія **KEn** (Konspekt English & Ukkrainian) доступна для вільного використання в науково-дослідних та педагогічних ціляз за посиланням: [https://konspekt.ai-service.ml](https://konspekt.ai-service.ml/) + ## **KEn** (Konspekt English) - мережевий засіб виокремлення термінів з природномовних текстів англійською мовою diff --git a/deploy/nginx.conf b/deploy/nginx.conf index c9d190a..4cd41ce 100644 --- a/deploy/nginx.conf +++ b/deploy/nginx.conf @@ -38,7 +38,7 @@ http { tcp_nodelay on; # server will close connection after this time -- default 75 - keepalive_timeout 750; + keepalive_timeout 1050; # internal parameter to speed up hashtable lookups types_hash_max_size 2048; diff --git a/deploy/requirements.txt b/deploy/requirements.txt index 534437e..dedb751 100644 --- a/deploy/requirements.txt +++ b/deploy/requirements.txt @@ -1,14 +1,24 @@ +#--------------------- Flask==1.1.2 -# flask-cors==3.0.8 +jinja2<3.1.0 +itsdangerous==2.0.1 +Werkzeug<2.0.0 +#--------------------- +# Flask==2.0.3 flask-cors==3.0.10 +#--------------------- # spacy>=2.2.0,<3.0.0 -spacy==3.0.5 +spacy==3.0.6 +# spacy==3.1.6 +# https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.1.0/en_core_web_sm-3.1.0.tar.gz#egg=en_core_web_sm https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz#egg=en_core_web_sm # https://github.com/explosion/spacy-models/releases/download/en_core_web_trf-3.0.0/en_core_web_trf-3.0.0.tar.gz#egg=en_core_web_trf # https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.0.0/en_core_web_lg-3.0.0.tar.gz#egg=en_core_web_lg +#--------------------- # pdfminer.six==20200402 # pdfminer.six==20200517 pdfminer.six==20201018 +#--------------------- uWSGI==2.0.18 nltk==3.5 chardet==3.0.4 diff --git a/srvr.py b/srvr.py index 2cb9741..33df10e 100644 --- a/srvr.py +++ b/srvr.py @@ -55,7 +55,7 @@ from pdfminer.pdfparser import PDFParser # load libraries for API proccessing -from flask import Flask, jsonify, flash, request, Response, redirect, url_for, abort, render_template, send_file, safe_join +from flask import Flask, jsonify, flash, request, Response, abort, render_template, send_file, safe_join # A Flask extension for handling Cross Origin Resource Sharing (CORS), making cross-origin AJAX possible. from flask_cors import CORS from werkzeug.utils import secure_filename @@ -64,6 +64,16 @@ # Load globally spaCy model via package name NLP_EN = spacy.load('en_core_web_sm') +# TODO Dynamically set the nlp.max_length according to the length of the document. This makes it simpler while handling documents/text of unknown length. +""" +# Example +for file in folder_text_files: + with open(file, 'r', errors="ignore") as f: + text = f.read() + f.close() + nlp.max_length = len(text) + 100 """ +# Text of length 1195652 exceeds maximum of 1000000. The parser and NER models require roughly 1GB of temporary memory per 100,000 characters in the input. This means long texts may cause memory allocation errors. If you're not using the parser or NER, it's probably safe to increase the `nlp.max_length` limit. The limit is in number of characters, so you can check whether your inputs are too long by checking `len(text)`. +NLP_EN.max_length = 5000000 # NLP_EN_TRF = spacy.load('en_core_web_trf') __author__ = "Kyrylo Malakhov and Vitalii Velychko " diff --git a/templates/changelog.html b/templates/changelog.html index 34fc924..7e47479 100644 --- a/templates/changelog.html +++ b/templates/changelog.html @@ -2,16 +2,60 @@ -CHANGELOG -

v3.3.1, 2021-04-21

-

🔴 Виправлення помилок

+CHANGELOG + +

v3.3.2, 2021-05-01

+

🔴 Виправлення помилок

+

ENG🇬🇧

+ +

⚠️ Зауваження

+

ENG🇬🇧

+ +

v3.3.1, 2021-04-21

+

🔴 Виправлення помилок

-

v3.3.0, 2021-04-21

-

⚠️ Зауваження

+

v3.3.0, 2021-04-21

+

⚠️ Зауваження

-

🏭 Нові можливості

+

🏭 Нові можливості

-

👍 Покращення

+

👍 Покращення

  • UKR🇺🇦 ENG🇬🇧 Оновлено опис API для обробки/аналізу текстів у вигляді повідомлень та файлів для Англійської та Української мов у файлі HELP.md.
-

🔴 Виправлення помилок

+

🔴 Виправлення помилок

  • UKR🇺🇦 ENG🇬🇧 дрібні виправлення.
-

v3.2.0, 2021-04-16

-

⚠️ Зауваження

+

v3.2.0, 2021-04-16

+

⚠️ Зауваження

  • ENG🇬🇧 оновлено бібліотеку spaCy до версії 3.0.5;
  • ENG🇬🇧 оновлено модель бібліотеки spaCy для англійської мови en_core_web_sm до версії 3.0.0;
  • @@ -59,7 +103,7 @@

    ⚠️ Зауваження

    Відтепер для обробки/аналізу текстів у вигляді повідомлень та файлів діє одна й та сама кінцева точка API: host[:port]/ken/api/en/allterms.
-

🏭 Нові можливості

+

🏭 Нові можливості

  • ENG🇬🇧 Додано API для обробки/аналізу текстів (а саме, отримання allterms.xml) у вигляді повідомлень. Приклад вхідних даних:

    {
    @@ -71,73 +115,73 @@ 

    🏭 Нові можливості

-

👍 Покращення

+

👍 Покращення

  • ENG🇬🇧 покращено обробку складних термінів, зокрема, з трьох слів;
  • UKR🇺🇦 ENG🇬🇧 Оновлено опис API для обробки/аналізу текстів у вигляді повідомлень та файлів для Англійської та Української мов у файлі HELP.md.
-

🔴 Виправлення помилок

+

🔴 Виправлення помилок

  • UKR🇺🇦 ENG🇬🇧 виправлені помилки відображення/візуалізації залежностей для термінів в елементі #depparse_tab, а саме в #displacy;
  • UKR🇺🇦 ENG🇬🇧 дрібні виправлення.
-

v3.1.0, 2021-03-02

-

👍 Покращення

+

v3.1.0, 2021-03-02

+

👍 Покращення

  • оновлено бібліотеку spaCy до версії 2.3.5;
  • оновлено модель бібліотеки spaCy en_core_web_sm до версії 2.3.1;
  • elementTree API оновлено до версії python 3.7.9;
-

🔴 Виправлення помилок

+

🔴 Виправлення помилок

  • виправлено xml declaration (elementTree API оновлено до версії python 3.7.9);
  • дрібні виправлення.
-

v3.0.3, 2020-10-16

-

🔴 Виправлення помилок

+

v3.0.3, 2020-10-16

+

🔴 Виправлення помилок

  • Дрібні виправлення.
-

v3.0.2, 2020-10-16

-

👍 Покращення

+

v3.0.2, 2020-10-16

+

👍 Покращення

  • Оновлено платформу Python до версії Python 3.7.9.
-

🔴 Виправлення помилок

+

🔴 Виправлення помилок

  • Дрібні виправлення.
-

v3.0.1, 2020-10-16

-

🏭 Нові можливості

+

v3.0.1, 2020-10-16

+

🏭 Нові можливості

  • UKR🇺🇦 Додано функцию заповнення контекстів в онтологічному шаблоні (вхідні структури: allterms.xml та structure.xml).
-

🔴 Виправлення помилок

+

🔴 Виправлення помилок

  • Дрібні виправлення.
-

v3.0.0-beta-6, 2020-08-21

-

📚 Документація

+

v3.0.0-beta-6, 2020-08-21

+

📚 Документація

  • UKR🇺🇦 Створено окрему документацію по API та використанню API-ендпоентів - HELP.md.
-

🔴 Виправлення помилок

+

🔴 Виправлення помилок

  • Дрібні виправлення.
-

v3.0.0-beta-5, 2020-08-20

-

🏭 Нові можливості

+

v3.0.0-beta-5, 2020-08-20

+

🏭 Нові можливості

  • UKR🇺🇦 Додано API для обробки/аналізу текстів у вигляді повідомлень. Приклад вхідних даних:

    {
    @@ -148,81 +192,81 @@ 

    🏭 Нові можливості

-

v3.0.0-beta-4, 2020-05-19

-

🏭 Нові можливості

+

v3.0.0-beta-4, 2020-05-19

+

🏭 Нові можливості

  • UKR🇺🇦 ENG🇬🇧 Додано можливість завантаження таблиці з зовнішнього XLSX документу.
-

v3.0.0-beta-3, 2020-05-14

-

🔴 Виправлення помилок

+

v3.0.0-beta-3, 2020-05-14

+

🔴 Виправлення помилок

  • UKR🇺🇦 ENG🇬🇧 Виправлено помилку при збереженні таблиці в формат EXCEL (встановлено формат файлу xlsx замість xls) з використанням FileSaver.js та xlsx.full.min.js.
-

v3.0.0-beta-2, 2020-05-14

-

🔴 Виправлення помилок

+

v3.0.0-beta-2, 2020-05-14

+

🔴 Виправлення помилок

  • UKR🇺🇦 ENG🇬🇧 Виправлено помилку при збереженні таблиці в формат EXCEL (встановлено розширення файлу xls замість xlsx).
-

v3.0.0-beta-1, 2020-05-07

-

🏭 Нові можливості

+

v3.0.0-beta-1, 2020-05-07

+

🏭 Нові можливості

  • UKR🇺🇦 ENG🇬🇧 Здійснено перехід проекту на актуальну версію Python 3 та відповідне оновлення початкового коду.
-

👍 Покращення

+

👍 Покращення

  • ENG🇬🇧 Здійснено перехід на актуальну версію бібліотеки spaCy та її моделей.

-

v2.0.0-beta-73, 2020-04-16

-

⚠️ Зауваження

+

v2.0.0-beta-73, 2020-04-16

+

⚠️ Зауваження

  • UKR🇺🇦 ENG🇬🇧 Встановлені постійні залежності в requirements.txt (для підтримки Python 2.7.17).
-

v2.0.0-beta-72, 2020-04-16

-

🔴 Виправлення помилок

+

v2.0.0-beta-72, 2020-04-16

+

🔴 Виправлення помилок

  • ENG🇬🇧 Виправлено помилку при збереженні локально файлів allterms.xml, parce.xml.
-

👍 Покращення

+

👍 Покращення

  • UKR🇺🇦 Прискорено аналіз документів розміром від 50000 до 100000 байт.
-

v2.0.0-beta-71, 2020-03-08

-

🔴 Виправлення помилок

+

v2.0.0-beta-71, 2020-03-08

+

🔴 Виправлення помилок

  • UKR🇺🇦 Виправлено помилку інтерактивного підсвічування термінів (при виборі терміна в елементі #term-tree).
-

v2.0.0-beta-70, 2020-02-27

-

🔴 Виправлення помилок

+

v2.0.0-beta-70, 2020-02-27

+

🔴 Виправлення помилок

  • UKR🇺🇦 Протестовано та виправлено роботу бібліотеки Konspekt.exe (для української мови версії від 03-11-2018) з файлами великого розміру.
  • UKR🇺🇦 Вимкнено режим налагодження wine (додано змінну середовища export WINEDEBUG=-all).
  • UKR🇺🇦 Виправлено помилку інтерактивного підсвічування термінів (якщо частота появи терміна в тексті перевищує 300 разів, в цьому випадку буде відключене інтерактивне підсвічування терміна задля коректного роботи інтерфейсу веб-застосунку).
-

v2.0.0-beta-67, 2020-02-24

-

👍 Покращення

+

v2.0.0-beta-67, 2020-02-24

+

👍 Покращення

  • UKR🇺🇦 ENG🇬🇧 На головну веб-сторінку додатка додано номер бета-версії.
-

v2.0.0-beta-66, 2020-02-22

-

🔴 Виправлення помилок

+

v2.0.0-beta-66, 2020-02-22

+

🔴 Виправлення помилок

  • UKR🇺🇦 Виправлено список змін.
-

v2.0.0-beta-65, 2020-02-22

-

⚠️ Зауваження

+

v2.0.0-beta-65, 2020-02-22

+

⚠️ Зауваження

  • UKR🇺🇦 Додано обмеження на розмір оброблюваного файлу, яке становить 2 мб.
  • UKR🇺🇦 Протестовано роботу бібліотеки Konspekt.exe (для української мови версії від 03-11-2018) з файлами великого розміру.
  • @@ -269,21 +313,21 @@

    ⚠️ Зауваження

    -

    👍 Покращення

    +

    👍 Покращення

    • UKR🇺🇦 ENG🇬🇧 Додана стартова сторінка вибору мови Конспекту (для обробки документів української або англійською).
    • UKR🇺🇦 Зменшено час аналізу файлів бібліотекою Konspekt.exe (для української мови версії від 03-11-2018).
    • UKR🇺🇦 При виборі терміна в елементах <select> #uploadResultList (спиcок термінів) та <select> #term-tree (дерево термінів), якщо обчислення займає тривалий час, то інтерфейс відображає процес завантаження.
    -

    🔴 Виправлення помилок

    +

    🔴 Виправлення помилок

    • UKR🇺🇦 Виправлені функції сортування в елементі <select> #uploadResultList.
    • UKR🇺🇦 Виправлені технологія та функції підсвічування термінів (function mark(text), function markTerms(term)) в елементі #text-content.
    -

    v2.0.0-beta-47, 2020-01-08

    -

    ⚠️ Зауваження

    +

    v2.0.0-beta-47, 2020-01-08

    +

    ⚠️ Зауваження

    • UKR🇺🇦 Змінено специфікацію JSON-файлу проекту (Konspekt.exe для української мови версії від 03-11-2018):
    • @@ -327,19 +371,19 @@

      ⚠️ Зауваження

      -

      🔴 Виправлення помилок

      +

      🔴 Виправлення помилок

      • UKR🇺🇦 ENG🇬🇧 Видалено невикористовувані JavaScript-бібліотеки, зокрема, tippy.js.
      -

      v2.0.0-beta-41, 2019-12-25

      -

      🔴 Виправлення помилок

      +

      v2.0.0-beta-41, 2019-12-25

      +

      🔴 Виправлення помилок

      • UKR🇺🇦 Виправлено проблему з попередньо визначеними об'єктами XML r'&|>|<|_|"|\.\.+|\s\s+' (Konspekt.exe для української мови версії від 03-11-2018).
      • UKR🇺🇦 Виправлені проблеми з кодиваннями utf-8/windows-1251.
      -

      👍 Покращення

      +

      👍 Покращення

      • UKR🇺🇦 Додана функція динамічного визначення часу на тривалість роботи Konspekt.exe для української мови версії від 03-11-2018:

        if len(args['body']) <= 50000:
        @@ -354,71 +398,71 @@ 

        👍 Покращення

      -

      v2.0.0-beta-15, 2019-12-21

      -

      🔴 Виправлення помилок

      +

      v2.0.0-beta-15, 2019-12-21

      +

      🔴 Виправлення помилок

      • UKR🇺🇦 Виправлено помилки при decode()/encode().
      -

      v2.0.0-beta-12, 2019-12-20

      -

      👍 Покращення

      +

      v2.0.0-beta-12, 2019-12-20

      +

      👍 Покращення

      • UKR🇺🇦 Додана детекція кодування бібліотекою chardet.
      -

      v2.0.0-beta-11, 2019-12-20

      -

      🔴 Виправлення помилок

      +

      v2.0.0-beta-11, 2019-12-20

      +

      🔴 Виправлення помилок

      • UKR🇺🇦 Виправлено помилку роботи утиліти Xvfb (Xvfb or X virtual framebuffer is a display server implementing the X11 display server protocol) та програми Konspekt.exe для української мови (версії від 03-11-2018).
      • UKR🇺🇦 Виправлено помилки при кодуванні: decode the file as CP1251 ignoring any errors.
      -

      v2.0.0-beta-5, 2019-12-19

      -

      👍 Покращення

      +

      v2.0.0-beta-5, 2019-12-19

      +

      👍 Покращення

      • UKR🇺🇦 Оновлено Konspekt.exe для української мови до версії від 03-11-2018.
      • UKR🇺🇦 Оновлено документацію та список змін.
      -

      v2.0.0-beta-4, 2019-12-18

      -

      🔴 Виправлення помилок

      +

      v2.0.0-beta-4, 2019-12-18

      +

      🔴 Виправлення помилок

      • ENG🇬🇧 Виправлені помилки англійської локалізації інтерфейсу користувача англомовної частини.
      • ENG🇬🇧 Дрібні виправлення JavaScript на клієнті.
      -

      v2.0.0-beta-3, 2019-12-18

      -

      👍 Покращення

      +

      v2.0.0-beta-3, 2019-12-18

      +

      👍 Покращення

      • ENG🇬🇧 Додана англійська локалізація інтерфейсу користувача англомовної частини.
      -

      🔴 Виправлення помилок

      +

      🔴 Виправлення помилок

      • Дрібні виправлення на серверній частині.
      -

      v2.0.0-beta-2, 2019-12-17

      -

      🔴 Виправлення помилок

      +

      v2.0.0-beta-2, 2019-12-17

      +

      🔴 Виправлення помилок

      • Дрібні виправлення на серверній частині.
      -

      v2.0.0-beta-1, 2019-12-17

      -

      🏭 Нові можливості

      +

      v2.0.0-beta-1, 2019-12-17

      +

      🏭 Нові можливості

      🌟 Багатомовна версія ENG🇬🇧, UKR🇺🇦

      🌟 Initial commit for multilingual version ENG🇬🇧, UKR🇺🇦


      -

      v1.0.5, 2019-12-11

      -

      🔴 Виправлення помилок

      +

      v1.0.5, 2019-12-11

      +

      🔴 Виправлення помилок

      • Виправлено помилку при нумерації в тегах <relup>/<reldown> файлу allterms.xml. Нумерація в тегах <relup>/<reldown> файлу allterms.xml починається з 0.
      • Виправлення JavaScript на клієнті згідно нової нумерації в тегах <relup>/<reldown>, <sentpos> файлу allterms.xml.
      -

      v1.0.4, 2019-12-10

      -

      🔴 Виправлення помилок

      +

      v1.0.4, 2019-12-10

      +

      🔴 Виправлення помилок

      • Виправлено помилку при нумерації речень в тегу <sentpos> файлу allterms.xml. Нумерація речень в тегу <sentpos> файлу allterms.xml починається з 0. Для індексації речень з використанням spaCy (в цій бібліотеці відсутня індексація речень) за основу використано приклад:

        @@ -433,7 +477,7 @@

        🔴 Виправлення помилок

      -

      👍 Покращення

      +

      👍 Покращення

      • Змінено елемент <title> головної сторінки index.html (додано мовний код EN додатку ken згідно стандарту представлення назв мов ISO 639-1):

        <title>Конспект (EN) - v1.0.4</title>
        @@ -441,8 +485,8 @@ 

        👍 Покращення

      -

      v1.0.3, 2019-10-31

      -

      ⚠️ Зауваження

      +

      v1.0.3, 2019-10-31

      +

      ⚠️ Зауваження

      • Для коректної роботи клієнтської частини веб-застосунка KEn, необхідно використовувати актуальну версію браузера Google Chrome (70 та вище).
      • При оновленні KEn з версії v1.0.2 (або більш ранньої) до v.1.0.3 дані проаналізованих раніше документів будуть втрачені.
      • @@ -490,24 +534,24 @@

        ⚠️ Зауваження

        -

        👍 Покращення

        +

        👍 Покращення

        • Реалізовано функцію визначення браузера клієнта (Для коректної роботи клієнтської частини веб-застосунка KEn, необхідно використовувати актуальну версію браузера Google Chrome).
        -

        🔴 Виправлення помилок

        +

        🔴 Виправлення помилок

        • Дрібні виправлення JavaScript на клієнті.
        • Виправлено роботу елемента #notes (Блокнот), а саме додано функцію автоматичного збереження вмісту елемента #notes до головного JSON-файлу проекту в поле notes, та відповідно змінено його специфікацію.
        -

        v1.0.2, 2019-09-27

        -

        ⚠️ Зауваження

        +

        v1.0.2, 2019-09-27

        +

        ⚠️ Зауваження

        • Значення параметра конфігурації app.config['MAX_CONTENT_LENGTH'] об'єкту Flask відновлено за замовчуванням (За замовчуванням об'єкт Flask прийме завантаження файлів на необмежену кількість пам'яті).
        -

        👍 Покращення

        +

        👍 Покращення

        • Змінено елемент <title> головної сторінки index.html (видалено рік):

          <title>Конспект - v1.0.2</title>
          @@ -515,8 +559,8 @@ 

          👍 Покращення

        -

        v1.0.1, 2019-08-24

        -

        ⚠️ Зауваження

        +

        v1.0.1, 2019-08-24

        +

        ⚠️ Зауваження

        • При оновленні KEn з версії v1.0.0 (або більш ранньої) до v.1.0.1 дані проаналізованих раніше документів будуть втрачені.
        • Змінено специфікацію JSON-файлу проекту:
        • @@ -562,23 +606,23 @@

          ⚠️ Зауваження

          -

          👍 Покращення

          +

          👍 Покращення

          • Реалізовано функції зжимання та відновлення строк з використанням програмної бібліотеки LZ-based compression algorithm for JavaScript, а саме поцедур compressToBase64/decompressFromBase64 (що зберігають allterms.xml в alltermsxmlCompressed, та parce.xml в parcexmlCompressedJSON-файлі проекту)).
          -

          🔴 Виправлення помилок

          +

          🔴 Виправлення помилок

          • Виправлено помилку графічного інтерфейсу розташування елементу #notes відносно #displacy, #displacy-ner, #displacy-label.
          -

          v1.0.0, 2019-08-20

          -

          ⚠️ Зауваження

          +

          v1.0.0, 2019-08-20

          +

          ⚠️ Зауваження

          • При оновленні KEn з версії v0.7.1 (або більш ранньої) до v.1.0.0 дані проаналізованих раніше документів будуть втрачені.
          -

          👍 Покращення

          +

          👍 Покращення

          • Збільшено розмір nginx client_max_body_size до 500 mb (що дозволяє проводити обробку файлів розміром до 500 мб).

          • @@ -592,7 +636,7 @@

            👍 Покращення

          -

          🔴 Виправлення помилок

          +

          🔴 Виправлення помилок

          • Виправлено роботу елемента #termTree, а саме додано функцію "візуалізації залежностей термінів" з елементу #termTree в елементі #depparse_tab, а саме в #displacy.

          • @@ -606,36 +650,36 @@

            🔴 Виправлення помилок

          -

          ⚠️ Застаріле

          +

          ⚠️ Застаріле

          • Функції та процедури роботи клієнтської частини програми на основі localStorage (що відповідають за збереження та ініціалізацію результатів лінгвістичного аналізу файлів проекту), окрім таблиці.
          -

          v0.7.1, 2019-08-14

          -

          👍 Покращення

          +

          v0.7.1, 2019-08-14

          +

          👍 Покращення

          • Додано функцію "копіювання по кліку" термінів з елементу #termTree (дерево термінів) в елемент #table-body (таблиця).
          • Оновлено меню "Допомога" (елемент #button-dropdown-help): додано "Журнал змін" (елемент #button-changelog) - Журнал змін проекту CHANGELOG.md.
          -

          🔴 Виправлення помилок

          +

          🔴 Виправлення помилок

          • Виправлено імена, що надаються за замовчуванням при збереженні в файл списків "Терміни" (#uploadResultList), РІС (#uploadUnknownTerms).
          -

          v0.7.0, 2019-08-10

          -

          ⚠️ Зауваження

          +

          v0.7.0, 2019-08-10

          +

          ⚠️ Зауваження

          • При оновленні KEn з версії v0.6.0 до v.0.7.0 дані проаналізованих раніше файлів будуть втрачені або працюватимуть некоректно.
          -

          👍 Покращення

          +

          👍 Покращення

          • Оновлено функції та процедури роботи з localStorage, що відповідають за збереження та ініціалізацію результатів лінгвістичного аналізу файлів проекту.
          • Вимкнено запис логів при доступі до файлів, що знаходяться в папці static.
          -

          🔴 Виправлення помилок

          +

          🔴 Виправлення помилок

          • Виправлено оновлення деяких елементів при перемиканні/вибору файлів в елементі #projectFileList ("Файли"). Оновлються елементи:

              @@ -651,8 +695,8 @@

              🔴 Виправлення помилок

            -

            v0.6.0, 2019-08-07

            -

            🏭 Нові можливості

            +

            v0.6.0, 2019-08-07

            +

            🏭 Нові можливості

            • Реалізовано можливість локального збереження файлів разбору allterms.xml та parce.xml через графічний інтерфейс користувача, зокрема, через взаємодію з елементом #button-save відповідно:

                @@ -663,25 +707,25 @@

                🏭 Нові можливості

              -

              🔴 Виправлення помилок

              +

              🔴 Виправлення помилок

              • Дрібні виправлення JavaScript на клієнті.
              -

              v0.5.5, 2019-08-03

              -

              🔴 Виправлення помилок

              +

              v0.5.5, 2019-08-03

              +

              🔴 Виправлення помилок

              • Виправлено id елементу #text-content-panel-body.
              -

              v0.5.4, 2019-07-30

              -

              🔴 Виправлення помилок

              +

              v0.5.4, 2019-07-30

              +

              🔴 Виправлення помилок

              • Виправлено поведінку елементу #notes (відключено можливість змінення розміру).
              -

              v0.5.3, 2019-07-28

              -

              🔴 Виправлення помилок

              +

              v0.5.3, 2019-07-28

              +

              🔴 Виправлення помилок

              • Виправлено випадкове виконання функцій events при взаємодії з елементами:

                  @@ -693,15 +737,15 @@

                  🔴 Виправлення помилок

                -

                v0.5.2, 2019-07-27

                -

                🔴 Виправлення помилок

                +

                v0.5.2, 2019-07-27

                +

                🔴 Виправлення помилок

                • Виправлено помилку роботи з файлами, що мають однакові імена але різний зміст (Реалізовано генерування унікальних імен файлів для localStorage).
                • Дрібні виправлення JavaScript на клієнті.
                -

                v0.5.1, 2019-07-25

                -

                🔴 Виправлення помилок

                +

                v0.5.1, 2019-07-25

                +

                🔴 Виправлення помилок

                • Виправлено дерево термінів: Реалізовано активне дерево термінів, тобто - перехід до вибраного терміну в дереві термінів (відповідне відображення речень з терміном в елементі #term-tree та виділення речень з терміном в sents_from_text).
                • @@ -709,33 +753,33 @@

                  🔴 Виправлення помилок

                • Видалено невикористовувані JavaScript-бібліотеки.
                -

                v0.5.0, 2019-07-25

                -

                🏭 Нові можливості

                +

                v0.5.0, 2019-07-25

                +

                🏭 Нові можливості

                • Реалізовано підсвічування речень з вибраним терміном в елементі #sents_from_text та вибраних термінів в #text-content з використанням бібліотеки mark.js
                -

                🔴 Виправлення помилок

                +

                🔴 Виправлення помилок

                • Дрібні виправлення інтерфейсу.
                • Дрібні виправлення серверної частини: змінено роботу нормалізації тексту (відключено line = re.sub(r'\W', ' ', line, flags=re.I)).
                -

                v0.4.2, 2019-07-23

                -

                🔴 Виправлення помилок

                +

                v0.4.2, 2019-07-23

                +

                🔴 Виправлення помилок

                • Виправлено номер версії в елементі title.
                -

                v0.4.1, 2019-07-23

                -

                👍 Покращення

                +

                v0.4.1, 2019-07-23

                +

                👍 Покращення

                • Додано номер поточної версії KEn до елементу title.
                -

                v0.4.0, 2019-07-23

                -

                🏭 Нові можливості

                +

                v0.4.0, 2019-07-23

                +

                🏭 Нові можливості

                • Реалізовано відображення показників частоти термінів за допомоги спливаючої підказки title для кожного терміну елементу #uploadResultList. Реалізовано можливість сортування термінів в елементі #uploadResultList згідно:

                  @@ -751,23 +795,23 @@

                  🏭 Нові можливості

                -

                👍 Покращення

                +

                👍 Покращення

                • Рефакторинг програмного коду.
                -

                🔴 Виправлення помилок

                +

                🔴 Виправлення помилок

                • Дрібні виправлення.
                -

                📚 Документація

                +

                📚 Документація

                • Оновлено розділи Системні вимоги згідно нових мінімальних системних вимог, україномовної частини README.md.
                -

                v0.3.0, 2019-07-22

                -

                🔴 Виправлення помилок

                +

                v0.3.0, 2019-07-22

                +

                🔴 Виправлення помилок

                • Виправлено помилку UnicodeDecodeError: 'utf8' codec can't decode byte. Декодовано файл як UTF-8, ігноруючи будь-які символи які закодовані в неправильному кодуванні:

                  @@ -791,16 +835,16 @@

                  🔴 Виправлення помилок

                -

                v0.2.8, 2019-07-20

                -

                🔴 Виправлення помилок

                +

                v0.2.8, 2019-07-20

                +

                🔴 Виправлення помилок

                • Реалізовано видалення символу ° на етапі нормалізації тексту.
                • Реалізовано видалення всіх не словникових символів (\W non-alphanumeric characters) на етапі нормалізації тексту.
                • Реалізовано видалення всіх слів, що містять числа при нормалізації тексту.
                -

                v0.2.7, 2019-07-19

                -

                🔴 Виправлення помилок

                +

                v0.2.7, 2019-07-19

                +

                🔴 Виправлення помилок

                • Вимкнено появу стандартного контекстного меню на елементі #projectFileList при евенті видалення файлів проекту за кліком правої кнопки миші.
                • Збільшено максимально допустимий розмір тіла запиту клієнта до 50 мегабайт: client_max_body_size 50M.
                • @@ -811,24 +855,24 @@

                  🔴 Виправлення помилок

                • Додано файл CHANGELOG.md, що містить список версій програми та список відповідних змін програмного коду, виправлень та покращень.
                -

                v0.2.6, 2019-07-18

                -

                🔴 Виправлення помилок

                +

                v0.2.6, 2019-07-18

                +

                🔴 Виправлення помилок

                • Виправлено скролінг в елементах класу .col-md-6.
                -

                👍 Покращення

                +

                👍 Покращення

                • Додано вкладку "Блокнот" з елементом textarea до .col-md-6.
                -

                v0.2.5, 2019-07-18

                -

                🔴 Виправлення помилок

                +

                v0.2.5, 2019-07-18

                +

                🔴 Виправлення помилок

                • Дрібні виправлення.
                -

                👍 Покращення

                +

                👍 Покращення

                • Видалено тег версій з кінцевих точок API: було: @@ -841,15 +885,15 @@

                  👍 Покращення

                • Рефакторинг програмного коду.
                -

                📚 Документація

                +

                📚 Документація

                • Додана настанова користувача Як зберегти Docker image в файл (резервне копіювання) для подальшого використання на іншому сервері.
                • Виправлено виділення термінів на виокремлення термінів.
                • Оновлення україномовної частини README.md.
                -

                v0.2.4, 2019-07-08

                -

                🔴 Bug fixes

                +

                v0.2.4, 2019-07-08

                +

                🔴 Bug fixes

                • Fix sentence duplication in id="text-content".
                • Fix id="sents_from_text" area to update for a new text.
                • @@ -857,19 +901,19 @@

                  🔴 Bug fixes

                • Fix add text to id="sents_from_text" area when selecting files from id="projectFileList" select list.
                -

                👍 Improvements

                +

                👍 Improvements

                • Update project structure.
                • Clean up source code.
                -

                📚 Tutorial and doc improvements

                +

                📚 Tutorial and doc improvements

                • Update UA part of README.md.

                -

                🔴 Виправлення помилок

                +

                🔴 Виправлення помилок

                • Виправлено дублювання речення в елементі id =" text-content ".
                • Виправлено оновлення елементу id="sents_from_text" згідно нового тексту.
                • @@ -878,57 +922,57 @@

                  🔴 Виправлення помилок

                • Дрібні виправлення.
                -

                👍 Покращення

                +

                👍 Покращення

                • Оновлено структуру проекту.
                • Рефакторинг програмного коду.
                -

                📚 Документація

                +

                📚 Документація

                • Оновлення україномовної частини README.md.
                -

                v0.2.3, 2019-06-25

                -

                👍 Improvements

                +

                v0.2.3, 2019-06-25

                +

                👍 Improvements

                • Remove (comment) dependencies for language_check.
                • Clean up source code.
                -

                📚 Tutorial and doc improvements

                +

                📚 Tutorial and doc improvements

                • Update UA part of README.md.

                -

                👍 Покращення

                +

                👍 Покращення

                • Видалено залежності для language_check.
                • Рефакторинг програмного коду.
                -

                📚 Документація

                +

                📚 Документація

                • Оновлення україномовної частини README.md.
                -

                v0.2.2, 2019-06-23

                -

                👍 Improvements

                +

                v0.2.2, 2019-06-23

                +

                👍 Improvements

                • Fix Highlighting terms in text area id="text-content".
                • Fix loader colour.

                -

                👍 Покращення

                +

                👍 Покращення

                • Виправлено підсвічування виокремлених термінів у id="text-content".
                • Змінено колір елементу loader.
                -

                v0.2.1, 2019-06-23

                -

                👍 Improvements

                +

                v0.2.1, 2019-06-23

                +

                👍 Improvements

                • Add save to csv.
                • Add save of all lists (terms, NER, files).
                • @@ -936,18 +980,18 @@

                  👍 Improvements

                • Fix titles.
                -

                🔴 Bug fixes

                +

                🔴 Bug fixes

                • Various bug fixes.
                -

                📚 Tutorial and doc improvements

                +

                📚 Tutorial and doc improvements

                • Update UA part of README.md.

                -

                👍 Покращення

                +

                👍 Покращення

                • Додано збереження в формат csv.
                • Додано можливість збереження списків (terms, NER, files).
                • @@ -955,65 +999,65 @@

                  👍 Покращення

                • Виправлені елементи title.
                -

                🔴 Виправлення помилок

                +

                🔴 Виправлення помилок

                • Дрібні виправлення.
                -

                📚 Документація

                +

                📚 Документація

                • Оновлення україномовної частини README.md.
                -

                v0.2.0, 2019-06-21

                -

                👍 Improvements

                +

                v0.2.0, 2019-06-21

                +

                👍 Improvements

                • All new table.
                • All new table controls.
                • Added saving table in Excel .xls format.
                -

                ⚠️ Deprecations

                +

                ⚠️ Deprecations

                • Removed saving in .csv.
                -

                🔴 Bug fixes

                +

                🔴 Bug fixes

                • Various bug fixes.
                -

                📚 Tutorial and doc improvements

                +

                📚 Tutorial and doc improvements

                • Update UA part of README.md.

                -

                👍 Покращення

                +

                👍 Покращення

                • Нова таблиця.
                • Нові елементи управління таблицею.
                • Додана можливість збереження таблиці в формат Excel .xls.
                -

                ⚠️ Застаріле

                +

                ⚠️ Застаріле

                • Видалено збереження в формат .csv.
                -

                🔴 Виправлення помилок

                +

                🔴 Виправлення помилок

                • Різні дрібні виправлення.
                -

                📚 Документація

                +

                📚 Документація

                • Оновлення україномовної частини README.md.
                -

                v0.1.1, 2019-06-02

                -

                🌟 Початковий попередній реліз

                +

                v0.1.1, 2019-06-02

                +

                🌟 Початковий попередній реліз


                -

                🌟 Initial pre-release

                +

                🌟 Initial pre-release

                \ No newline at end of file diff --git a/templates/en.html b/templates/en.html index 2b481a4..c8f1cac 100644 --- a/templates/en.html +++ b/templates/en.html @@ -2,7 +2,7 @@ - Konspekt - v3.3.1 + Konspekt - v3.3.2 diff --git a/templates/index.html b/templates/index.html index 9727146..16009e5 100644 --- a/templates/index.html +++ b/templates/index.html @@ -2,7 +2,7 @@ - Konspekt - v3.3.1 + Konspekt - v3.3.2 @@ -15,7 +15,7 @@

                КОНСПЕКТ

                -
                v3.3.1
                +
                v3.3.2

                Контекстно-семантичний аналіз природно-мовних текстів та побудова таксономії документів

                Українська English @@ -23,7 +23,7 @@

                Контекстно-семантичн

                -

                VM Glushkov Institute of Cybernetics of NAS of Ukraine © Copyright 2021

                +

                VM Glushkov Institute of Cybernetics of NAS of Ukraine © Copyright 2022

                diff --git a/templates/ua.html b/templates/ua.html index 4270aa5..cc082d1 100644 --- a/templates/ua.html +++ b/templates/ua.html @@ -2,7 +2,7 @@ - Конспект - v3.3.1 + Конспект - v3.3.2 diff --git "a/tests/documents-for-test/en/SUM_\320\220 PILLAR ONE_TOTAL_BIG.pdf" "b/tests/documents-for-test/en/SUM_\320\220 PILLAR ONE_TOTAL_BIG.pdf" new file mode 100644 index 0000000..d6dff2f Binary files /dev/null and "b/tests/documents-for-test/en/SUM_\320\220 PILLAR ONE_TOTAL_BIG.pdf" differ