diff --git a/ACKS.md b/ACKS.md
index 446271f44..a06d7e16e 100644
--- a/ACKS.md
+++ b/ACKS.md
@@ -24,7 +24,7 @@ As Wordless stands on the shoulders of giants, I hereby extend my sincere gratit
-----:|----|:-----:|-------|:-----:
1|[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/)|4.12.2|Leonard Richardson|[MIT](https://git.launchpad.net/beautifulsoup/tree/LICENSE)
2|[Botok](https://github.com/OpenPecha/Botok)|0.8.12|Hélios Drupchen Hildt|[Apache-2.0](https://github.com/OpenPecha/Botok/blob/master/LICENSE)
-3|[Charset Normalizer](https://github.com/Ousret/charset_normalizer)|3.2.0|TAHRI Ahmed R.|[MIT](https://github.com/Ousret/charset_normalizer/blob/master/LICENSE)
+3|[Charset Normalizer](https://github.com/Ousret/charset_normalizer)|3.3.2|TAHRI Ahmed R.|[MIT](https://github.com/Ousret/charset_normalizer/blob/master/LICENSE)
4|[Dostoevsky](https://github.com/bureaucratic-labs/dostoevsky)|0.6.0|Anna Rogers, Alexey Romanov, Anna Rumshisky,
Svitlana Volkova, Mikhail Gronas, Alex Gribov|[MIT](https://github.com/bureaucratic-labs/dostoevsky/blob/master/LICENSE)
5|[khmer-nltk](https://github.com/VietHoang1512/khmer-nltk)|1.6|Phan Viet Hoang|[Apache-2.0](https://github.com/VietHoang1512/khmer-nltk/blob/main/LICENSE)
6|[LaoNLP](https://github.com/wannaphong/LaoNLP)|1.1.3|Wannaphong Phatthiyaphaibun (วรรณพงษ์ ภัททิยไพบูลย์)|[Apache-2.0](https://github.com/wannaphong/LaoNLP/blob/master/LICENSE)
diff --git a/CHANGELOG.md b/CHANGELOG.md
index 076fdeca2..ed4ec4847 100644
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -24,6 +24,7 @@
### ⏫ Dependency Changes
- Dependencies: Remove jieba
+- Dependencies: Upgrade Charset Normalizer to 3.3.2
- Dependencies: Upgrade LaoNLP to 1.1.3
- Dependencies: Upgrade PyQt to 5.15.10
- Dependencies: Upgrade spaCy to 3.7.2
diff --git a/doc/trs/zho_cn/ACKS.md b/doc/trs/zho_cn/ACKS.md
index ed8ffe82f..8aa93b46f 100644
--- a/doc/trs/zho_cn/ACKS.md
+++ b/doc/trs/zho_cn/ACKS.md
@@ -24,7 +24,7 @@
-----:|----|:-----:|-------|:-----:
1|[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/)|4.12.2|Leonard Richardson|[MIT](https://git.launchpad.net/beautifulsoup/tree/LICENSE)
2|[Botok](https://github.com/OpenPecha/Botok)|0.8.12|Hélios Drupchen Hildt|[Apache-2.0](https://github.com/OpenPecha/Botok/blob/master/LICENSE)
-3|[Charset Normalizer](https://github.com/Ousret/charset_normalizer)|3.2.0|TAHRI Ahmed R.|[MIT](https://github.com/Ousret/charset_normalizer/blob/master/LICENSE)
+3|[Charset Normalizer](https://github.com/Ousret/charset_normalizer)|3.3.2|TAHRI Ahmed R.|[MIT](https://github.com/Ousret/charset_normalizer/blob/master/LICENSE)
4|[Dostoevsky](https://github.com/bureaucratic-labs/dostoevsky)|0.6.0|Anna Rogers, Alexey Romanov, Anna Rumshisky,
Svitlana Volkova, Mikhail Gronas, Alex Gribov|[MIT](https://github.com/bureaucratic-labs/dostoevsky/blob/master/LICENSE)
5|[khmer-nltk](https://github.com/VietHoang1512/khmer-nltk)|1.6|Phan Viet Hoang|[Apache-2.0](https://github.com/VietHoang1512/khmer-nltk/blob/main/LICENSE)
6|[LaoNLP](https://github.com/wannaphong/LaoNLP)|1.1.3|Wannaphong Phatthiyaphaibun (วรรณพงษ์ ภัททิยไพบูลย์)|[Apache-2.0](https://github.com/wannaphong/LaoNLP/blob/master/LICENSE)
diff --git a/doc/trs/zho_tw/ACKS.md b/doc/trs/zho_tw/ACKS.md
index 927ce99ce..2c9aa00dd 100644
--- a/doc/trs/zho_tw/ACKS.md
+++ b/doc/trs/zho_tw/ACKS.md
@@ -24,7 +24,7 @@
-----:|----|:-----:|-------|:-----:
1|[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/)|4.12.2|Leonard Richardson|[MIT](https://git.launchpad.net/beautifulsoup/tree/LICENSE)
2|[Botok](https://github.com/OpenPecha/Botok)|0.8.12|Hélios Drupchen Hildt|[Apache-2.0](https://github.com/OpenPecha/Botok/blob/master/LICENSE)
-3|[Charset Normalizer](https://github.com/Ousret/charset_normalizer)|3.2.0|TAHRI Ahmed R.|[MIT](https://github.com/Ousret/charset_normalizer/blob/master/LICENSE)
+3|[Charset Normalizer](https://github.com/Ousret/charset_normalizer)|3.3.2|TAHRI Ahmed R.|[MIT](https://github.com/Ousret/charset_normalizer/blob/master/LICENSE)
4|[Dostoevsky](https://github.com/bureaucratic-labs/dostoevsky)|0.6.0|Anna Rogers, Alexey Romanov, Anna Rumshisky,
Svitlana Volkova, Mikhail Gronas, Alex Gribov|[MIT](https://github.com/bureaucratic-labs/dostoevsky/blob/master/LICENSE)
5|[khmer-nltk](https://github.com/VietHoang1512/khmer-nltk)|1.6|Phan Viet Hoang|[Apache-2.0](https://github.com/VietHoang1512/khmer-nltk/blob/main/LICENSE)
6|[LaoNLP](https://github.com/wannaphong/LaoNLP)|1.1.3|Wannaphong Phatthiyaphaibun (วรรณพงษ์ ภัททิยไพบูลย์)|[Apache-2.0](https://github.com/wannaphong/LaoNLP/blob/master/LICENSE)
diff --git a/requirements/requirements_tests.txt b/requirements/requirements_tests.txt
index 8c587f8de..5b85cf350 100644
--- a/requirements/requirements_tests.txt
+++ b/requirements/requirements_tests.txt
@@ -19,7 +19,7 @@
# NLP
botok == 0.8.12
-charset-normalizer == 3.2.0
+charset-normalizer == 3.3.2
khmer-nltk == 1.6
laonlp == 1.1.3
lingua-language-detector == 1.3.3
diff --git a/tests/tests_utils/test_detection.py b/tests/tests_utils/test_detection.py
index 4196fa990..b6e03b2a5 100644
--- a/tests/tests_utils/test_detection.py
+++ b/tests/tests_utils/test_detection.py
@@ -45,11 +45,12 @@ def test_lingua():
# Encoding detection
def check_encodings_detected(test_file_dir, encodings, text):
+ encodings_detected = []
+
for encoding in encodings:
file_path = os.path.join(test_file_dir, f'{encoding}.txt')
- # Use same line endings for different OSes run on CI
- with open(file_path, 'w', encoding = encoding, errors = 'replace', newline = '\r\n') as f:
+ with open(file_path, 'w', encoding = encoding, errors = 'replace') as f:
f.write(text)
encoding_detected = wl_detection.detect_encoding(main, file_path)
@@ -58,75 +59,81 @@ def check_encodings_detected(test_file_dir, encodings, text):
print(f'{encoding} detected as {encoding_detected} / {encoding_detected_text}')
- assert encoding_detected == encoding
assert encoding_detected_text
+ encodings_detected.append(encoding_detected)
+
+ assert encodings_detected == encodings
+
def test_detection_encoding():
test_file_dir = 'tests/tests_utils/_files_detection_encoding'
os.makedirs(test_file_dir, exist_ok = True)
try:
- # All Languages
+ # All languages
# Charset Normalizer does not return "utf_8_sig"
# Reference: https://github.com/Ousret/charset_normalizer/pull/38
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['utf_8', 'utf_16', 'utf_16_be', 'utf_16_le', 'utf_32', 'utf_32_be', 'utf_32_le'], # utf_8_sig, utf_7
- text = wl_test_lang_examples.ENCODING_ENG
+ encodings = ['utf_8', 'utf_16', 'utf_16_be', 'utf_16_le', 'utf_32', 'utf_32_be', 'utf_32_le'], # 'utf_8_sig', 'utf_7'
+ text = wl_test_lang_examples.ENCODING_FRA
)
# Arabic
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['cp1256', 'iso8859_6'], # cp720, cp864, mac_arabic
+ encodings = ['cp720', 'iso8859_6', 'cp1256'], # 'cp864', 'mac_arabic'
text = wl_test_lang_examples.ENCODING_ARA
)
- # Baltic Languages
+ # Baltic languages
+ # e.g. Lithuanian, Latvian
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['cp775', 'iso8859_13', 'cp1257'],
+ encodings = ['cp775'], # 'iso8859_13', 'cp1257'
text = wl_test_lang_examples.ENCODING_LAV
)
- # Celtic Languages
+ # Celtic languages
+ # e.g. Irish, Manx, Scottish Gaelic, Welsh
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # iso8859_14
+ encodings = [], # 'iso8859_14'
text = wl_test_lang_examples.ENCODING_GLE
)
# Chinese (Unified)
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['gb18030'], # gbk
- text = wl_test_lang_examples.ENCODING_ZHO_CN
+ encodings = ['gb18030'], # 'gbk'
+ text = wl_test_lang_examples.ENCODING_ZHO_TW
)
# Chinese (Simplified)
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # gb2312, hz
+ encodings = [], # 'gb2312', 'hz'
text = wl_test_lang_examples.ENCODING_ZHO_CN
)
# Chinese (Traditional)
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['big5'], # big5hkscs, cp950
+ encodings = ['big5'], # 'big5hkscs', 'cp950'
text = wl_test_lang_examples.ENCODING_ZHO_TW
)
# Croatian
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # mac_croatian
+ encodings = [], # 'mac_croatian'
text = wl_test_lang_examples.ENCODING_HRV
)
# Cyrillic
+ # e.g. Belarusian, Bulgarian, Macedonian, Russian, Serbian (Cyrillic)
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['cp855', 'iso8859_5', 'mac_cyrillic', 'cp1251'], # cp866
+ encodings = ['cp855', 'iso8859_5', 'mac_cyrillic', 'cp1251'], # 'cp866'
text = wl_test_lang_examples.ENCODING_RUS
)
# English
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['ascii', 'cp037'], # cp437
+ encodings = ['ascii', 'cp037'], # 'cp437'
text = wl_test_lang_examples.ENCODING_ENG
)
# European
@@ -136,69 +143,74 @@ def test_detection_encoding():
text = wl_test_lang_examples.ENCODING_FRA
)
# European (Central)
+ # e.g. Albanian, Croatian, Czech, Finnish, German, Hungarian, Polish, Romanian, Serbian (Latin), Slovak, Slovenian, Sorbian (Lower), Sorbian(Upper)
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['cp852', 'iso8859_2', 'mac_latin2'], # cp1250
- text = wl_test_lang_examples.ENCODING_POL
+ encodings = ['cp852', 'iso8859_2', 'mac_latin2', 'cp1250'],
+ text = wl_test_lang_examples.ENCODING_HRV
)
# European (Northern)
+ # e.g. Estonian, Latvian, Lithuanian, Sámi
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # iso8859_4
- text = wl_test_lang_examples.ENCODING_EST
+ encodings = [], # 'iso8859_4'
+ text = wl_test_lang_examples.ENCODING_LAV
)
# European (Southern)
+ # e.g. Esperanto, Maltese, Turkish
check_encodings_detected(
test_file_dir = test_file_dir,
encodings = ['iso8859_3'],
text = wl_test_lang_examples.ENCODING_MLT
)
# European (South-Eastern)
+ # e.g. Albanian, Croatian, Hungarian, Polish, Romanian, Serbian, Slovenian
check_encodings_detected(
test_file_dir = test_file_dir,
encodings = ['iso8859_16'],
- text = wl_test_lang_examples.ENCODING_RON
+ text = wl_test_lang_examples.ENCODING_HRV
)
# European (Western)
+ # e.g. Afrikaans, Albanian, Basque, English, Faroese, Galician, Icelandic, Irish, Indonesian, Italian, Luxembourgish, Malay, Manx, Norwegian, Portuguese, Scottish Gaelic, Spanish, Swahili, Swedish, Tagalog
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['cp850', 'cp1252'], # cp500, cp858, cp1140, latin_1, iso8859_15, mac_roman
- text = wl_test_lang_examples.ENCODING_FRA
+ encodings = ['cp500', 'cp850', 'cp1252'], # 'cp858', 'cp1140', 'latin_1', 'iso8859_15', 'mac_roman'
+ text = wl_test_lang_examples.ENCODING_POR
)
# French
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # cp863
+ encodings = [], # 'cp863'
text = wl_test_lang_examples.ENCODING_FRA
)
# German
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # cp273
+ encodings = [], # 'cp273'
text = wl_test_lang_examples.ENCODING_DEU
)
# Greek
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['cp869', 'mac_greek', 'cp1253'], # cp737, cp875, iso8859_7
+ encodings = ['cp737', 'cp869', 'cp875', 'mac_greek', 'cp1253'], # 'iso8859_7'
text = wl_test_lang_examples.ENCODING_ELL
)
# Hebrew
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['cp424', 'cp1255'], # cp856, cp862, iso8859_8
+ encodings = ['cp856', 'cp424', 'cp1255'], # 'cp862', 'iso8859_8'
text = wl_test_lang_examples.ENCODING_HEB
)
# Icelandic
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # cp861, mac_iceland
+ encodings = [], # 'cp861', 'mac_iceland'
text = wl_test_lang_examples.ENCODING_ISL
)
# Japanese
check_encodings_detected(
test_file_dir = test_file_dir,
- # euc_jp, euc_jisx0213, iso2022_jp_1, iso2022_jp_2, iso2022_jp_2004, iso2022_jp_3, iso2022_jp_ext, shift_jis, shift_jis_2004, shift_jisx0213
+ # 'euc_jp', 'euc_jisx0213', 'iso2022_jp_1', 'iso2022_jp_2', 'iso2022_jp_2004', 'iso2022_jp_3', 'iso2022_jp_ext', 'shift_jis', 'shift_jis_2004', 'shift_jisx0213'
encodings = ['cp932', 'euc_jis_2004', 'iso2022_jp'],
text = wl_test_lang_examples.ENCODING_JPN
)
@@ -211,31 +223,32 @@ def test_detection_encoding():
# Korean
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['iso2022_kr', 'johab', 'cp949'], # euc_kr
+ encodings = ['iso2022_kr', 'johab', 'cp949'], # 'euc_kr'
text = wl_test_lang_examples.ENCODING_KOR
)
- # Nordic Languages
+ # Nordic languages
+ # e.g. Danish, Faroese, Icelandic, Norwegian, Swedish
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # cp865, iso8859_10
+ encodings = [], # 'cp865', 'iso8859_10'
text = wl_test_lang_examples.ENCODING_ISL
)
# Persian/Urdu
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # mac_farsi
+ encodings = [], # 'mac_farsi'
text = wl_test_lang_examples.ENCODING_URD
)
# Portuguese
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # cp860
+ encodings = [], # 'cp860'
text = wl_test_lang_examples.ENCODING_POR
)
# Romanian
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # mac_romanian
+ encodings = [], # 'mac_romanian'
text = wl_test_lang_examples.ENCODING_RON
)
# Russian
@@ -247,37 +260,37 @@ def test_detection_encoding():
# Tajik
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # koi8_t
+ encodings = ['koi8_t'],
text = wl_test_lang_examples.ENCODING_TGK
)
# Thai
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['iso8859_11'], # cp874, tis_620
+ encodings = ['cp874'], # 'iso8859_11', 'tis_620'
text = wl_test_lang_examples.ENCODING_THA
)
# Turkish
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['cp857', 'cp1254'], # cp1026, iso8859_9, mac_turkish
+ encodings = ['cp857', 'cp1254'], # 'cp1026', 'iso8859_9', 'mac_turkish'
text = wl_test_lang_examples.ENCODING_TUR
)
# Ukrainian
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = ['cp1125'], # koi8_u
+ encodings = ['cp1125', 'koi8_u'],
text = wl_test_lang_examples.ENCODING_UKR
)
# Urdu
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # cp1006
+ encodings = [], # 'cp1006'
text = wl_test_lang_examples.ENCODING_URD
)
# Vietnamese
check_encodings_detected(
test_file_dir = test_file_dir,
- encodings = [], # cp1258
+ encodings = [], # 'cp1258'
text = wl_test_lang_examples.ENCODING_VIE
)
except Exception as exc:
diff --git a/tests/wl_test_lang_examples.py b/tests/wl_test_lang_examples.py
index 9f71bec6f..fadeb3197 100644
--- a/tests/wl_test_lang_examples.py
+++ b/tests/wl_test_lang_examples.py
@@ -20,11 +20,11 @@
# Examples are extracted from Wikipedia in different languages
# Encodings
-ENCODING_ARA = '''ٱللُّغَةُ ٱلْعَرَبِيَّة هي أكثر اللغات السامية تحدثًا، وإحدى أكثر اللغات انتشاراً في العالم، يتحدثها أكثر من 467 مليون نسمة.(1) ويتوزع متحدثوها في الوطن العربي، بالإضافة إلى العديد من المناطق الأخرى المجاورة كالأحواز وتركيا وتشاد ومالي والسنغال وإرتيريا وإثيوبيا وجنوب السودان وإيران. وبذلك فهي تحتل المركز الرابع أو الخامس من حيث اللغات الأكثر انتشارًا في العالم، وهي تحتل المركز الثالث تبعًا لعدد الدول التي تعترف بها كلغة رسمية؛ إذ تعترف بها 27 دولة كلغة رسمية، واللغة الرابعة من حيث عدد المستخدمين على الإنترنت. اللغةُ العربيةُ ذات أهمية قصوى لدى المسلمين، فهي عندَهم لغةٌ مقدسة إذ أنها لغة القرآن، وهي لغةُ الصلاة وأساسيةٌ في القيام بالعديد من العبادات والشعائرِ الإسلامية. العربيةُ هي أيضاً لغة شعائرية رئيسية لدى عدد من الكنائس المسيحية في الوطن العربي، كما كُتبَت بها كثير من أهمِّ الأعمال الدينية والفكرية اليهودية في العصور الوسطى. ارتفعتْ مكانةُ اللغةِ العربية إثْرَ انتشارِ الإسلام بين الدول إذ أصبحت لغة السياسة والعلم والأدب لقرون طويلة في الأراضي التي حكمها المسلمون. وللغة العربية تأثير مباشر وغير مباشر على كثير من اللغات الأخرى في العالم الإسلامي، كالتركية والفارسية والأمازيغية والكردية والأردية والماليزية والإندونيسية والألبانية وبعض اللغات الإفريقية الأخرى مثل الهاوسا والسواحيلية والتجرية والأمهرية والصومالية، وبعض اللغات الأوروبية وخاصةً المتوسطية كالإسبانية والبرتغالية والمالطية والصقلية؛ ودخلت الكثير من مصطلحاتها في اللغة الإنجليزية واللغات الأخرى، مثل أدميرال والتعريفة والكحول والجبر وأسماء النجوم. كما أنها تُدرَّس بشكل رسمي أو غير رسمي في الدول الإسلامية والدول الإفريقية المحاذية للوطن العربي.
+ENCODING_ARA = '''ٱللُّغَةُ ٱلْعَرَبِيَّة هي أكثر اللغات السامية تحدثًا، وإحدى أكثر اللغات انتشاراً في العالم، يتحدثها أكثر من 467 مليون نسمة.[4](1) ويتوزع متحدثوها في الوطن العربي، بالإضافة إلى العديد من المناطق الأخرى المجاورة كالأحواز وتركيا وتشاد ومالي والسنغال وإرتيريا وإثيوبيا وجنوب السودان وإيران. وبذلك فهي تحتل المركز الرابع أو الخامس من حيث اللغات الأكثر انتشارًا في العالم،[5][6][7] وهي تحتل المركز الثالث تبعًا لعدد الدول التي تعترف بها كلغة رسمية؛ إذ تعترف بها 27 دولة لغةً رسميةً،[8] واللغة الرابعة من حيث عدد المستخدمين على الإنترنت.[9] اللغةُ العربيةُ ذات أهمية قصوى لدى المسلمين، فهي عندَهم لغةٌ مقدسة إذ أنها لغة القرآن، وهي لغةُ الصلاة وأساسيةٌ في القيام بالعديد من العبادات والشعائرِ الإسلامية.[10][11] العربيةُ هي أيضاً لغة شعائرية رئيسية لدى عدد من الكنائس المسيحية في الوطن العربي، كما كُتبَت بها كثير من أهمِّ الأعمال الدينية والفكرية اليهودية في العصور الوسطى. ارتفعتْ مكانةُ اللغةِ العربية إثْرَ انتشارِ الإسلام بين الدول إذ أصبحت لغة السياسة والعلم والأدب لقرون طويلة في الأراضي التي حكمها المسلمون. وللغة العربية تأثير مباشر وغير مباشر على كثير من اللغات الأخرى في العالم الإسلامي، كالتركية والفارسية والأمازيغية والكردية والأردية والماليزية والإندونيسية والألبانية وبعض اللغات الإفريقية الأخرى مثل الهاوسا والسواحيلية والتجرية والأمهرية والصومالية، وبعض اللغات الأوروبية وخاصةً المتوسطية كالإسبانية والبرتغالية والمالطية والصقلية؛ ودخلت الكثير من مصطلحاتها في اللغة الإنجليزية واللغات الأخرى، مثل أدميرال والتعريفة والكحول والجبر وأسماء النجوم. كما أنها تُدرَّس بشكل رسمي أو غير رسمي في الدول الإسلامية والدول الإفريقية المحاذية للوطن العربي.
-العربية لغةٌ رسمية في كل دول الوطن العربي إضافة إلى كونها لغة رسمية في تشاد وإريتريا. وهي إحدى اللغات الرسمية الست في منظمة الأمم المتحدة، ويُحتفل باليوم العالمي للغة العربية في 18 ديسمبر كذكرى اعتماد العربية بين لغات العمل في الأمم المتحدة. وفي سنة 2011 صنفت بلومبيرغ بيزنس ويك اللغة العربية في المرتبة الرابعة من حيث اللغات الأكثر فائدة في الأعمال التجارية على مستوى العالم. وفي 2013 نشر المجلس الثقافي البريطاني تقريرًا مفصلاً عن اللغات الأكثر طلباً في المملكة المتحدة تحت عنوان "لغات المستقبل" وتبين أن العربية تحتل المرتبة الثانية على مستوى العالم وفي عام 2017 احتلت المرتبة الرابعة. فيما يخص اللغات الأكثر جنيًا للأرباح في بريطانيا تأتي العربية في المرتبة الثانية وفقًا للمنظمة.
+العربية لغةٌ رسمية في كل دول الوطن العربي إضافة إلى كونها لغة رسمية في تشاد وإريتريا. وهي إحدى اللغات الرسمية الست في منظمة الأمم المتحدة، ويُحتفل باليوم العالمي للغة العربية في 18 ديسمبر كذكرى اعتماد العربية بين لغات العمل في الأمم المتحدة.[12] وفي سنة 2011 صنفت بلومبيرغ بيزنس ويك اللغة العربية في المرتبة الرابعة من حيث اللغات الأكثر فائدة في الأعمال التجارية على مستوى العالم.[13] وفي 2013 نشر المجلس الثقافي البريطاني تقريرًا مفصلاً عن اللغات الأكثر طلباً في المملكة المتحدة تحت عنوان "لغات المستقبل" وتبين أن العربية تحتل المرتبة الثانية على مستوى العالم وفي عام 2017 احتلت المرتبة الرابعة.[14][15][16] فيما يخص اللغات الأكثر جنيًا للأرباح في بريطانيا تأتي العربية في المرتبة الثانية وفقًا للمنظمة.[17][18][19][20]
-واللغة العربية من أغزر اللغات من حيث المادةِ اللغوية، فعلى سبيل المثال يحوي معجم لسان العرب لابن منظور من القرن الثالث عشر أكثر من 80 ألف مادة، بينما في اللغة الإنجليزية فإن قاموس صموئيل جونسون - وهو من أوائل من وضع قاموساً إنجليزياً من القرن الثامن عشر- يحتوي على 42 ألف كلمة.
+واللغة العربية من أغزر اللغات من حيث المادةِ اللغوية، فعلى سبيل المثال يحوي معجم لسان العرب لابن منظور من القرن الثالث عشر أكثر من 80 ألف مادة، بينما في اللغة الإنجليزية فإن قاموس صموئيل جونسون - وهو من أوائل من وضع قاموساً إنجليزياً من القرن الثامن عشر-[21] يحتوي على 42 ألف كلمة.[22]
تحتوي اللغة العربية 28 حرفاً مكتوباً. ويرى بعضُ اللغويين أنه يجب إضافة حرف الهمزة إلى حروف العربية، ليصبحَ عدد الحروف 29. تُكتب العربية من اليمين إلى اليسار - ومثلها اللغة الفارسية والعبرية على عكس كثير من اللغات العالمية - ومن أعلى الصفحة إلى أسفلها.'''
ENCODING_ZHO_CN = '''汉语又称中文、华语[6]、唐话[7],概指由上古汉语(先秦雅言)发展而来、书面使用汉字的分析语,为汉藏语系最大的一支语族。如把整个汉语族视为单一语言,则汉语为世界使用人数最多的语言,目前全世界有五分之一人口将汉语做为母语或第二语言。
@@ -45,95 +45,41 @@
漢語使用的文字是漢字,以漢字寫成的詞、詞組、句子、段落、文字作品,稱為中文(又稱華文、國文、漢文、唐文)。漢字是一種意音文字,表意之同時也具一定表音功能;而漢語屬分析語,且聲調辨義。
漢語包含書面語及口語兩部分,古代書面語稱為文言文,現代書面語一般指官話白話文,即使用標準官話文法、詞彙的中文通行文體。粵港澳等地又流行夾雜文言文、官話白話文及粵語白話文的三及第文體,吳語區亦偶有人書寫吳語白話文。漢字也被其他語言使用,並形成漢字文化圈。'''
-ENCODING_HRV = '''Hrvatski jezik (ISO 639-3: hrv) skupni je naziv za nacionalni standardni jezik Hrvata, te za skup narječja i govora kojima govore ili su nekada govorili Hrvati. Njime govori više od 5,5 milijuna ljudi,[2] poglavito Hrvata u Hrvatskoj, 3 980 000 (popis iz 2001.) i Bosni i Hercegovini, 469 000 (2004.).[3] Hrvatski je materinski jezik za Hrvate u drugim zemljama: Sjedinjenim Američkim Državama, 58 400 (popis iz 2000.);[1] Austriji, 19 400 (popis iz 2001.); Srbiji, 19 223 (popis iz 2011.);[4] Mađarskoj, 14 300 (popis iz 2001.); Italiji, 3500 (Vincent 1987.); Crnoj Gori, 6810 (2006.); Slovačkoj, 890 (popis iz 2001.).
+ENCODING_HRV = '''Hrvatski jezik (ISO 639-3: hrv) obuhvaća govoreni i pisani hrvatski standardni jezik i sve narodne govore kojima govore i pišu Hrvati.[4] Povijesno, obuhvaća sve govore i sve književne jezike izgrađene na tim govorima, kojima su se služili Hrvati.[5][6]
-Hrvatski je službeni jezik Republike Hrvatske te jedan od tri službena jezika Bosne i Hercegovine; također je jedan od 24 službena jezika Europske unije.[2]
+Njime govori više od 5,5 milijuna ljudi[2] u Hrvatskoj i hrvatskim zajednicama u inozemstvu. Hrvatskim jezikom kao materinskim služi se 3 687 735 stanovnika prema podatcima popisa stanovništva Hrvatske iz 2021.[7]
-Kao manjinski hrvatski jezik je u službenoj uporabi u nekim pokrajinama na ozemlju susjednih zemalja, tako je hrvatski jedan od službenih jezika u uporabi u crnogorskim općinama u Boki kotorskoj, zatim jedan je od sedam službenih jezika u srbijanskoj autonomnoj pokrajini Vojvodini,[5] lokalni idiomi hrvatskoga jezika u službenoj su uporabi u austrijskoj saveznoj zemlji Gradišću, te također u talijanskoj provinciji Moliseu i rumunjskoj županiji Karaš-Severin.
+Hrvatski je službeni jezik Republike Hrvatske, jedan od triju službenih jezika Bosne i Hercegovine te jedan od 24 službena jezika Europske unije.[2]
-Hrvatski jezik obuhvaća standardni, odnosno književni ili opći hrvatski jezik te sve narodne govore kojima se služe Hrvati.[3]
+Prema poredbenom jezikoslovlju hrvatski jezik jest sustav triju narječja:
-U genetsko-lingvističkom smislu hrvatski jezik je sustav triju narječja:
-
-štokavskog
-kajkavskog
čakavskog
-Makar je standardni hrvatski jezik očito najbliži štokavskom narječju, i preostala dva narječja su mnogo doprinijela njegovu formiranju, te jezikoslovac Radoslav Katičić i književnik Drago Štambuk promoviraju gledište da se hrvatski jezik uopće ne može sagledati izvan tog suodnosa njegovih triju narječja, koji nazivaju "zlatnom formulom hrvatskoga jezika ča-kaj-što".[6] Drago Štambuk se, konstatirajući da je hrvatski standard nastao uz jak doprinos sva tri hrvatska narječja, zalaže za (ponovno, i jače) "otvaranje prozorčića" na suvremenom književnom standardu, kako bi se omogućilo da ga dodatno "bogati i oplemenjuje leksik iz čakavice, kajkavice i dijalektalnih varijanti štokavice. Enormna je leksička pričuva hrvatskoga jezika, tolika da je hrvatski jezik kroz nju jedan od najbogatijih slavenskih jezika."[7]
-
-Nazivi narječja potječu od arhaičnog oblika odnosno-upitne zamjenice koja je glasila kъ, a kasnije je prešla u čь (ь i ъ oznake su za poluglase). U čakavskom se poluglas vokalizirao i prešao u a (a javljaju se i druge kombinacije če, ca, ce, ća, će...), u štokavskom se zamjenica čь povezala s to, čьto. Kasnije je polugas iščezao ostavivši čto, koje je zbog pojednostavnjivanja prešlo u što (a javljaju se i druge kombinacije šta, št'a, śta, što, št'o, śto...). U kajkavskom se arhaični oblik zamjenice kъ kombinirao s jь, pa je prelaskom u a prvog, a gubljenjem drugog poluglasa nastao kaj (a javljaju se i druge kombinacije kej, ke, ka...).
-
-Zanimljivost je da se slična, štokavska promjena, dogodila i u ruskom jeziku, no dok oni izgovaraju što, u pismu im je ostao arhaizam čto.
-
-Najstariju gramatika hrvatskog književnog jezika napisao je isusovac Bartol Kašić početkom 17. stoljeća: knjiga je objavljena u Rimu 1604. godine (tj. nedugo nakon prve gramatike engleskog jezika koju je William Bullokar objavio 1586. godine, te približno stoljeće i pol prije prvih gramatika ruskog jezika) pod imenom Institutionum linguae illyricae (Ustroj ilirskoga/hrvatskoga jezika): oslanjajući se na stoljetnu tradiciju hrvatskog pisanja na sva tri narječja, on se većinom oslanja na novoštokavsku jekavicu (koju zove "dubrovačkim" govorom) na koju 1630-ih godina prevodi Bibliju, te u ono doba po hrvatskim zemljama znatno raširenije štokavske ikavice (koju Kašić zove "bosanskim" govorom), kojom piše svoj Ritual Rimski (službena zbirka tekstova i uputa za bogoslužje) iz 1640. godine.
-
-Nakon što se tijekom narednih stoljeća brojna književna djela – pa i gramatike – pišu kako na novoštokavskoj ikavici, tako i na ijekavici[8] (također i na čakavskom, te osobito kajkavskom narječju), zaslugom Ilirskog pokreta sredinom 19. stoljeća sve više prevladava ijekavica; naposljetku krajem 19. stoljeća postaje za uporabu u školama obvezatan Hrvatski pravopis Ivana Broza iz 1892. godine, koji upućuje na službenu uporabu jekavske novoštokavice kakvu se – uz manje promjene – kao standardni hrvatski jezik koristi do danas.
-
-Do najnovijeg vremena, najveći dio hrvatskih govornika je izvan službenih prigoda govorio jednim od narječja hrvatskog jezika, koji se i danas puno koriste, osobito u ruralnim područjima. Standardni jezik koji se sve više upotrebljava kao govorni jezik u urbanim područjima, ima često regionalne posebnosti, koje u pravilu dolaze iz lokalnih dijalekata.
-
-Dijalektima čakavskoga i kajkavskoga narječja govore samo Hrvati (na južnoslavenskom dijalektalnom kontinuumu, možemo prepoznati srodnost hrvatskih kajkavskih govora s nekim slovenskim narječjima, napose s govorima Slovenaca uz granicu s Hrvatskom, pogotovo na područjima koja su nekoć crkveno ili upravno pripadala Hrvatskoj), dok se štokavskim narječjem uz Hrvate služe i Bošnjaci, Srbi te Crnogorci.
-
-Od štokavskih dijalekata Hrvati se u načelu služe sa sva četiri podrijetlom zapadnoštokavska dijalekta, a to su sjeverni (slavonski) dijalekt kojim govore samo Hrvati, zapadni (novoštokavska ikavica) dijalekt kojim većinom govore Hrvati i ponešto Bošnjaci u zapadnoj Bosni, istočni (istočnobosanski) dijalekt kojim se služe Hrvati i Bošnjaci te južni (novoštokavska jekavica) dijalekt koji rabe Hrvati na više terena i osobito na širem dubrovačkome području, ali i drugi južnoslavenski narodi koji se služe sličnim ijekavskim poddijalektima.[3]
-
-Granični dijalekti kajkavskog narječja; Donjosutlanski, Goranski i Prigorski posjeduju vezu ili prijelaz prema čakavštini, a jugoistočna podgrupa čakavskog narječja; južnočakavski, lastovski i jugozapadni istarski posjeduje vezu ili prijelaz prema (zapadnoj) štokavštini, dok sjeverozapadna (sjevernočakavski i buzetski) i središnja podgrupa (srednječakavski) dijeli više isoglosa s kajkavštinom.
-
-Šćakavski dijelekti (slavonski i istočnobosanski), djele niz sličnosti s čakavštinom, dok sjever slavonskog posjeduje i prijelaz prema kajkavskim govorima. Novoštokavski dijalekti (zapadni i južni) dijele pojedine isoglose s južnom podgrupom čakavskog narječja.
-
-Više informacija o narječjima i njihovom razvitku se može naći ovdje.
-
-Hrvatske manjinske zajednice
-Hrvati u Gradišću (Austrija, Mađarska, Slovačka, Češka) služe se najviše dijalektima čakavskoga narječja u središnjem Gradišću, zatim štokavskoga narječja u južnom Gradišću i kajkavskoga narječja u sjevernom Gradišću, no oni rabe vlastiti zajednički standardizirani oblik gradišćanskohrvatskoga mikrojezika. Hrvati u talijanskoj pokrajini Molise služe se štokavsko-čakavskim narječjem, a Hrvati Krašovani u Rumunjskoj pod utjecajem okoline razvili su jedan specifičan karaševski govor koji danas po svojim svojstvima spada pod torlačko narječje (neekavsko, jer pod akcentom imaju zatvoreno e od jata, izvan akcenta i)[9]), (u Rekašu na rumunjsko-srbijanskoj granici Hrvatska manjina rabi – kosovsko–resavski dijalekt odnosno rekaške govore, Hrvati po istočnom Srijemu služe se vojvođanskim dijalektom ili iločkim dijalektom, a Hrvati u Boki kotorskoj zetsko–južnosandžačkim ili bokeljsko-perojskim, Hrvati koji obitavaju na Kosovu u Janjevu i Letnici razvili su govore torlačkoga narječja, odnosno Janjevačko-lepenički dijalekt.[10] Svi ti dijalekti pripadaju srednjojužnoslavenskom dijasustavu slavenske jezične grane.[11]'''
-ENCODING_ENG = '''English is a West Germanic language in the Indo-European language family that originated in early medieval England.[3][4][5] It is the most spoken language in the world[6] and the third most spoken native language in the world, after Standard Chinese and Spanish.[7] Today, English is the primary language of the Anglosphere, which is usually defined as the United States, the United Kingdom, Canada, Australia, and New Zealand. English is also the primary language of the Republic of Ireland, although it is not typically included within the Anglosphere.
-
-"English" is named after the Angles, one of the ancient Germanic peoples that migrated to the island of Great Britain. Existing on a dialect continuum with Scots and then most closely related to the Low Saxon and Frisian languages, Modern English is genealogically Germanic. Although its grammar and core vocabulary are mostly West Germanic, it has borrowed many words from French, which represent approximately 28% of English words, and Latin, which represents about 28%,[8] and some grammar and core vocabulary from Old Norse, a North Germanic language.[9][10][11] Speakers of English are called Anglophones.
-
-The English language was used in some of the world's earliest and most prestigious universities, including the University of Oxford in Oxford, the world's second-oldest university founded in 1096, and the University of Cambridge in Cambridge, the world's third-oldest university founded in 1209, which educated some of the most notable political, scientific, literary, and intellectual leaders of the era.[12]
-
-The earliest forms of English, collectively known as Old English or "Anglo-Saxon", evolved from a group of North Sea Germanic dialects brought to Great Britain by Anglo-Saxon settlers in the 5th century; these dialects generally resisted influence from the then-local Common Brittonic and British Latin languages. Old English dialects were later influenced by Old Norse-speaking Viking settlers and invaders, starting in the 8th and 9th centuries. Old Norse retained considerable mutual intelligibility with certain dialects of Old English, especially more northern dialects. Middle English began in the late 11th century after the Norman Conquest of England, when considerable Old French, especially Old Norman French, and Latin-derived vocabulary was incorporated into English over some three hundred years.[13][14]
-
-Early Modern English began in the late 15th century with the start of the Great Vowel Shift and the Renaissance trend of borrowing further Latin and Greek words and roots into English, concurrent with the introduction of the printing press to London. This era notably culminated in the King James Bible and the works of William Shakespeare.[15][16] The printing press greatly standardised English spelling,[citation needed] which has remained largely unchanged since then, despite a wide variety of later sound shifts in different English dialects.
-
-Modern English grammar is the result of a gradual change from a typical Indo-European dependent-marking pattern with a rich inflectional morphology and relatively free word order to a mostly analytic pattern with little inflection and a fairly fixed subject–verb–object word order.[17] Modern English relies more on auxiliary verbs and word order for the expression of complex tenses, aspects and moods, as well as passive constructions, interrogatives, and some negation.
-
-Modern English has spread around the world since the 17th century as a consequence of the worldwide influence of the British Empire and the United States of America. Through all types of printed and electronic media in these countries, English has become the leading language of international discourse and the lingua franca in many regions and professional contexts such as science, navigation, and law.[3]
-
-English is the most widely learned second language and is either the official language or one of the official languages in 59 sovereign states. There are more people who have learned English as a second language than there are native speakers. As of 2005, it was estimated that there were over two billion speakers of English.[18]
-
-In addition to the Anglosphere, English is also widely spoken in areas of the Caribbean, Africa, South Asia, Southeast Asia, and Oceania.[19] It is a co-official language of the United Nations, the European Union, and many other international and regional organisations. English accounts for at least 70% of speakers of the Germanic language branch of the Indo-European family.'''
-ENCODING_EST = '''Eesti keel (varasem nimetus maakeel) on läänemeresoome lõunarühma kuuluv keel.
-
-Eesti keel on Eesti riigikeel ja 2004. aastast ka üks Euroopa Liidu ametlikke keeli.
-
-2012. aasta seisuga kõneles eesti keelt emakeelena umbes 922 000 inimest Eestis ja 160 000 mujal maailmas ning võõrkeelena 168 000 inimest.[1] 2021. aasta rahvaloenduse andmetel oskas eesti keelt 84% Eesti rahvastikust: emakeelena 895 493 inimest ehk 67% ja võõrkeelena 223 950 inimest ehk 17%.
-
-Eesti keelel on kaks suuremat murderühma (põhjaeesti ja lõunaeesti), mõnes käsitluses eristatakse ka kirderanniku murdeid eraldi murderühmana. Liikumisvõimaluste laienemine ning põhjaeesti keskmurde alusel loodud normitud eesti kirjakeele kasutus on põhjustanud murdeerinevuste taandumise.
-
-Nelja piirkondliku põhivariandiga lõunaeesti murderühma käsitletakse vahel ka eraldi lõunaeesti keelena. Lõunaeesti keele suurima kõnelejate arvuga võru murret ehk võru keelt käsitletakse vahel samuti omaette keelena. Setu keelt peetakse enamasti aga võru keele variandiks.
-
-Eesti keele harukordsusi on hääliku kolm pikkusastet: lühike, pikk ja ülipikk. Eri pikkusaste võib anda sõnale eri vormi või tähenduse – näiteks /linn/, /linˑa/ (omastav kääne) ja /lin:a/ (sisseütlev kääne); või /vala/ (käskiv kõneviis sõnast valama), /vaˑla/ (omastav kääne sõnast vaal) ja /vaːla/ (osastav kääne sõnast vaal).[viide?]
-
-Võrdlevgrammatiliste uurimuste järgi on eesti keel maailma keerukamaid keeli.[2]
+kajkavskog
+štokavskog.
+Proučavanje hrvatskog jezika cilj je znanstvene discipline kroatistike.'''
+ENCODING_ENG = '''English is a West Germanic language in the Indo-European language family, whose speakers, called Anglophones, originated in early medieval England.[4][5][6] The namesake of the language is the Angles, one of the ancient Germanic peoples that migrated to the island of Great Britain. Modern English is both the most spoken language in the world[7] and the third-most spoken native language, after Mandarin Chinese and Spanish.[8] It is also the most widely learned second language in the world, with more second-language speakers than native speakers.
-Eesti keelt uuritakse Eesti Keele Instituudis, Tartu Ülikoolis, Tallinna Ülikoolis ja veel mitmes teadusasutuses mujal maailmas.
+English is either the official language or one of the official languages in 59 sovereign states (such as in India, Ireland, and Canada). In some other countries, it is the sole or dominant language for historical reasons without being explicitly defined by law (such as in the United States or United Kingdom).[9] It is a co-official language of the United Nations, the European Union, and many other international and regional organisations. English accounts for at least 70% of total speakers of the Germanic language branch, and as of 2005, it was estimated that there were over two billion speakers worldwide.[10]
-Eesti keel on Internetis levikult 39. kohal, 2019. aasta seisuga oli 0,1% veebisaite eestikeelsed.[3] Eestikeelne Vikipeedia oli sel aastal artiklite arvult 45. kohal[4].'''
-ENCODING_FRA = '''Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés francophones. Elle est parfois surnommée la langue de Molière.
+Old English emerged from a group of West Germanic dialects spoken by the Anglo-Saxons. Late Old English borrowed some grammar and core vocabulary from Old Norse, a North Germanic language.[11][12][13] Then, Middle English borrowed words extensively from French dialects, which make up about 28% of Modern English words, and from Latin, which also provides about 28%.[14] Thus, although most of its vocabulary now comes from Romance languages, its grammar, phonology, and most commonly-used words keep it genealogically classified under the Germanic branch. English exists on a dialect continuum with Scots and then is most closely related to the Low Saxon and Frisian languages.'''
+ENCODING_FRA = '''Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés francophones. Elle est parfois surnommée la « langue de Molière ».
Le français est parlé, en 2023, sur tous les continents par environ 321 millions de personnes5,2 : 235 millions l'emploient quotidiennement et 90 millions3 en sont des locuteurs natifs. En 2018, 80 millions d'élèves et étudiants s'instruisent en français dans le monde6. Selon l'Organisation internationale de la francophonie (OIF), il pourrait y avoir 700 millions de francophones sur Terre en 20507.
-Le français est la cinquième langue la plus parlée au monde après l'anglais, le mandarin, le hindi et l'espagnol. Elle est également la deuxième langue la plus apprise sur le globe, la troisième langue des affaires et du commerce, la quatrième langue employée sur Internet8.
+Le français est la cinquième langue parlée au monde après l'anglais, le mandarin, le hindi et l'espagnol. Elle est également la deuxième langue apprise sur le globe, la troisième langue des affaires et du commerce, la quatrième langue employée sur Internet8. Le français se classe deuxième parmi les langues étrangères les plus fréquemment enseignées à travers le monde7. Il est également la quatrième langue utilisée sur internet après l'espagnol, le mandarin et l'anglais9, langue dont le vocabulaire a été fortement enrichi par le français.
Dans le monde, 28 États ont le français comme langue officielle. C'est une des six langues officielles ainsi qu'une des deux langues de travail de l'Organisation des Nations unies. Le français est une langue officielle ou de travail de nombreuses organisations gouvernementales internationales, parmi lesquelles l'Union postale universelle ou les trois autorités mondiales de régulation du système métrique. Il est aussi langue officielle ou de travail de nombreuses organisations gouvernementales régionales, telles que l'Union africaine ou l’Union européenne, et est aussi langue officielle ou de travail de nombreuses organisations non gouvernementales internationales, comme le Comité international olympique ou le Mouvement international de la Croix-Rouge et du Croissant-Rouge.
L'histoire du français et des francophones est celle de la rencontre et de l'échange entre de nombreux peuples. Le français est une variété de la langue d'oïl, un groupe de langues romanes parlées originellement dans la partie septentrionale du domaine gallo-roman, sur le territoire des actuelles France, Suisse et Belgique. Les langues gallo-romanes résultent de l'évolution, sous l'influence de langues germaniques, tel que le vieux-francique des Francs, du latin populaire parlé en Gaule par les Gallo-Romains. Ces derniers formaient un ensemble de peuples d'origines principalement celtes qui furent progressivement romanisés à la suite de la conquête romaine de la région, terminée aux alentours de 52 av. J.-C. En 843, l'historien franc Nithard, petit-fils de Charlemagne, produit ce qui est considéré comme le premier texte connu en langue française. Il s'agit d'une chronique qui retranscrit les serments d'alliance, prononcés à Strasbourg l'année précédente, par Louis le Germanique, premier souverain allemand.
-Durant le Moyen Âge européen, en particulier entre le xe et le xiiie siècle, alors que le système de déclinaisons de l'ancien français s'effondre, les langues d'oïl commencent à se diffuser hors de leur domaine d'origine du fait des invasions normandes des îles Britanniques, du sud de l'Italie ou bien des croisades qui, en établissant des États latins au Levant, font du français une base de la lingua franca méditerranéenne. En 1539, par l’ordonnance de Villers-Cotterêts, le moyen français, langue maternelle des dynasties capétiennes, devient une langue juridique et administrative en France. À la même période, il commence à se diffuser plus massivement hors d'Europe, d'abord en Amérique, puis en Afrique, en Asie et en Océanie, sous l'effet de l'expansion des empires coloniaux français puis belges. À partir du xviie siècle, dans les océans Atlantique, Indien et Pacifique, les déportations de populations pratiquées par les empires européens vers leurs colonies amènent, dans un contexte principalement d'esclavage, à la formation de nombreux créoles à base lexicale française. En 1794, par le décret révolutionnaire du 2 thermidor an II et malgré le fait qu'il ait été, sous l'Ancien Régime, la langue des cours royales et princières européennes, le français classique, langue des Lumières, devient la seule langue officielle de la Première République française9. Une des particularités du français se trouve dans le fait que son développement et sa codification ont été en partie l'œuvre de groupes intellectuels, comme la Pléiade, ou d'institutions, comme l'Académie française. Le français est ainsi souvent considéré comme une langue « académique ». À partir du xixe siècle, et malgré quelques réformes au cours des siècles suivants, son orthographe codifiée commence à se figer. Elle est considérée comme transparente dans le sens de la lecture, mais opaque dans le sens de l'écriture. Au cours du xxe siècle, le français devient une langue d'envergure mondiale en même temps qu'il s'émancipe de l'Europe : à partir de ce siècle le nombre de francophones vivant hors d'Europe dépasse le nombre de locuteurs sur le continent d'origine de la langue.
+Durant le Moyen Âge européen, en particulier entre le xe et le xiiie siècle, alors que le système de déclinaisons de l'ancien français s'effondre, les langues d'oïl commencent à se diffuser hors de leur domaine d'origine du fait des invasions normandes des îles Britanniques, du sud de l'Italie ou bien des croisades qui, en établissant des États latins au Levant, font du français une base de la lingua franca méditerranéenne. En 1539, par l’ordonnance de Villers-Cotterêts, le moyen français, langue maternelle des dynasties capétiennes, devient une langue juridique et administrative en France. À la même période, il commence à se diffuser plus massivement hors d'Europe, d'abord en Amérique, puis en Afrique, en Asie et en Océanie, sous l'effet de l'expansion des empires coloniaux français puis belges. À partir du xviie siècle, dans les océans Atlantique, Indien et Pacifique, les déportations de populations pratiquées par les empires européens vers leurs colonies amènent, dans un contexte principalement d'esclavage, à la formation de nombreux créoles à base lexicale française.
-Entre le 16 mars et le 20 mars 1970 et sous l'impulsion de ceux qui deviendront les « cinq pères fondateurs de la Francophonie » — Léopold Sédar Senghor, poète, écrivain et premier président de la république du Sénégal, Habib Bourguiba, avocat et premier président de la République tunisienne, Hamani Diori, professeur et premier président de la république du Niger, Norodom Sihanouk, roi du Cambodge et Jean-Marc Léger, écrivain et journaliste canadien — a lieu, dans la salle des séances de l'Assemblée nationale du Niger, la conférence de Niamey. Celle-ci, une des premières conférences réunissant les gouvernements des états francophones, établit l'Agence de coopération culturelle et technique, le premier organisme intergouvernemental francophone, et jette ainsi les bases pour la création d'une Organisation internationale de la francophonie (OIF) qui réunirait les peuples partageant la langue française. En commémoration de cet évènement, les états membres de l'Organisation font en 1988 du 20 mars la Journée internationale de la francophonie. En 1989, ont lieu au Maroc les premiers jeux de la Francophonie qui réunissent pour la première fois les athlètes de la communauté francophone autour de la langue qu'ils partagent. En 1997, à Hanoï, capitale du Viêt Nam, les États francophones adoptent la Charte institutionnelle de la Francophonie qui sera complétée en 2005 à Antananarivo, capitale de Madagascar, par la Charte de la Francophonie. Ces deux chartes présentent l'importance du multilinguisme pour le monde francophone, les valeurs de solidarité, d'égalité et de fraternité entre les peuples qui doivent être véhiculées par la langue française, vecteur de progrès et de modernité, ainsi que le rôle actif que doivent exercer les francophones pour la préservation de la diversité linguistique et culturelle. En 2010, l'Organisation des Nations unies déclare que le 20 mars de chaque année sera observée à travers le monde la Journée de la langue française en souvenir de la conférence de Niamey. Les organisations francophones proposent autour de cette date des semaines d'échanges et de discussions souvent appelées semaines de la langue française et de la francophonie.
+En 1794, par le décret révolutionnaire du 2 thermidor an II et malgré le fait qu'il ait été, sous l'Ancien Régime, la langue des cours royales et princières européennes, le français classique, langue des Lumières, devient la seule langue officielle de la Première République française10. Une des particularités du français se trouve dans le fait que son développement et sa codification ont été en partie l'œuvre de groupes intellectuels, comme la Pléiade, ou d'institutions, comme l'Académie française. Le français est ainsi souvent considéré comme une langue « académique ». À partir du xixe siècle, et malgré quelques réformes au cours des siècles suivants, son orthographe codifiée commence à se figer. Elle est considérée comme transparente dans le sens de la lecture, mais opaque dans le sens de l'écriture. Au cours du xxe siècle, le français devient une langue d'envergure mondiale en même temps qu'il s'émancipe de l'Europe : à partir de ce siècle le nombre de francophones vivant hors d'Europe dépasse le nombre de locuteurs sur le continent d'origine de la langue.
-La langue française est un attribut culturel souverain pour de nombreux peuples et États comme en France où depuis 1992 « la langue de la République est le français » ou au Québec où depuis 1977 elle « permet au peuple québécois d’exprimer son identité ». Elle est également le principal véhicule des cultures francophones dans le monde et le moyen principal d'expression de leurs pensées. La langue, parfois surnommée « langue de Molière10 », ne cesse de s'enrichir que ce soit de façon formelle, par des décrets par exemple, mais aussi de façon informelle.
+Entre le 16 mars et le 20 mars 1970 et sous l'impulsion de ceux qui deviendront les « cinq pères fondateurs de la Francophonie » — Léopold Sédar Senghor, poète, écrivain et premier président de la république du Sénégal, Habib Bourguiba, avocat et premier président de la République tunisienne, Hamani Diori, professeur et premier président de la république du Niger, Norodom Sihanouk, roi du Cambodge et Jean-Marc Léger, écrivain et journaliste canadien — a lieu, dans la salle des séances de l'Assemblée nationale du Niger, la conférence de Niamey. Celle-ci, une des premières conférences réunissant les gouvernements des états francophones, établit l'Agence de coopération culturelle et technique, le premier organisme intergouvernemental francophone, et jette ainsi les bases pour la création d'une Organisation internationale de la francophonie (OIF) qui réunit les peuples partageant la langue française. En 1988, en commémoration de cet évènement, les États membres de l'Organisation font du 20 mars la Journée internationale de la francophonie. En 1989, ont lieu au Maroc les premiers jeux de la Francophonie qui réunissent pour la première fois les athlètes de la communauté francophone autour de la langue qu'ils partagent. En 1997, à Hanoï, capitale du Viêt Nam, les États francophones adoptent la Charte institutionnelle de la Francophonie qui sera complétée en 2005 à Antananarivo, capitale de Madagascar, par la Charte de la Francophonie. Ces deux chartes présentent l'importance du multilinguisme pour le monde francophone, les valeurs de solidarité, d'égalité et de fraternité entre les peuples qui doivent être véhiculées par la langue française, vecteur de progrès et de modernité, ainsi que le rôle actif que doivent exercer les francophones pour la préservation de la diversité linguistique et culturelle. En 2010, l'Organisation des Nations unies déclare que le 20 mars de chaque année sera observée à travers le monde la Journée de la langue française en souvenir de la conférence de Niamey. Les organisations francophones proposent autour de cette date des semaines d'échanges et de discussions souvent appelées « Semaine de la langue française et de la francophonie ».
-Le français est la deuxième langue parmi les langues étrangères les plus fréquemment enseignées à travers le monde, y compris aux États-Unis7. Il est également la quatrième langue la plus utilisée sur internet après l'espagnol, le mandarin et l'anglais11, langue dont le vocabulaire a été fortement enrichi par le français.'''
-ENCODING_DEU = '''Die deutsche Sprache bzw. Deutsch ([dɔɪ̯tʃ][25]) ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.
+La langue française est un attribut culturel souverain pour de nombreux peuples et États comme en France où depuis 1992 « la langue de la République est le français » ou au Québec où depuis 1977 elle « permet au peuple québécois d’exprimer son identité ». Elle est également le principal véhicule des cultures francophones dans le monde et le moyen principal d'expression de leurs pensées. La langue, parfois surnommée « langue de Molière11 », ne cesse de s'enrichir que ce soit de façon formelle, par des décrets par exemple, mais aussi de façon informelle.'''
+ENCODING_DEU = '''Die deutsche Sprache bzw. Deutsch [dɔɪ̯tʃ][25] ist eine westgermanische Sprache, die weltweit etwa 90 bis 105 Millionen Menschen als Muttersprache und weiteren rund 80 Millionen als Zweit- oder Fremdsprache dient.
Das Deutsche ist eine plurizentrische Sprache, enthält also mehrere Standardvarietäten in verschiedenen Regionen. Ihr Sprachgebiet umfasst Deutschland, Österreich, die Deutschschweiz, Liechtenstein, Luxemburg, Ostbelgien, Südtirol, das Elsass und Lothringen sowie Nordschleswig. Außerdem ist Deutsch eine Minderheitensprache in einigen europäischen und außereuropäischen Ländern, z. B. in Rumänien und Südafrika sowie Nationalsprache im afrikanischen Namibia. Deutsch ist die meistgesprochene Muttersprache in der Europäischen Union (EU).[26]
@@ -144,7 +90,7 @@
Die wissenschaftliche Disziplin, die die deutsche Sprache und Literatur in ihren historischen und gegenwärtigen Formen dokumentiert und vermittelt, wird Germanistik genannt (dieser Ausdruck bezieht sich also meist nicht auf die germanischen Sprachen insgesamt).'''
ENCODING_ELL = '''Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια[9] και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου, ενώ είναι η επίσημη γλώσσα της Ελλάδας και της Κύπρου. Ανήκει επίσης στο βαλκανικό γλωσσικό δεσμό. Στην ελληνική γλώσσα, έχουμε γραπτά κείμενα ήδη από τον 15ο αιώνα π.Χ.. Σαν Παγκόσμια Ημέρα Ελληνικής Γλώσσας, κάθε έτος, έχει καθιερωθεί η 9η Φεβρουαρίου. Έχει την μακροβιότερη καταγεγραμμένη ιστορία από οποιαδήποτε άλλη ζωντανή ινδοευρωπαϊκή γλώσσα με τουλάχιστον 3.400 χρόνια γραπτής ιστορίας.[10] Γράφεται με το ελληνικό αλφάβητο, το οποίο χρησιμοποιείται αδιάκοπα (αρχικά με τοπικές παραλλαγές, μετέπειτα υπό μια, ενιαία μορφή) εδώ και περίπου 2.600 χρόνια.[11][12] Προηγουμένως η ελληνική γλώσσα γραφόταν με τη Γραμμική Β και το κυπριακό συλλαβάριο.[13] Το ελληνικό αλφάβητο προέρχεται από το φοινικικό αλφάβητο, με κάποιες προσαρμογές. Στο ελληνικό αλφάβητο βασίζεται το λατινικό, το κυριλλικό, το αρμενικό, το κοπτικό, το γοτθικό και πολλά άλλα αλφάβητα.
-Η ελληνική γλώσσα κατέχει υψηλή -ιστορική- θέση στην ιστορία του Δυτικού κόσμου.[14] Ξεκινώντας με τα Ομηρικά έπη, η αρχαία ελληνική λογοτεχνία περιλαμβάνει πολλά σημαντικά έργα της Ευρωπαϊκής λογοτεχνίας. Η ελληνική γλώσσα είναι η γλώσσα με την οποία συντέθηκαν πολλά από τα θεμελιώδη επιστημονικά και φιλοσοφικά κείμενα. Η Καινή Διαθήκη γράφτηκε στα ελληνικά και έπειτα μεταφράστηκε σε άλλες γλώσσες.[15][16] Μαζί με τα λατινικά κείμενα και τις παραδόσεις του Ρωμαϊκού κόσμου, τα ελληνικά κείμενα και η ελληνική κοινωνία της αρχαιότητας αποτελούν μέρος της κλασικής επιστήμης.
+Η ελληνική γλώσσα κατέχει υψηλή -ιστορική- θέση στην ιστορία του Δυτικού κόσμου.[14] Ξεκινώντας με τα Ομηρικά έπη, η αρχαία ελληνική λογοτεχνία περιλαμβάνει πολλά σημαντικά έργα της Ευρωπαϊκής λογοτεχνίας. Η ελληνική γλώσσα είναι η γλώσσα με την οποία συντέθηκαν πολλά από τα θεμελιώδη επιστημονικά και φιλοσοφικά κείμενα. Η Καινή Διαθήκη γράφτηκε στα ελληνικά και έπειτα μεταφράστηκε σε άλλες γλώσσες.[15][16] Μαζί με τα λατινικά κείμενα και τις παραδόσεις του Ρωμαϊκός κόσμος, τα ελληνικά κείμενα και η ελληνική κοινωνία της αρχαιότητας αποτελούν μέρος της κλασικής επιστήμης.
Κατά τη διάρκεια της αρχαιότητας, η ελληνική ήταν η κύρια γλώσσα του μεσογειακού κόσμου. Έγινε έπειτα η επίσημη γλώσσα της Βυζαντινής Αυτοκρατορίας και εξελίχθηκε στα Μεσαιωνικά Ελληνικά.[17] Στη σύγχρονη μορφή της τα ελληνικά είναι η επίσημη γλώσσα της Ελλάδας και της Κύπρου και μια από τις 24 επίσημες γλώσσες της Ευρωπαϊκής Ένωσης. Την ομιλούν, ως μητρική γλώσσα, τουλάχιστον 13,5 εκατομμύρια άνθρωποι στην Ελλάδα, την Κύπρο, την Ιταλία, την Αλβανία, την Τουρκία και την ελληνική διασπορά. Επίσης εκατομμύρια άτομα γνωρίζουν ελληνικά, είτε την αρχαία μορφή της ή τα νέα ελληνικά.
@@ -153,7 +99,7 @@
Ο συνολικός αριθμός των ανθρώπων που μιλούν τα νέα ελληνικά ως μητρική τους γλώσσα είναι περίπου 14 εκατομμύρια άτομα. Οι περισσότεροι από αυτούς είναι Έλληνες στην εθνικότητα, αν και στην Ελλάδα χρησιμοποιείται επίσης ευρέως από αρκετούς εξελληνισμένους Αρωμάνους, Μεγλενορουμάνους, Τσιγγάνους, Αλβανούς, Σλάβους και μια σειρά από μουσουλμανικές εθνότητες στα βόρεια της χώρας. Χάρη στους αυξημένους οικονομικούς δεσμούς της Ελλάδας με άλλες βαλκανικές χώρες, καθώς και χάρη στις μαζικές μεταναστεύσεις προς την Ελλάδα και την Κύπρο τα τελευταία είκοσι χρόνια, ένας σημαντικός αριθμός κατοίκων στις χώρες που συνορεύουν με την Ελλάδα μιλάει και ελληνικά. Ελληνόγλωσσοι υπάρχουν πάρα πολλοί στην Αλβανία, όπου ομιλείται ευρέως στα νότια της χώρας και στις μεγάλες πόλεις και είναι ουσιαστικά η γλώσσα εργασίας σε τρεις δήμους της Αλβανίας. Ως σημαντική γλώσσα της διασποράς, τα ελληνικά χρησιμοποιούνται μεταξύ των Ελλήνων της Αυστραλίας, του Καναδά και των ΗΠΑ. Ο συνολικός αριθμός των ανθρώπων που μιλούν την ελληνική ως ξένη γλώσσα κυμαίνεται στα 3 με 5 εκατομμύρια άτομα.
Η ελληνική λογοτεχνία έχει πλούσια παραγωγή σε όλα τα στάδια της ιστορίας της. Στη Ρωμαϊκή Αυτοκρατορία η γνώση της ελληνικής γλώσσας θεωρούνταν υποχρέωση του κάθε μορφωμένου Ρωμαίου. Τα λατινικά έχουν δανειστεί μεγάλο αριθμό ελληνικών δανείων και αντιθέτως ελληνικά έχουν σημαντικό αριθμό λατινικών και ρομανικών λέξεων.'''
-ENCODING_HEB = '''שם השפה עברית פירושה "לשונו של עֵבֶר",[2] ונגזר מהשם של הדמות המקראית עֵבֶר, אביהם הקדמון של עמים רבים, בהם עם ישראל. לפי המסורת היהודית,[3] עבר סירב לקחת חלק בבניית מגדל בבל, ועל כן הוא וצאצאיו לא נענשו על בניית המגדל, ושפתם לא נתבלבלה. עבר שימר את השפה האוניברסלית המקורית - העברית.
+ENCODING_HEB = '''שם השפה עברית פירושו "לשונו של עֵבֶר",[2] ונגזר מהשם של הדמות המקראית עֵבֶר, אביהם הקדמון של עמים רבים, בהם עם ישראל. לפי המסורת היהודית,[3] עבר סירב לקחת חלק בבניית מגדל בבל, ועל כן הוא וצאצאיו לא נענשו על בניית המגדל, ושפתם לא נתבלבלה. עבר שימר את השפה האוניברסלית המקורית - העברית.
...אבל אברהם אבינו עצמו היה בדור הָפַּלָּגָה ונשאר הוא וקרוביו בלשון עֵבֶר, אבי אביו, ולזה נקרא עִבְרִי... ...כי כל הלשונות אשר היו לפניהם חמש מאות שנה היו לשון עבר לבדה ונפלגה בבבל בימי פֶּלֶג...
— רבי יהודה הלוי, ספר הכוזרי, פרק א, סעיף מט
@@ -170,11 +116,11 @@
הניב התנ"כי מכונה "לשון המקרא", כדי להבדילו מלשון חז"ל המכונה גם "לשון חכמים", שהיא בעצם ניב מאוחר של עברית.
בברית החדשה משמש המונח "עברית" כשם לשפה הארמית שדוברה על ידי ה"עבריים" (תושבי עבר הנהר) בארץ ישראל, אולם בספרות חז"ל משמש מונח זה רק לעברית (המשנאית).[13]'''
-ENCODING_ISL = '''Íslenska er vesturnorrænt, germanskt og indóevrópskt tungumál sem er einkum talað og ritað á Íslandi og er móðurmál langflestra Íslendinga.[5] Það hefur tekið minni breytingum frá fornnorrænu en önnur norræn mál[5] og er skyldara norsku og færeysku en sænsku og dönsku.[2][3]
+ENCODING_ISL = '''Íslenska er vesturnorrænt, germanskt og indóevrópskt tungumál sem er einkum talað og ritað á Íslandi og er móðurmál langflestra Íslendinga.[6] Það hefur tekið minni breytingum frá fornnorrænu en önnur norræn mál[6] og er skyldara norsku og færeysku en sænsku og dönsku.[3][4]
-Ólík mörgum öðrum vesturevrópskum tungumálum hefur íslenskan ítarlegt beygingarkerfi. Nafnorð og lýsingarorð eru beygð jafnt sem sagnir. Fjögur föll eru í íslensku, eins og í þýsku, en íslenskar nafnorðsbeygingar eru flóknari en þær þýsku. Beygingarkerfið hefur ekki breyst mikið frá víkingaöld, þegar Norðmenn komu til Íslands með norræna tungumál sitt.
+Ólík mörgum öðrum vesturevrópskum tungumálum hefur íslenskan ítarlegt beygingarkerfi. Nafnorð og lýsingarorð eru beygð jafnt sem sagnir. Fjögur föll eru í íslensku, eins og í þýsku, en íslenskar nafnorðabeygingar eru flóknari en þær þýsku. Beygingarkerfið hefur ekki breyst mikið frá víkingaöld, þegar Norðmenn komu til Íslands með norræna tungumál sitt.
-Meirihluti íslenskumælenda býr á Íslandi, eða um 300.000 manns.[1] Um 8.000 íslenskumælendur búa í Danmörku, en þar af eru 3.000 nemendur. Í Bandaríkjunum eru talendur málsins um 5.000, og í Kanada 1.400. Stærsti hópur kanadískra íslenskumælenda býr í Manitoba, sérstaklega í Gimli, þar sem Vestur-Íslendingar settust að. Þó að 97% Íslendinga telji íslensku móðurmál sitt er tungumálið nokkuð í rénun utan Íslands. Þeir sem tala íslensku utan Íslands eru oftast aðfluttir Íslendingar, nema í Gimli þar sem íslenskumælendur hafa búið frá 1880.
+Meirihluti íslenskumælenda býr á Íslandi, eða um 300.000 manns.[7] Um 8.000 íslenskumælendur búa í Danmörku, en þar af eru 3.000 nemendur. Í Bandaríkjunum eru talendur málsins um 5.000, og í Kanada 1.400. Stærsti hópur kanadískra íslenskumælenda býr í Manitoba, sérstaklega í Gimli, þar sem Vestur-Íslendingar settust að. Þó að 97% Íslendinga telji íslensku móðurmál sitt er tungumálið nokkuð í rénun utan Íslands. Þeir sem tala íslensku utan Íslands eru oftast aðfluttir Íslendingar, nema í Gimli þar sem íslenskumælendur hafa búið frá 1880.
Árnastofnun sér um varðveislu málsins og hýsir miðaldahandrit sem skrifuð voru á Íslandi. Auk þess styður hún rannsóknir á málinu. Frá 1995 hefur verið haldið upp á dag íslenskrar tungu þann 16. nóvember á hverju ári, sem var fæðingardagur Jónas Hallgrímssonar skálds.'''
ENCODING_GLE = '''Is ceann de na teangacha Ceilteacha í an Ghaeilge (nó Gaeilge na hÉireann mar a thugtar uirthi corruair), agus ceann de na trí cinn de theangacha Ceilteacha ar a dtugtar na teangacha Gaelacha (Gaeilge, Gaeilge Mhanann agus Gaeilge na hAlban) go háirithe. Labhraítear in Éirinn go príomha í, ach tá cainteoirí Gaeilge ina gcónaí in áiteanna eile ar fud an domhain.
@@ -182,9 +128,9 @@
Is í an teanga náisiúnta nó dhúchais agus an phríomhtheanga oifigiúil i bPoblacht na hÉireann í an Ghaeilge. Tá an Béarla luaite sa Bhunreacht mar theanga oifigiúil eile. Tá aitheantas oifigiúil aici chomh maith i dTuaisceart Éireann, ar cuid den Ríocht Aontaithe é. Ar an 13 Meitheamh 2005 d'aontaigh airí gnóthaí eachtracha an Aontais Eorpaigh glacadh leis an nGaeilge mar theanga oifigiúil oibre san AE. Ón 1 Eanáir 2007 cuireadh tús leis an stádas oifigiúil seo, agus ba é an tAire Nollaig Ó Treasaigh, T. D., an chéad aire Éireannach a labhair Gaeilge ag cruinniú de chuid Chomhairle na nAirí, an 22 Eanáir 2007.
Tá go leor ainmneacha eile réigiúnda nó stairiúla ar an teanga freisin: Gaedhealg, Gaedhilge agus Gaedhilg (i gConamara); Gaedhilic, Gaeilic agus Gaeilig (in áiteanna i gCúige Uladh agus Maigh Eo); Gaedhealaing, Gaoluinn agus Gaeilinn (i bPort Láirge); Gaelainn (sa Mhumhain); Gaedhlag (Ó Méith, Ard Mhacha agus Lú); agus Guithealg nó Goidelc (sa tSean-Ghaeilge). Go minic, níl i gceist leo seo ach litrithe malartacha ar an bhfocal "Gaeilge" agus iad ag baint leis an tréimhse réamhchaighdeánach (féach thíos chun a thuilleadh eolais a fháil), ach tabhair faoi deara gurb iondúil inniu a úsáidtear an leagan Muimhneach d'ainm na teanga, Gaelainn, le tagairt a dhéanamh do chanúint an chúige ina gcluinfeá an t-ainm seo uirthi. D'fheicfeá Gaoluinn, leis, toisc gur mar é fada a fhuaimnítear ao an litrithe sna canúintí deisceartacha.'''
-ENCODING_JPN = '''日本語(にほんご、にっぽんご[注釈 2]、英語: Japanese language)は、日本国内や、かつての日本領だった国、そして国外移民や移住者を含む日本人同士の間で使用されている言語。日本は法令によって公用語を規定していないが、法令その他の公用文は全て日本語で記述され、各種法令[注釈 3]において日本語を用いることが規定され、学校教育においては「国語」の教科として学習を行うなど、事実上日本国内において唯一の公用語となっている。
+ENCODING_JPN = '''日本語(にほんご、にっぽんご[注釈 3])は、日本国内や、かつての日本領だった国、そして国外移民や移住者を含む日本人同士の間で使用されている言語。日本は法令によって公用語を規定していないが、法令その他の公用文は全て日本語で記述され、各種法令[注釈 4]において日本語を用いることが規定され、学校教育においては「国語」の教科として学習を行うなど、事実上日本国内において唯一の公用語となっている。
-使用人口について正確な統計はないが、日本国内の人口、及び日本国外に住む日本人や日系人、日本がかつて統治した地域の一部住民など、約1億3千万人以上と考えられている[10]。統計によって前後する場合もあるが、この数は世界の母語話者数で上位10位以内に入る人数である[11]。
+使用人口について正確な統計はないが、日本国内の人口、及び日本国外に住む日本人や日系人、日本がかつて統治した地域の一部住民など、約1億3,000万人以上と考えられている[10]。統計によって前後する場合もあるが、この数は世界の母語話者数で上位10位以内に入る人数である[11]。
また第一次世界大戦後、日本に委任統治(南洋諸島を参照)されていたパラオでは、現在も一部地域で日本語を公用語と定めている。'''
ENCODING_KAZ = '''Қазақ тілі (төте: قازاق ٴتىلى, латын: qazaq tili) — Қазақстан Республикасының мемлекеттік тілі, сонымен қатар Ресей, Өзбекстан, Қытай, Моңғолия жəне т.б. елдерде тұратын қазақтардың ана тілі.
@@ -192,27 +138,16 @@
Қазақ тілі түркі тілдерінің қыпшақ тобына, соның ішінде қарақалпақ, ноғай, қарашай тілдерімен бірге қыпшақ-ноғай тармағына жатады. Сонымен қатар қырғыз, татар, башқұрт, қарашай-балқар, құмық, қарайым, қырымтатар тілдеріне жақын.
Қазақ тілі диалектілерге бөлінбейтіні ғылыми түрде дәлелденген. Барлық өлкелердің қазақтары бір-бірін жақсы түсінеді. Бірақ кейбір ғалымдардың пікірінше қазақ тілі 3 диалектіге бөлінеді: солтүстік-шығыс, оңтүстік және батыс (ескі үш жүздің орналасқан аумағы бойынша).'''
-ENCODING_KOR = '''한국어(韓國語)는 대한민국과 조선민주주의인민공화국의 공용어이다. 조선말, 한국말, 조선어로도 불린다.
+ENCODING_KOR = '''한국어(韓國語)는 대한민국과 조선민주주의인민공화국의 공용어이며 조선민주주의인민공화국에서는 조선말이라고 불린다.
세계 여러 지역에 한민족 인구가 거주하게 되면서 전 세계 각지에서 한국어가 사용 되고 있다. 2016년 1월 초 기준으로 한국어 사용 인구는 약 8,000만 명으로 추산된다.[1]
-한국어의 계통에 관해서는 옛날부터 몽골어, 터키어, 카자흐어와 같은 알타이어족으로 분류하는 학설을 한국의 주류 학계는 받아들이고 있다.[2][10] 반면에 주변 언어와 관계가 확인되지 않는 고립어[11][6][4], 또는 제주어를 포함하는 독자적인 한국어족에 속한다고 보는 학자들도 존재한다.
-
-그러나 고립어(language isolate)설 역시 다른 고립어들과는 궤가 다르고 한국어족도 제주어를 방언으로 포함시킬지 언어로 포함시킬지에 대한 의견이 갈라져 논거가 부족하며 한국어의 계통은 여전히 논란이 분분한 주제로, 역사언어학계에서 지속적인 연구가 이루어지고 있다.'''
+역사 및 현대 언어학자들은 한국어를 고립어로 분류한다.[2][3][4][5][6][7] 그러나 한국어와 제주어(제주도에서 사용되며 구별되는 것으로 간주됨)와 함께 한국어족을 구성하던 몇 개의 사어가 한 때 존재했다.[8][9] 일부 언어학자들이 한국어를 알타이 제어에 포함시켰지만 오늘날 알타이 제어설은 사전적 지지를 대부분 상실했다.[10]'''
ENCODING_LAV = '''Latviešu valoda ir dzimtā valoda apmēram 1,5 miljoniem cilvēku, galvenokārt Latvijā, kur tā ir vienīgā valsts valoda.[1][3] Lielākās latviešu valodas pratēju kopienas ārpus Latvijas ir Apvienotajā Karalistē, ASV, Īrijā, Austrālijā, Vācijā, Zviedrijā, Kanādā, Brazīlijā, Krievijas Federācijā. Latviešu valoda pieder pie indoeiropiešu valodu saimes baltu valodu grupas. Senākie rakstu paraugi latviešu valodā — jau no 15. gadsimta — ir atrodami Jāņa ģildes alus nesēju biedrības grāmatās. Tajā lielākoties bija latvieši, un no 1517. gada arī brālības vecākie bija latvieši. Pirmais teksts latviski iespiests 1507. gadā izdotajā baznīcas rokasgrāmatā „AGENDA”.[4]'''
ENCODING_MLT = '''Il-Malti huwa l-ilsien nazzjonali tar-Repubblika ta' Malta. Huwa l-ilsien uffiċjali flimkien mal-Ingliż; kif ukoll wieħed mill-ilsna uffiċjali u l-uniku wieħed ta' oriġini Għarbija (Semitiku) tal-Unjoni Ewropea. Dan l-ilsien għandu sisien u għerq semitiku, ta' djalett Għarbi li ġej mit-Tramuntana tal-Afrika, għalħekk qatt ma kellu rabta mill-qrib mal-Għarbi Klassiku. Iżda tul iż-żminijiet, minħabba proċess tal-Latinizzazzjoni ta' Malta, bdew deħlin bosta elementi lingwistiċi mill-Isqalli, djalett ta' art li wkoll għaddiet minn żmien ta' ħakma Għarbija. Wara l-Isqalli beda dieħel ukoll it-Taljan, fuq kollox fiż-żmien tad-daħla tal-Kavallieri tal-Ordni ta' San Ġwann sa meta l-Ingliż ħa post it-Taljan bħala l-ilsien uffiċjali fil-Kostituzzjoni Kolonjali tal-1934. Il-Malti huwa l-ilsien waħdieni ta' għajn semitika li jinkiteb b'ittri Latini. Studju tal-2016 juri li, fil-lingwaġġ bażiku ta’ kuljum, il-Maltin kapaċi jifhmu madwar terz ta’ dak li jingħad lilhom bl-Għarbi Tuneżin li huwa Għarbi tal-Maghrebi relatat mal-Għarbi Sqalli, filwaqt li dawk li jitkellmu bl-Għarbi Tuneżin (Tuneżin) huma kapaċi jifhmu madwar 40% ta’ dak li jingħad lilhom bil-Malti.[1]'''
-ENCODING_POL = '''Język polski, polszczyzna – język z grupy zachodniosłowiańskiej (do której należą również czeski, kaszubski, słowacki i języki łużyckie), stanowiącej część rodziny indoeuropejskiej. Jest językiem urzędowym w Polsce oraz należy do oficjalnych języków Unii Europejskiej.
-
-Język polski ma obecnie największą społeczność użytkowników wśród przedstawicieli słowiańszczyzny zachodniej i jest drugim językiem słowiańskim pod względem liczby użytkowników[9][10][11]. Ocenia się, że jest mową ojczystą ok. 44 mln ludzi na świecie[1] (w literaturze naukowej można spotkać szacunki od 39[2][3] do 48 mln[4]). Współcześnie dominuje na terenie Polski, kraju stosunkowo jednolitego pod względem językowym[12], używany jest także w krajach ościennych z polską ludnością autochtoniczną stanowiącą mniejszość narodową oraz przez Polonię, czyli ludność polską zamieszkałą za granicą.
-
-Z punktu widzenia typologii jest językiem fleksyjnym[13], z rozbudowaną fleksją w zakresie morfologii[14]. Akcent w języku polskim pada zwykle na drugą sylabę od końca, a w zdaniu przeważa szyk SVO (podmiot orzeczenie dopełnienie)[12]. Dziś cechuje się słabo zaznaczonym i zanikającym zróżnicowaniem gwarowym, które ustępuje miejsca dominującej roli języka standardowego[15]. Do zapisu języka polskiego służy alfabet łaciński, wzbogacony o dodatkowe znaki diakrytyczne.
-
-Wywodzi się z języka praindoeuropejskiego za pośrednictwem prasłowiańskiego. Spośród głównych języków słowiańskich wykazuje najbliższe pokrewieństwo ze słowackim[11] i czeskim[15], ale dzieli również wiele cech z językiem ukraińskim ze względu na długotrwałe kontakty obu języków[15][16]. Na język polski duży wpływ wywarły także języki germańskie, zwłaszcza niemiecki i jidysz oraz italskie, takie jak łacina i francuski, które rzutowały na polską leksykę i gramatykę[17][18][19]. Historycznie polszczyzna była istotną lingua franca w regionie Europy Środkowo-Wschodniej, o znaczeniu akademickim i dyplomatycznym[20][21].
-
-Jego regulacją zajmuje się Rada Języka Polskiego, pełniąca funkcję doradczą[22].'''
ENCODING_POR = '''A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal. Com a criação do Reino de Portugal em 1139 e a expansão para o sul na sequência da Reconquista, deu-se a difusão da língua pelas terras conquistadas e mais tarde, com as descobertas portuguesas, para o Brasil, África e outras partes do mundo.[8] O português foi usado, naquela época, não somente nas cidades conquistadas pelos portugueses, mas também por muitos governantes locais nos seus contatos com outros estrangeiros poderosos. Especialmente nessa altura a língua portuguesa também influenciou várias línguas.[9]
-Durante a Era dos Descobrimentos, marinheiros portugueses levaram o seu idioma para lugares distantes. A exploração foi seguida por tentativas de colonizar novas terras para o Império Português e, como resultado, o português dispersou-se pelo mundo. Brasil e Portugal são os dois únicos países cuja língua primária é o português. É língua oficial em antigas colônias portuguesas, nomeadamente, Moçambique, Angola, Cabo Verde, Guiné Equatorial,[10][11][12] Guiné-Bissau e São Tomé e Príncipe, todas na África.[13] Além disso, por razões históricas, falantes do português, ou de crioulos portugueses, são encontrados também em Macau (China), Timor-Leste, em Damão e Diu e no estado de Goa (Índia), Malaca (Malásia), em enclaves na ilha das Flores (Indonésia), Baticaloa no (Sri Lanka) e nas ilhas ABC no Caribe.[14][15]
+Durante a Era dos Descobrimentos, marinheiros portugueses levaram o seu idioma para lugares distantes. A exploração foi seguida por tentativas de colonizar novas terras para o Império Português e, como resultado, o português dispersou-se pelo mundo. Brasil e Portugal são os dois únicos países cuja língua primária é o português. É língua oficial em antigas colônias portuguesas, nomeadamente, Moçambique, Angola, Cabo Verde, Guiné Equatorial,[10][11][12] Guiné-Bissau e São Tomé e Príncipe, todas na África.[13] Além disso, por razões históricas, falantes do português, ou de crioulos portugueses, são encontrados também em Macau (China), Timor-Leste, em Damão e Diu e no estado de Goa (Índia), Malaca (na Malásia, que conta com utilizadores do crioulo kristáng, ou Língua cristã), em enclaves na ilha das Flores (Indonésia), Baticaloa no (Sri Lanka) e nas ilhas ABC no Caribe.[14][15]
É uma das línguas oficiais da União Europeia, do Mercosul, da União de Nações Sul-Americanas, da Organização dos Estados Americanos, da União Africana e dos Países Lusófonos. Com aproximadamente 280 milhões de falantes, o português é a 5.ª língua mais falada no mundo, a 3.ª mais falada no hemisfério ocidental e a mais falada no hemisfério sul do planeta.[16] O português também é conhecido como "a língua de Camões"[17] (em homenagem a uma das mais conhecidas figuras literárias de Portugal, Luís Vaz de Camões, autor de Os Lusíadas) e "a última flor do Lácio" (expressão usada no soneto Língua Portuguesa, do escritor brasileiro Olavo Bilac).[18][19][20][21][22] Miguel de Cervantes, o célebre autor espanhol, considerava o idioma "doce e agradável".[23] Em março de 2006, o Museu da Língua Portuguesa, um museu interativo sobre o idioma, foi fundado em São Paulo, Brasil, a cidade com o maior número de falantes do português em todo o mundo.[24]
@@ -220,7 +155,7 @@
ENCODING_RON = '''Limba română este o limbă indo-europeană din grupul italic și din subgrupul oriental al limbilor romanice. Printre limbile romanice, româna este a cincea după numărul de vorbitori, în urma spaniolei, portughezei, francezei și italienei. Din motive de diferențiere tipologică, româna mai este numită în lingvistica comparată limba dacoromână sau dialectul dacoromân. De asemenea, este limba oficială în România și în Republica Moldova.
Limba română este vorbită în toată lumea de 28 de milioane de persoane, dintre care circa 24 de milioane o au ca limbă maternă.[2] Din numărul total de vorbitori, peste 17 milioane[3] se află în România, unde româna (dialectul dacoromân) este limbă oficială și, conform recensământului populației din 2011, este limbă maternă pentru peste 90% din populație. Limba română este una dintre cele șase limbi oficiale ale Provinciei Autonome Voivodina (Serbia). De asemenea este limbă oficială sau administrativă în câteva comunități și organizații internaționale, precum Uniunea Latină sau Uniunea Europeană (de la 1 ianuarie 2007).'''
-ENCODING_RUS = '''Ру́сский язы́к ([ˈruskʲɪi̯ jɪˈzɨk] Информация о файле слушать)[~ 3][⇨] — язык восточнославянской группы славянской ветви индоевропейской языковой семьи, национальный язык русского народа. Является одним из наиболее распространённых языков мира — восьмым среди всех языков мира по общей численности говорящих[5] и седьмым по численности владеющих им как родным (2022)[2]. Русский является также самым распространённым славянским языком[8] и самым распространённым языком в Европе — географически и по числу носителей языка как родного[6].
+ENCODING_RUS = '''Ру́сский язы́к (МФА: [ˈruskʲɪi̯ jɪˈzɨk](инф.))[~ 3][⇨] — язык восточнославянской группы славянской ветви индоевропейской языковой семьи, национальный язык русского народа. Является одним из наиболее распространённых языков мира — восьмым среди всех языков мира по общей численности говорящих[5] и седьмым по численности владеющих им как родным (2022)[2]. Русский является также самым распространённым славянским языком[8] и самым распространённым языком в Европе — географически и по числу носителей языка как родного[6].
Русский язык — государственный язык Российской Федерации, один из двух государственных языков Белоруссии, один из официальных языков Казахстана, Киргизии и некоторых других стран, основной язык международного общения в Центральной Евразии, в Восточной Европе, в странах бывшего Советского Союза, один из шести рабочих языков ООН, ЮНЕСКО и других международных организаций[9][10][11][⇨].
@@ -251,18 +186,18 @@
ภาษาไทยเป็นภาษาที่มีระดับเสียงของคำแน่นอนหรือวรรณยุกต์เช่นเดียวกับภาษาจีน และออกเสียงแยกคำต่อคำ
ภาษาไทยปรากฏครั้งแรกในพุทธศักราช 1826 โดยพ่อขุนรามคำแหง และปรากฏอย่างสากลและใช้ในงานของราชการ เมื่อวันที่ 31 มีนาคม พุทธศักราช 2476 ด้วยการก่อตั้งสำนักงานราชบัณฑิตยสภาขึ้น และปฏิรูปภาษาไทย พุทธศักราช 2485'''
-ENCODING_TUR = '''Türkçe ya da Türk dili, Güneydoğu Avrupa ve Batı Asya'da konuşulan, Türk dilleri dil ailesine ait sondan eklemeli bir dil.[12] Türk dilleri ailesinin Oğuz dilleri grubundan bir Batı Oğuz dili olan Osmanlı Türkçesinin devamını oluşturur. Dil, başta Türkiye olmak üzere Balkanlar, Ege Adaları, Kıbrıs ve Orta Doğu'yu kapsayan eski Osmanlı İmparatorluğu coğrafyasında konuşulur.[12] Ethnologue'a göre Türkçe, yaklaşık 83 milyon konuşuru ile dünyada en çok konuşulan 16. dildir.[13] Türkçe Türkiye, Kıbrıs Cumhuriyeti ve Kuzey Kıbrıs'ta ulusal resmî dil statüsüne sahiptir.[12]
+ENCODING_TUR = '''Türkçe ya da Türk dili, Güneydoğu Avrupa ve Batı Asya'da konuşulan, Türk dilleri dil ailesine ait sondan eklemeli bir dildir.[10] Türk dilleri ailesinin Oğuz dilleri grubundan bir Batı Oğuz dili olan Osmanlı Türkçesinin devamını oluşturur. Dil, başta Türkiye olmak üzere Balkanlar, Ege Adaları, Kıbrıs ve Orta Doğu'yu kapsayan eski Osmanlı İmparatorluğu coğrafyasında konuşulur.[10] Ethnologue'a göre Türkçe, yaklaşık 90 milyon konuşanı ile dünyada en çok konuşulan 17. dildir.[11] Türkçe, Türkiye, Kuzey Kıbrıs ve Kıbrıs Cumhuriyeti'nde ulusal resmî dil statüsüne sahiptir.[10]
-Türkçe, diğer pek çok Türk dili ile de paylaştığı sondan eklemeli olması ve ünlü uyumu gibi dil bilgisi özellikleri ile karakterize edilir. Dil, tümce yapısı açısından genellikle özne-nesne-yüklem sırasına sahiptir. Almanca, Arapça gibi dillerin aksine gramatik cinsiyetin (erillik, dişilik, cinsiyet ayrımı) bulunmadığı Türkçede sözcüklerin bir kısmı Arapça, Farsça ve Fransızca gibi yabancı dillerden geçmedir. Ayrıca Azerice, Gagavuzca ve Türkmence gibi diğer Oğuz dilleri ile Türkçe yüksek oranda karşılıklı anlaşılabilirlik gösterir.[14]
+Türkçe, diğer pek çok Türk dili ile de paylaştığı sondan eklemeli olması ve ünlü uyumu gibi dil bilgisi özellikleri ile karakterize edilir. Dil, tümce yapısı açısından genellikle özne-nesne-yüklem sırasına sahiptir. Almanca, Arapça gibi dillerin aksine gramatik cinsiyetin (erillik, dişilik, cinsiyet ayrımı) bulunmadığı Türkçede sözcüklerin bir kısmı Arapça, Farsça ve Fransızca gibi yabancı dillerden geçmedir. Ayrıca Azerice, Gagavuzca ve Türkmence gibi diğer Oğuz dilleri ile Türkçe yüksek oranda karşılıklı anlaşılabilirlik gösterir.[12]
-Türkçe 1928'de Atatürk önderliğinde gerçekleştirilmiş Harf Devrimi'nden beri Latin alfabesini temel alan Türk alfabesi ile yazılır. Standart Türkçedeki Yazım kuralları Türk Dil Kurumu tarafından denetlenir. İstanbul Türkçesi olarak da adlandırılan İstanbul ağzı,[15] Türkçenin standart formudur ve Türkçe yazı dili bu ağzı temel alır. Bununla birlikte Güneydoğu Avrupa ve Orta Doğu'da çeşitli Türkçe şiveleri bulunur ve bu şiveler İstanbul Türkçesi ile çeşitli ses ve dilbilgisi farklılıklarına sahiptir.'''
+Türkçe 1928'de Atatürk önderliğinde gerçekleştirilmiş Harf Devrimi'nden beri Latin alfabesini temel alan Türk alfabesi ile yazılır. Standart Türkçedeki Yazım kuralları Türk Dil Kurumu tarafından denetlenir. İstanbul Türkçesi olarak da adlandırılan İstanbul ağzı,[13] Türkçenin standart formudur ve Türkçe yazı dili bu ağzı temel alır. Bununla birlikte Güneydoğu Avrupa ve Orta Doğu'da çeşitli Türkçe şiveleri bulunur ve bu şiveler İstanbul Türkçesi ile çeşitli ses ve dilbilgisi farklılıklarına sahiptir.'''
ENCODING_UKR = '''Украї́нська мо́ва (МФА: [ukrɑ̽ˈjɪnʲsʲkɑ̽ ˈmɔwɑ̽], історичні назви — ру́ська[10][11][12][* 1]) — національна мова українців. Належить до східнослов'янської групи слов'янських мов, що входять до індоєвропейської мовної сім'ї, поряд з романськими, германськими, кельтськими, грецькою, албанською, вірменською та найближче спорідненими зі слов'янськими балтійськими мовами[13][14][* 2]. Є державною мовою в Україні[13][15].
Число мовців — орієнтовно 45 млн, більшість із яких мешкає в Україні. Поширена також у Білорусі[16], Молдові[17][18], Польщі[19], Росії[20][21], Румунії[22], Словаччині[23], Казахстані[24], Аргентині, Бразилії, Великій Британії[25], Канаді[26], США[27] та інших країнах, де живуть українці. Українською мовою у світі послуговуються приблизно від 40 до 45 млн осіб; вона є другою чи третьою слов'янською мовою за кількістю мовців (після російської та, можливо, польської)[13] та входить до третього десятка найпоширеніших мов світу[* 3].
-Українську мову вивчає українське мовознавство, а також досліджує україністика (українознавство). Довкола походження та становлення української мови є декілька гіпотез[28] — праслов'янська[29][30][31], давньоруська[32][33], південноруська X-XI століття[34][35] та інші[* 4]. Але на сьогодні остаточно спростовані теорії про давньоруську мовну єдність[13].
+Українську мову вивчає українське мовознавство, а також досліджує україністика (українознавство). Довкола походження та становлення української мови є декілька гіпотез[28] — праслов'янська[29][30][31], давньоруська[32][33], південноруська X—XI століття[34][35] та інші[* 4]. Але на сьогодні остаточно спростовані теорії про давньоруську мовну єдність[13].
-Згідно з нещодавно оприлюдненою гіпотезою К. М. Тищенка, українська мова відбиває утворення українців як етносу, що сталося у VI-XVI століттях унаслідок злиття діалектів трьох слов'янських племен — полян, деревлян та сіверян за участі груп іраномовного та тюркомовного степового населення[36]. У XVIII—XX століттях українська мова зазнавала утисків із боку польської та російської влади[* 5]. Противники української мови створили численні міфи щодо української мови.
+Згідно з нещодавно оприлюдненою гіпотезою К. М. Тищенка, українська мова відбиває утворення українців як етносу, що сталося у VI—XVI століттях унаслідок злиття діалектів трьох слов'янських племен — полян, деревлян та сіверян за участі груп іраномовного та тюркомовного степового населення[36]. У XVIII—XX століттях українська мова зазнавала утисків із боку польської та російської влади[* 5]. Противники української мови створили численні міфи щодо української мови.
Для запису української мови використовують пристосовану кирилицю («гражданка»).
@@ -270,12 +205,12 @@
Центральний орган виконавчої влади, який забезпечує розробку та впроваджує державну мовну політику — Міністерство культури України.
-Щороку 9 листопада в Україні святкують День української писемності та мови. Цього дня відбувається щорічний флешмоб — Всеукраїнський радіодиктант національної єдності — акція Українського радіо, що об'єднує українців по всьому світу навколо української мови.'''
-ENCODING_URD = '''اُردُو[8] برصغیر کی معیاری زبانوں میں سے ایک ہے۔ یہ پاکستان کی قومی اور رابطہ عامہ کی زبان ہے، جبکہ بھارت کی چھ ریاستوں کی دفتری زبان کا درجہ رکھتی ہے۔ آئین ہند کے مطابق اسے 22 دفتری شناخت شدہ زبانوں میں شامل کیا جا چکا ہے۔ 2001ء کی مردم شماری کے مطابق اردو کو بطور مادری زبان بھارت میں 5.01% فیصد لوگ بولتے ہیں اور اس لحاظ سے ہی بھارت کی چھٹی بڑی زبان ہے جبکہ پاکستان میں اسے بطور مادری زبان 7.59% فیصد لوگ استعمال کرتے ہیں، یہ پاکستان کی پانچویں بڑی زبان ہے۔ اردو تاریخی طور پر ہندوستان کی مسلم آبادی سے جڑی ہے۔ [9] زبانِ اردو کو پہچان و ترقی اس وقت ملی جب برطانوی دور میں انگریز حکمرانوں نے اسے فارسی کی بجائے انگریزی کے ساتھ شمالی ہندوستان کے علاقوں اور جموں و کشمیر میں اسے 1846ء اور پنجاب میں 1849ء میں بطور دفتری زبان نافذ کیا۔ اس کے علاوہ خلیجی، یورپی، ایشیائی اور امریکی علاقوں میں اردو بولنے والوں کی ایک بڑی تعداد آباد ہے جو بنیادی طور پر جنوبی ایشیاء سے کوچ کرنے والے اہلِ اردو ہیں۔ 1999ء کے اعداد و شمار کے مطابق اردو زبان کے مجموعی متکلمین کی تعداد دس کروڑ ساٹھ لاکھ کے لگ بھگ تھی۔ اس لحاظ سے یہ دنیا کی نویں بڑی زبان ہے۔ اردو زبان کو کئی ہندوستانی ریاستوں میں سرکاری حیثیت بھی حاصل ہے۔ [11] نیپال میں، اردو ایک رجسٹرڈ علاقائی بولی ہے [12] اور جنوبی افریقہ میں یہ آئین میں ایک محفوظ زبان ہے۔ یہ افغانستان اور بنگلہ دیش میں اقلیتی زبان کے طور پر بھی بولی جاتی ہے، جس کی کوئی سرکاری حیثیت نہیں ہے۔
+Щороку 27 жовтня в Україні святкують День української писемності та мови. Цього дня відбувається щорічний флешмоб — Всеукраїнський радіодиктант національної єдності — акція Українського радіо, що об'єднує українців по всьому світу навколо української мови.'''
+ENCODING_URD = '''اُردُو[8] برصغیر کی معیاری زبانوں میں سے ایک ہے۔ یہ پاکستان کی قومی اور رابطہ عامہ کی زبان ہے، جبکہ بھارت کی چھ ریاستوں کی دفتری زبان کا درجہ رکھتی ہے۔ آئین ہند کے مطابق اسے 22 دفتری شناخت شدہ زبانوں میں شامل کیا جا چکا ہے۔ 2001ء کی مردم شماری کے مطابق اردو کو بطور مادری زبان بھارت میں 5.01% فیصد لوگ بولتے ہیں اور اس لحاظ سے ہی بھارت کی چھٹی بڑی زبان ہے جبکہ پاکستان میں اسے بطور مادری زبان 7.59% فیصد لوگ استعمال کرتے ہیں، یہ پاکستان کی پانچویں بڑی زبان ہے۔ اردو تاریخی طور پر ہندوستان کی مسلم آبادی سے جڑی ہے۔[9] زبانِ اردو کو پہچان و ترقی اس وقت ملی جب برطانوی دور میں انگریز حکمرانوں نے اسے فارسی کی بجائے انگریزی کے ساتھ شمالی ہندوستان کے علاقوں اور جموں و کشمیر میں اسے 1846ء اور پنجاب میں 1849ء میں بطور دفتری زبان نافذ کیا۔ اس کے علاوہ خلیجی، یورپی، ایشیائی اور امریکی علاقوں میں اردو بولنے والوں کی ایک بڑی تعداد آباد ہے جو بنیادی طور پر جنوبی ایشیاء سے کوچ کرنے والے اہلِ اردو ہیں۔ 1999ء کے اعداد و شمار کے مطابق اردو زبان کے مجموعی متکلمین کی تعداد دس کروڑ ساٹھ لاکھ کے لگ بھگ تھی۔ اس لحاظ سے یہ دنیا کی نویں بڑی زبان ہے۔ اردو زبان کو کئی ہندوستانی ریاستوں میں سرکاری حیثیت بھی حاصل ہے۔ [10] نیپال میں، اردو ایک رجسٹرڈ علاقائی بولی ہے [11] اور جنوبی افریقہ میں یہ آئین میں ایک محفوظ زبان ہے۔ یہ افغانستان اور بنگلہ دیش میں اقلیتی زبان کے طور پر بھی بولی جاتی ہے، جس کی کوئی سرکاری حیثیت نہیں ہے۔
-1837ء میں، اردو برطانوی ایسٹ انڈیا کمپنی کی سرکاری زبان بن گئی، کمپنی کے دور میں پورے شمالی ہندوستان میں فارسی کی جگہ لی گئی۔ فارسی اس وقت تک مختلف ہند-اسلامی سلطنتوں کی درباری زبان کے طور پر کام کرتی تھی۔ [13] یورپی نوآبادیاتی دور میں مذہبی، سماجی اور سیاسی عوامل پیدا ہوئے جنہوں نے اردو اور ہندی کے درمیان فرق کیا، جس کی وجہ سے ہندی-اردو تنازعہ شروع ہوا ۔
+1837ء میں، اردو برطانوی ایسٹ انڈیا کمپنی کی سرکاری زبان بن گئی، کمپنی کے دور میں پورے شمالی ہندوستان میں فارسی کی جگہ لی گئی۔ فارسی اس وقت تک مختلف ہند-اسلامی سلطنتوں کی درباری زبان کے طور پر کام کرتی تھی۔ [12] یورپی نوآبادیاتی دور میں مذہبی، سماجی اور سیاسی عوامل پیدا ہوئے جنہوں نے اردو اور ہندی کے درمیان فرق کیا، جس کی وجہ سے ہندی-اردو تنازعہ شروع ہوا ۔
-اردو 18ویں صدی میں ایک ادبی زبان بن گئی اور اسی طرح کی دو معیاری شکلیں دہلی اور لکھنؤ میں وجود میں آئیں۔ 1947ء میں تقسیم ہند کے بعد سے پاکستانی شہر کراچی میں ایک تیسرا معیار پیدا ہوا ہے۔ [14] [15] دکنی ، ایک پرانی شکل جو دکن میں استعمال ہوتی تھی، سولہویں صدی تک دکن سلاطین کی درباری زبان بن گئی۔ [16] [15]
+اردو 18ویں صدی میں ایک ادبی زبان بن گئی اور اسی طرح کی دو معیاری شکلیں دہلی اور لکھنؤ میں وجود میں آئیں۔ 1947ء میں تقسیم ہند کے بعد سے پاکستانی شہر کراچی میں ایک تیسرا معیار پیدا ہوا ہے۔ [13] [14] دکنی ، ایک پرانی شکل جو دکن میں استعمال ہوتی تھی، سولہویں صدی تک دکن سلاطین کی درباری زبان بن گئی۔ [15] [14]
اُردو کا بعض اوقات ہندی کے ساتھ موازنہ کیا جاتا ہے۔ اُردو اور ہندی میں بُنیادی فرق یہ ہے کہ اُردو نستعلیق رسم الخط میں لکھی جاتی ہے اور عربی و فارسی الفاظ استعمال کرتی ہے۔ جبکہ ہندی زبان دیوناگری رسم الخط میں لکھی جاتی ہے اور سنسکرت الفاظ زیادہ استعمال کرتی ہے۔ کچھ ماہرینِ لسانیات اُردو اور ہندی کو ایک ہی زبان کی دو معیاری صورتیں گردانتے ہیں۔ لیکن حقیقت یہ ہے کہ ہندی، اُردو زبان سے نکلی ہے۔ اسی طرح اگر اردو اور ہندی زبان کو ایک سمجھا جائے تو یہ دنیا کی چوتھی بڑی زبان ہے۔ اردو زبان دنیا کی نئی زبانوں میں سے ہونے کے باوجود اپنے پاس معیاری اور وسیع ذخیرہ ادب رکھتی ہے۔ خاص کر جنوبی ایشیائی زبانوں میں اردو اپنی شاعری کے حوالے سے جانی جاتی ہے۔'''
ENCODING_VIE = '''Tiếng Việt, cũng gọi là tiếng Việt Nam[9] hay Việt ngữ là ngôn ngữ của người Việt và là ngôn ngữ chính thức tại Việt Nam. Đây là tiếng mẹ đẻ của khoảng 85% dân cư Việt Nam cùng với hơn 4 triệu người Việt kiều. Tiếng Việt còn là ngôn ngữ thứ hai của các dân tộc thiểu số tại Việt Nam và là ngôn ngữ dân tộc thiểu số được công nhận tại Cộng hòa Séc.
diff --git a/utils/wl_generate_acks.py b/utils/wl_generate_acks.py
index a7a9960a4..53f576182 100644
--- a/utils/wl_generate_acks.py
+++ b/utils/wl_generate_acks.py
@@ -38,7 +38,7 @@
ACKS = [
['Beautiful Soup', 'https://www.crummy.com/software/BeautifulSoup/', '4.12.2', 'Leonard Richardson', 'MIT', 'https://git.launchpad.net/beautifulsoup/tree/LICENSE'],
['Botok', 'https://github.com/OpenPecha/Botok', '0.8.12', 'Hélios Drupchen Hildt', 'Apache-2.0', 'https://github.com/OpenPecha/Botok/blob/master/LICENSE'],
- ['Charset Normalizer', 'https://github.com/Ousret/charset_normalizer', '3.2.0', 'TAHRI Ahmed R.', 'MIT', 'https://github.com/Ousret/charset_normalizer/blob/master/LICENSE'],
+ ['Charset Normalizer', 'https://github.com/Ousret/charset_normalizer', '3.3.2', 'TAHRI Ahmed R.', 'MIT', 'https://github.com/Ousret/charset_normalizer/blob/master/LICENSE'],
['Dostoevsky', 'https://github.com/bureaucratic-labs/dostoevsky', '0.6.0', 'Anna Rogers, Alexey Romanov, Anna Rumshisky,
Svitlana Volkova, Mikhail Gronas, Alex Gribov', 'MIT', 'https://github.com/bureaucratic-labs/dostoevsky/blob/master/LICENSE'],
['khmer-nltk', 'https://github.com/VietHoang1512/khmer-nltk', '1.6', 'Phan Viet Hoang', 'Apache-2.0', 'https://github.com/VietHoang1512/khmer-nltk/blob/main/LICENSE'],
['LaoNLP', 'https://github.com/wannaphong/LaoNLP', '1.1.3', 'Wannaphong Phatthiyaphaibun (วรรณพงษ์ ภัททิยไพบูลย์)', 'Apache-2.0', 'https://github.com/wannaphong/LaoNLP/blob/master/LICENSE'],