Releases · hankcs/HanLP

15 Mar 23:40

hankcs

v1.6.0

ed29fdb

Pre-release

🚩《基于感知机的中文分词、词性标注与命名实体识别框架》
🚩《动态双数组trie树》
新数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.6.0

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.0</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

16 Feb 18:06

hankcs

v1.5.4

e90d57c

v1.5.4常规维护

优化DoubleArrayTrieSegment的效率
废弃CRFDependencyParser：#730
改正CRF的Tag方法：#703 (comment)
加载核心词典词性转移矩阵失败时以IllegalArgumentException方式通知：#747
微调bigram、人名、机构名识别模型，修订繁体->台湾词典：#756 (comment)
数据包依然兼容data-for-1.5.3.zip：国内网盘或海外連結 md5=cadc96db94c3df070855706bb0f8429e
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

31 Dec 04:09

hankcs

v1.5.3

7d11036

v1.5.3新年快乐

分词器多线程数默认系统CPU核心数
索引模式可选分词结果最小颗粒度：#670
识别带千位分隔符的数字，修复BaseNode中的toString()
微调人名识别模型、ngram；修订现代汉语补充词库、简繁词库
使word2vec命令行参数解析与原版兼容：#699
改正CRF的Tag方法：#703
修复word2vec缓存问题：#718
新词发现过滤使用LinkedList：#724
模型加载失败时统一throw new IllegalArgumentException，参考：#477 #116
数据包依然兼容data-for-1.5.3.zip：国内网盘或海外連結 md5=cadc96db94c3df070855706bb0f8429e
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.3</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

Assets 3

17 Nov 05:16

hankcs

v1.5.2

d449337

v1.5.2常规维护

优化CommonDictionary的加载速度
提高自定义词条以空格开头或结尾时的健壮性
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.2</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

16 Nov 03:35

hankcs

v1.5.1

98b407d

v1.5.1常规维护

优化新词发现模块的内存占用：#667
word2vec优化，修复Vector类相关问题：#669
重构EnumItemDictionary，废弃了历史遗留的.trie .dat二次加载，用统一的.bin一次加载
数据包依然兼容data-for-1.3.3.zip：网盘分流或电信下载或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c

Portable版同步升级到v1.5.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.1</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

02 Nov 21:57

hankcs

v1.5.0

f06520b

v1.5.0新词识别、词向量/文档向量模块

🚩《词向量》
🚩《新词识别》
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.5.0

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.0</version>
        </dependency>

🎉感谢大快公司开源的新词识别与word2vec模块！

Assets 3

02 Nov 07:05

hankcs

v1.4.0

cc4bbeb

v1.4.0新增文本分类、情感分析模块

🚩请参考文档《文本分类与情感分析》
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.4.0

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.4.0</version>
        </dependency>

🎉感谢大快公司开源的文本分类模块！

Assets 3

22 Oct 05:55

hankcs

v1.3.5

08456f0

v1.3.5新特性、优化与维护

大幅优化CRF分词和二阶HMM分词，重构CharacterBasedGenerativeModelSegment @TylunasLi
自定义词典支持热更新：#563 ，ngram模型支持热加载：#580
新增一个提高用户词典优先级的开关：#633
支持98年人民日报的复合词语料格式，如"[中央/n 人民/n 广播/vn 电台/n]nt"
开放TextRank关键词提取中的最大迭代次数参数：#577
为Term添加equal方法 @AnyListen
TextRankKeyword 提取窗口相近词的强化 @tiandiweizun
文本摘要方法支持自定义句子分隔符 @wangdong
提高AC自动机健壮性，添加hasKeyword接口 @fnaith
修复BinTrie.remove不存在的key时导致的问题：#540
解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题：#542
CharTable.txt 添加上下标字符的对应关系 @AnyListen
将“\t”等不可打印的字符视作分隔符：#584
中文数词与阿拉伯数词切分开 @jian.li
修正全角年份识别中字符串长度错误，修正数字识别工具的错误，增加测试代码。支持读取包含BOM的文本文件。 @TylunasLi
校对CoreNatureDictionary.txt，删除以分号开头的错误词语:#221 (comment)
修复CoNLLWord中toString方法的bug @xu2333
微调人名识别模型：#562 删除人名识别模型中的高频动词D标签，降低误命中率，音译人名识别取消外国地名触发
修复Nature.fromString和IOUtil.loadDictionary：#626
修正简繁一多对应校验表，拼音等
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.3.5

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.5</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

Assets 3

22 May 02:29

hankcs

v1.3.4

01f8028

v1.3.4修复Resin和部分集群IO

集群环境中CoreStopWordDictionary适配IOAdapter： #530
修复HDFS上的readBytesFromOtherInputStream：#536 (comment)
解决resin下自定义IOAdapter的IO异常：#528
修正TextUtility.isAllSingleByte：#526
修正了核心字典的”每xx"词性:#524
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.3.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.4</version>
        </dependency>

特别鸣谢

@hx78
@realgzq
@junphine
@cicido
@AnyListen

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

Assets 3

07 May 01:56

hankcs

v1.3.3

336d215

v1.3.3常规维护

CharType的二进制由程序自动生成，版本库内全部词典/模型实现明文文本储存维护
支持逗号分割的.csv格式词典（感谢@driventokill）
移除用于加载语料和训练模型的main方法，方便Spring用户：#391
在机构名识别的时候，词语保持自己的词性，而不是未##团的词性：#403 (comment)
增加一些方便语料处理的方法
机构名识别限定nrf为特征词的译名性前缀，删除一些类似于"的""之"等不能构成机构名的助词成分
修正一个拼音（感谢@mudsu）
移除TextRankKeyword中逻辑重复的语句（感谢@jsksxs360）
优化索引分词，以字典序保证子成分的顺序稳定：#496 (comment) ，改进索引分词的完整性，修复了索引分词中的各种问题（感谢@gxy0451和@panhaidong的issue）
微调BiGram模型、人名识别模型、机构名识别模型
去掉了portable版的文件存在校验逻辑，使其完整地支持root配置项和IOAdapter。旧版用户如果遇到兼容性问题，请参考升级指南
新版数据包data-for-1.3.3.zip：网盘分流或电信下载或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c

Portable版同步升级到v1.3.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.3</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

Assets 3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

特别鸣谢

Releases: hankcs/HanLP

v1.6.0感知机词法分析器，动态双数组trie树

v1.5.4常规维护

v1.5.3新年快乐

v1.5.2常规维护

v1.5.1常规维护

v1.5.0新词识别、词向量/文档向量模块

v1.4.0新增文本分类、情感分析模块

v1.3.5新特性、优化与维护

v1.3.4修复Resin和部分集群IO

特别鸣谢

v1.3.3常规维护