Skip to content

Releases: hankcs/HanLP

v1.6.0感知机词法分析器,动态双数组trie树

15 Mar 23:40
Compare
Choose a tag to compare
  1. 🚩《基于感知机的中文分词、词性标注与命名实体识别框架》
  2. 🚩《动态双数组trie树》
  3. 新数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git
  4. Portable版同步升级到v1.6.0
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.0</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.5.4常规维护

16 Feb 18:06
Compare
Choose a tag to compare
  1. 优化DoubleArrayTrieSegment的效率
  2. 废弃CRFDependencyParser:#730
  3. 改正CRF的Tag方法:#703 (comment)
  4. 加载核心词典词性转移矩阵失败时以IllegalArgumentException方式通知:#747
  5. 微调bigram、人名、机构名识别模型,修订繁体->台湾词典:#756 (comment)
  6. 数据包依然兼容data-for-1.5.3.zip: 国内网盘海外連結 md5=cadc96db94c3df070855706bb0f8429e
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.5.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.5.3新年快乐

31 Dec 04:09
Compare
Choose a tag to compare
  1. 分词器多线程数默认系统CPU核心数
  2. 索引模式可选分词结果最小颗粒度:#670
  3. 识别带千位分隔符的数字,修复BaseNode中的toString()
  4. 微调人名识别模型、ngram;修订现代汉语补充词库、简繁词库
  5. 使word2vec命令行参数解析与原版兼容:#699
  6. 改正CRF的Tag方法:#703
  7. 修复word2vec缓存问题:#718
  8. 新词发现过滤使用LinkedList:#724
  9. 模型加载失败时统一throw new IllegalArgumentException,参考:#477 #116
  10. 数据包依然兼容data-for-1.5.3.zip: 国内网盘海外連結 md5=cadc96db94c3df070855706bb0f8429e
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.5.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.3</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!

v1.5.2常规维护

17 Nov 05:16
Compare
Choose a tag to compare
  1. 优化CommonDictionary的加载速度
  2. 提高自定义词条以空格开头或结尾时的健壮性
  3. 数据包依然兼容data-for-1.3.3.zip: 国内网盘海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.5.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.2</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.5.1常规维护

16 Nov 03:35
Compare
Choose a tag to compare
  1. 优化新词发现模块的内存占用:#667
  2. word2vec优化,修复Vector类相关问题:#669
  3. 重构EnumItemDictionary,废弃了历史遗留的.trie .dat二次加载,用统一的.bin一次加载
  4. 数据包依然兼容data-for-1.3.3.zip: 网盘分流电信下载海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c

Portable版同步升级到v1.5.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.1</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.5.0新词识别、词向量/文档向量模块

02 Nov 21:57
Compare
Choose a tag to compare
  1. 🚩《词向量》
  2. 🚩《新词识别》
  3. 数据包依然兼容data-for-1.3.3.zip: 国内网盘海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git
  4. Portable版同步升级到v1.5.0
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.0</version>
        </dependency>

🎉感谢大快公司开源的新词识别与word2vec模块!

v1.4.0新增文本分类、情感分析模块

02 Nov 07:05
Compare
Choose a tag to compare
  1. 🚩请参考文档《文本分类与情感分析》
  2. 数据包依然兼容data-for-1.3.3.zip: 国内网盘海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git
  3. Portable版同步升级到v1.4.0
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.4.0</version>
        </dependency>

🎉感谢大快公司开源的文本分类模块!

v1.3.5新特性、优化与维护

22 Oct 05:55
Compare
Choose a tag to compare
  1. 大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment @TylunasLi
  2. 自定义词典支持热更新:#563 ,ngram模型支持热加载:#580
  3. 新增一个提高用户词典优先级的开关:#633
  4. 支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt"
  5. 开放TextRank关键词提取中的最大迭代次数参数:#577
  6. 为Term添加equal方法 @AnyListen
  7. TextRankKeyword 提取窗口相近词的强化 @tiandiweizun
  8. 文本摘要方法支持自定义句子分隔符 @wangdong
  9. 提高AC自动机健壮性,添加hasKeyword接口 @fnaith
  10. 修复BinTrie.remove不存在的key时导致的问题:#540
  11. 解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题:#542
  12. CharTable.txt 添加上下标字符的对应关系 @AnyListen
  13. 将“\t”等不可打印的字符视作分隔符:#584
  14. 中文数词与阿拉伯数词切分开 @jian.li
  15. 修正全角年份识别中字符串长度错误,修正数字识别工具的错误,增加测试代码。支持读取包含BOM的文本文件。 @TylunasLi
  16. 校对CoreNatureDictionary.txt,删除以分号开头的错误词语:#221 (comment)
  17. 修复CoNLLWord中toString方法的bug @xu2333
  18. 微调人名识别模型:#562 删除人名识别模型中的高频动词D标签,降低误命中率,音译人名识别取消外国地名触发
  19. 修复Nature.fromString和IOUtil.loadDictionary:#626
  20. 修正简繁一多对应校验表,拼音等
  21. 数据包依然兼容data-for-1.3.3.zip: 国内网盘海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.3.5

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.5</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!

v1.3.4修复Resin和部分集群IO

22 May 02:29
Compare
Choose a tag to compare
  1. 集群环境中CoreStopWordDictionary适配IOAdapter: #530
  2. 修复HDFS上的readBytesFromOtherInputStream:#536 (comment)
  3. 解决resin下自定义IOAdapter的IO异常:#528
  4. 修正TextUtility.isAllSingleByte:#526
  5. 修正了核心字典的”每xx"词性:#524
  6. 数据包依然兼容data-for-1.3.3.zip: 国内网盘海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.3.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.4</version>
        </dependency>

特别鸣谢

@hx78
@realgzq
@junphine
@cicido
@AnyListen

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!

v1.3.3常规维护

07 May 01:56
Compare
Choose a tag to compare
  1. CharType的二进制由程序自动生成,版本库内全部词典/模型实现明文文本储存维护
  2. 支持逗号分割的.csv格式词典(感谢@driventokill
  3. 移除用于加载语料和训练模型的main方法,方便Spring用户:#391
  4. 在机构名识别的时候,词语保持自己的词性,而不是未##团的词性:#403 (comment)
  5. 增加一些方便语料处理的方法
  6. 机构名识别限定nrf为特征词的译名性前缀,删除一些类似于"的""之"等不能构成机构名的助词成分
  7. 修正一个拼音(感谢@mudsu
  8. 移除TextRankKeyword中逻辑重复的语句(感谢@jsksxs360
  9. 优化索引分词,以字典序保证子成分的顺序稳定:#496 (comment) ,改进索引分词的完整性,修复了索引分词中的各种问题(感谢@gxy0451@panhaidong的issue)
  10. 微调BiGram模型、人名识别模型、机构名识别模型
  11. 去掉了portable版的文件存在校验逻辑,使其完整地支持root配置项和IOAdapter。旧版用户如果遇到兼容性问题,请参考升级指南
  12. 新版数据包data-for-1.3.3.zip: 网盘分流电信下载海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c

Portable版同步升级到v1.3.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.3</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!