-
-
Notifications
You must be signed in to change notification settings - Fork 617
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
对拼音识别的改进建议 #188
Comments
@bmxbmx3 感谢反馈和建议。
|
补充一个拼音识别貌似有问题的词“蕃茄”,pypinyin会识别为fan1jia1,其中茄应为qie2,我查了下词典,蕃茄也可作番茄,可能pypinyin没有将“蕃茄”这个词纳入词典中。 |
mozillazg
added a commit
to mozillazg/phrase-pinyin-data
that referenced
this issue
Oct 26, 2019
@bmxbmx3 感谢反馈。 BTW,最新版增加了一个用于在数字标识声调相关风格下使用 5 标识轻声的参数 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
运行环境
问题描述
对拼音识别的改进建议。
问题复现步骤
我使用自己所写的cn_sort库(依赖jieba中文分词和您编写的pypinyin库),对来自THUOCL处理后的专业词库进行中文排序,运行以下代码:
然后找到了一些貌似拼音识别有点问题的词,包含在cn_sort生成error.log里,内容如下:
总体pypinyin貌似对成语和诗词的识别准确效果有点差,希望可以改进。
p.s.1.轻声拼音表:希望您能给予一份详细的轻声字的拼音表,让我能完善自己的汉字的优先级索引表,我的cn_sort库借助您的pypinyin可以顺利识别出四种声调,但是对轻声识别结果较差,还望您在百忙之中给予帮助。
p.s.2.分词算法的改进:因为需要对中文词组排序,特别是词的字数较长的时候,我的cn_sort库需要进行分词。再用一百万个词的数量对比jieba中文分词、您的内置中文分词算法和pkuseg的分词算法后,我发现jieba的中文分词速度依然是最快的,在用我的程序对4个cpu进行多进程并发运行在windows10时,jieba的处理速度大约是20秒左右,您内置的中文分词算法大约是60秒左右,pkuseg的分词速度因为时间过长很遗憾暂时没有测出来——希望您内置的中文分词算法可以改进一下。
The text was updated successfully, but these errors were encountered: