Chinese-BERT-wwm基础上做预训练的方式 #17

brightmart · 2019-07-03T03:49:10Z

如何使用Chinese-BERT-wwm，在特定领域上再做预训练即操作方式？

ymcui · 2019-07-03T04:20:08Z

很遗憾，目前我们暂无计划开源代码，具体参考 #10 #13 。
事实上实现起来并不难，只需要修改数据生成的部分。
另外就是学习率不能设置的太大，这一点参考谷歌官方的Tips：https://github.com/google-research/bert#pre-training-tips-and-caveats

ymcui · 2019-07-05T00:25:37Z

reopen if necessary

lshowway · 2019-11-18T08:53:05Z

很遗憾，目前我们暂无计划开源代码，具体参考 #10 #13 。
事实上实现起来并不难，只需要修改数据生成的部分。
另外就是学习率不能设置的太大，这一点参考谷歌官方的Tips：https://github.com/google-research/bert#pre-training-tips-and-caveats

我喜欢弹琵琶，经过wwm处理变成，我喜欢[mask][mask]；那计算MLM loss的时候，真实label是琵琶(长度为1), 还是琵琶(长度为2)?就是计算loss的时候“琵琶”是按两个字处理还是一个词？

ymcui · 2019-11-18T09:25:52Z

@lshowway 两个，wwm只改变输入mask，不改变loss计算。原来按字现在还是字。

lshowway · 2019-11-29T03:13:57Z

@lshowway 两个，wwm只改变输入mask，不改变loss计算。原来按字现在还是字。

谢谢您的回复。请问n-gram mask是不是与上述处理一致，原来按字现在还是字？期待您的回复。

lshowway · 2019-11-29T03:20:36Z

@lshowway 两个，wwm只改变输入mask，不改变loss计算。原来按字现在还是字。

谢谢您的回复。请问n-gram mask是不是与上述处理一致，原来按字现在还是字？那么n-gram mask可以以n-gram为单位么，将n-gram看成一个整体被预测，计算的也是probability over n-gram vocab size而不再是原来的probability over vocab size？
期待您的回复。

lzy1012 · 2019-12-11T08:39:36Z

数据可以发下地址吗？汉语自然语言处理-BERT的解读语言模型预训练-实践应用-transformer模型(二)-语料预处理-情感分析分类

ymcui closed this as completed Jul 5, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Chinese-BERT-wwm基础上做预训练的方式 #17

Chinese-BERT-wwm基础上做预训练的方式 #17

brightmart commented Jul 3, 2019

ymcui commented Jul 3, 2019

ymcui commented Jul 5, 2019

lshowway commented Nov 18, 2019

ymcui commented Nov 18, 2019

lshowway commented Nov 29, 2019

lshowway commented Nov 29, 2019

lzy1012 commented Dec 11, 2019

Chinese-BERT-wwm基础上做预训练的方式 #17

Chinese-BERT-wwm基础上做预训练的方式 #17

Comments

brightmart commented Jul 3, 2019

ymcui commented Jul 3, 2019

ymcui commented Jul 5, 2019

lshowway commented Nov 18, 2019

ymcui commented Nov 18, 2019

lshowway commented Nov 29, 2019

lshowway commented Nov 29, 2019

lzy1012 commented Dec 11, 2019