Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

您好,想请问论文里说train跟dev分别是10321和3351个问题,但实际上github上的train跟dev分别是10142和3219个问题? 另外squad-style的数据有少部分的数据answer start有误? #22

Open
r09944035vsfu1 opened this issue Dec 13, 2022 · 0 comments

Comments

@r09944035vsfu1
Copy link

r09944035vsfu1 commented Dec 13, 2022

论文里说train跟dev分别是10321和3351个问题
但实际上github上的train跟dev分别是10142和3219个问题 (huggingface上面也是10142和3219个问题),想请问是为什么?

另外squad-style的数据比如./squad-style-data/cmrc2018_train.json,有少部分的数据的answer start跟answer text不匹配
比如TRAIN_3678_QUERY_4 的问题,answer_start对应context中的答案是"总统袁世凯将",但text标注是"大总统袁世凯"

想请问一下,谢谢

@r09944035vsfu1 r09944035vsfu1 changed the title 您好,想请问论文里说train跟dev分别是10321和3351个问题,但实际上github上的train跟dev分别是10142和3219个问题,想请问是为什么? 谢谢 您好,想请问论文里说train跟dev分别是10321和3351个问题,但实际上github上的train跟dev分别是10142和3219个问题。另外SQuAD style的数据有少部分的数据answer start有误? Dec 13, 2022
@r09944035vsfu1 r09944035vsfu1 changed the title 您好,想请问论文里说train跟dev分别是10321和3351个问题,但实际上github上的train跟dev分别是10142和3219个问题。另外SQuAD style的数据有少部分的数据answer start有误? 您好,想请问论文里说train跟dev分别是10321和3351个问题,但实际上github上的train跟dev分别是10142和3219个问题。另外squad-style的数据有少部分的数据answer start有误? Dec 13, 2022
@r09944035vsfu1 r09944035vsfu1 changed the title 您好,想请问论文里说train跟dev分别是10321和3351个问题,但实际上github上的train跟dev分别是10142和3219个问题。另外squad-style的数据有少部分的数据answer start有误? 您好,想请问论文里说train跟dev分别是10321和3351个问题,但实际上github上的train跟dev分别是10142和3219个问题? 另外squad-style的数据有少部分的数据answer start有误? Dec 13, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant