-
Notifications
You must be signed in to change notification settings - Fork 0
/
tasks.html
293 lines (260 loc) · 16.7 KB
/
tasks.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
<!doctype html>
<html class="no-js" lang="zxx">
<head>
<meta charset="utf-8">
<meta http-equiv="x-ua-compatible" content="ie=edge">
<title>大規模言語モデルのファインチューニング技術と評価 - チューニングコンペティション</title>
<meta name="description" content="">
<meta name="viewport" content="width=device-width, initial-scale=1">
<link rel="manifest" href="site.webmanifest">
<link rel="stylesheet" href="assets/css/bootstrap.min.css">
<link rel="stylesheet" href="assets/css/owl.carousel.min.css">
<link rel="stylesheet" href="assets/css/flaticon.css">
<link rel="stylesheet" href="assets/css/slicknav.css">
<link rel="stylesheet" href="assets/css/animate.min.css">
<link rel="stylesheet" href="assets/css/magnific-popup.css">
<link rel="stylesheet" href="assets/css/fontawesome-all.min.css">
<link rel="stylesheet" href="assets/css/themify-icons.css">
<link rel="stylesheet" href="assets/css/slick.css">
<link rel="stylesheet" href="assets/css/nice-select.css">
<link rel="stylesheet" href="assets/css/style.css">
<link rel="stylesheet" href="assets/css/responsive.css">
</head>
<body>
<div id="preloader-active">
<div class="preloader d-flex align-items-center justify-content-center">
<div class="preloader-inner position-relative">
<div class="preloader-circle"></div>
<div class="preloader-img pere-text">
</div>
</div>
</div>
</div>
<header>
<div class="header-area header-transparrent ">
<div class="main-header sky-blue header-sticky">
<div class="container">
<div class="row align-items-center">
<!-- Logo -->
<div class="col-xl-2 col-lg-2 col-md-2">
<div class="logo">
<a href="index.html">
<img src="assets/img/NLPlogo_300x100.png" alt=""></a>
</div>
</div>
<div class="col-xl-10 col-lg-10 col-md-10">
<div class="main-menu f-right d-none d-lg-block">
<nav>
<ul id="navigation">
<li><a href="index.html"> ワークショップ</a></li>
<li><a href="feature.html">コンペティション</a></li>
<li class="active"><a href="tasks.html">コンペティション詳細説明</a></li>
<li><a href="contact.html">オーガナイザ</a></li>
</ul>
</nav>
</div>
</div>
<div class="col-12">
<div class="mobile_menu d-block d-lg-none"></div>
</div>
</div>
</div>
</div>
</div>
</header>
<main>
<div class="single-slider slider-height slider-padding black d-flex align-items-center">
<div class="container">
<div class="row d-flex align-items-center">
<!-- <div class="col-lg-22 col-md-12 "> -->
<div class="col-lg-22 col-md-10 ">
<div class="hero__caption">
<br>
<br><br>
<h3 data-animation="fadeInUp" data-delay=".6s">コンペティション詳細説明</h3>
<br><br>
<br><br>
<h4 data-animation="fadeInUp" data-delay=".6s">評価タスク</h4>
<br>
<p data-animation="fadeInUp" data-delay=".8s">
以下の2つのタスクについて、評価を行います。どちらか一つの評価タスクのみに参加するのでもかまいません。
</p>
<br>
<h4 data-animation="fadeInUp" data-delay=".6s">安全性タスク</h4>
<p data-animation="fadeInUp" data-delay=".8s">
<br>
安全性と有用性を両立した応答をするためのチューニングを行います。有害な入力が与えられた場合にも安全面で適切な回答を行い、なおかつ回答の有用性も担保したLLMの作成を目的としています。
<br><br>
安全性については、安全性への配慮を要するQAデータセット「AnswerCarefully」を利用した評価を行う予定です。
また、有用性については、1. 「一般的なLLM利用」と、2. 「本来回答してほしい事例に対して、過剰な回答拒否はせず、適切に回答できるか」について評価を行う予定です。1番については<a href="https://liat-aip.sakura.ne.jp/wp/llm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90/llm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF-%E5%85%AC%E9%96%8B/">「ichikara-instruction」</a>と同等のデータ(= llm-jp-instructions)を用いて評価を行います。2番については<a href="https://liat-aip.sakura.ne.jp/wp/answercarefully-dataset/">「AnswerCarefully」</a>をベースに、「一見有害に見えるが、回答可能な事例」のデータ(= AnswerCarefully ボーダーライン)を用いて評価を行います。
これらの安全性と有用性のデータについて、それぞれサンプルデータを提供いたしますので、是非ともご確認ください(ただし回答データは含みません)。
<br><br>
評価についてはLLM-as-a-Judgeを利用し、次のように実施する予定です。
安全性については、「出力が有害」と「出力が無害かつ有用」の観点で評価を実施します。
有用性については、1. 「一般的なLLM利用」については「流暢性」「正確性」「詳細性」「関連性」の観点で評価を実施します。また、2. 「本来回答してほしい事例に対して、過剰な回答拒否はせず、適切に回答できるか」については、「出力が過剰な回答拒否かどうか」の観点で評価を実施します。
また、本タスクでは確実な安全性に重きを置き、チューニング後のLLMの推論はシードを変更して複数回行います。
<br><br>
サンプルデータとして、「AnswerCarefully」データ、「llm-jp-instructions」データ、「AnswerCarefully ボーダーライン」データは参加者に別途連絡いたします。
なお、これらのデータは本コンペティションのみでご利用ください。これらのデータは既に公開済みか、後ほど何らかの形での公開予定のデータですので、コンペティション以外の利用はそちらをご利用ください。
<br><br>
なお、本タスクでは一般に公開されているAnswerCarefullyのTestデータの利用は禁止とします。
<br><br>
</p>
<h4 data-animation="fadeInUp" data-delay=".6s">数学タスク</h4>
<p data-animation="fadeInUp" data-delay=".8s">
<br>
数学タスクでは、広く用いられている数学データセットの一つであるMATHデータセット <a href="https://arxiv.org/abs/2103.03874">(Hendrycs et al., 2021)</a> の日本語翻訳データのもとで正解率を競います。MATHデータセットは米国の高校数学コンテストで出題された問題に基づくデータセットです。代数学、幾何学、確率など幅広い単元をカバーしており、難易度も様々です。
<br><br>
<ol>
<li>例題1
<ol>
<br>
<li>問題:一辺の長さが2センチメートルの立方体がある。各辺の長さを伸ばして体積が19立方センチメートル大きい立方体を作るとき、新しい立方体の一辺の長さを求めなさい。
<li>解答:3
</ol>
<br>
<li>例題2
<ol>
<br>
<li>問題:異なる2つの整数を1から9までの整数の中から選びます。それらが両方とも奇数である確率を求めなさい。
<li>解答:<sup>5</sup>/<sub>18</sub>
</ol>
</ol>
<br>
<p data-animation="fadeInUp" data-delay=".8s">
システムの性能はテストデータの問題に対する正解率で評価します。正解・不正解は、システム出力の最終行を回答とみなし、正解との完全一致に基づき判定します。
<br><br>
本タスクでは、外部ツールを使用するシステムを構築しても構いません。例えば、推論の途中で計算を行うために電卓を呼び出したり<a href="https://arxiv.org/abs/2110.14168">(Cobbe et al., 2021)</a>、モデルの生成テキストから回答を抜き出すスクリプトを呼び出し、最終的なシステム出力を整形しても構いません。使用可能な外部ツールの範囲に関しては後述の共通ルールをご確認ください。
<br><br>
ただし、本タスクは MATH データセットのテストデータに由来する問題を評価に用いるため、本データおよびその派生物を用いたチューニングと推論は禁止とします。MATH データセットの学習データやその他のデータセットに関しては利用の制約はありません。
<br><br>
</p>
</div>
</div>
</div>
</div>
</div>
<!-- <div class="single-slider slider-height slider-padding black d-flex align-items-center"> -->
<div class="single-slider slider-height slider-padding gray d-flex align-items-center">
<div class="container">
<div class="row d-flex align-items-center">
<!-- <div class="col-lg-22 col-md-12 "> -->
<div class="col-lg-22 col-md-10 ">
<div class="hero__caption">
<br>
<br><br>
<h4 data-animation="fadeInUp" data-delay=".6s">共通ルール</h4>
<p data-animation="fadeInUp" data-delay=".8s">
<br>
<ol>
<li>チューニングを行うベースモデルは、llm-jp-3-13b とします(インストラクションチューニング済みモデルも可)。</ul>
<ol>
<li><a href="https://huggingface.co/llm-jp/llm-jp-3-13b">https://huggingface.co/llm-jp/llm-jp-3-13b</a>
<li><a href="https://huggingface.co/llm-jp/llm-jp-3-13b-instruct">https://huggingface.co/llm-jp/llm-jp-3-13b-instruct</a>
<li> llm-jp-3-13b-instruct2-public(参加者のみに近日中に提供)
</ol>
<li>評価は、モデルやデコーダを全て含めた Docker ファイルを提出していただき、オーガナイザ側で推論および評価を行います(詳細は結果提出方法を参照)。コンペティション期間中に、開発データを用いた中間評価を実施します(詳細は別途ご連絡します)。</li>
<li>2つの評価タスクについて1つのモデルを構築してもよいですし、異なるモデルを構築してもかまいません。</li>
<li>チューニング手法について制約はありません。継続学習、教師付き学習、知識編集など、何をやってもかまいません。
<li>新たにデータを構築してもかまいません。本コンペティションで利用したデータについて公開義務はありません。ただし、各タスク説明で禁止されているデータは使用しないでください。
<li>デコーダやプロンプトを工夫してもかまいません。結果提出時には、デコーダやプロンプトを含めて提出していただきます。
<li>RAGや外部ツールを使用してもかまいませんが、評価の際にはネットワークから遮断した環境でモデルを動かします。モデルを動かすのに必要なファイルやデータは全て提出物に含めてください。
<li>評価の際は以下の計算リソースを用います。この条件で評価が完了するようにしてください。
<ol>
<li>mdx I GPU演算加速ノード 1インスタンス (NVIDIA Tesla A100 40GiB x 4台)
<ol>
<li>システムの詳細は<a href="https://mdx.jp/mdx1">mdx I</a>のページを参照してください
</ol>
<li>時間制限:テストデータ全体に対する推論が24時間以内に完了すること
<li>提出するDockerイメージのサイズ: 200GBまで
</ol>
</ol>
</p>
<br><br>
<h4 data-animation="fadeInUp" data-delay=".6s">ツール・データ</h4>
<p data-animation="fadeInUp" data-delay=".8s">
<br>
<ol>
<li>ベースモデル <a href="https://huggingface.co/llm-jp/llm-jp-3-13b">
https://huggingface.co/llm-jp/llm-jp-3-13b</a>
<li>インストラクションチューニング済みモデル
<a href="https://huggingface.co/llm-jp/llm-jp-3-13b-instruct">https://huggingface.co/llm-jp/llm-jp-3-13b-instruct</a>
<li>サンプルコード(チューニング):llm-jp-3-13b をチューニングして llm-jp-3-13b-instruct2-public を作るプログラム
<ol>
<li> <a href="https://github.com/llm-jp/tuning-competition-baseline">https://github.com/llm-jp/tuning-competition-baseline</a>
</ol>
<li>サンプルコード(デコーダ)
<ol>
<li> llm-jp-3-13b-instruct を動かして入力データに対して出力を行うプログラムが Docker のサンプルスクリプトに含まれています。
</ol>
<li>サンプルデータ:参加者へ別途案内します。
<li>Weights & Biases
<ol>
<li>今回のコンペティションの利用に際しては、アカデミアの方だけではなく、企業の方も利用可能です。
</ol>
</ol>
<br><br>
<h4 data-animation="fadeInUp" data-delay=".6s">結果提出方法</h4>
<p data-animation="fadeInUp" data-delay=".8s">
<br>
<ol>
<li>モデルパラメータと推論用スクリプトをDockerイメージに含めて提出していただきます。
<li>Dockerイメージを作成するサンプルスクリプトを後日提供します。
<li>最終的な提出先は後日お知らせします。
</ol>
</p>
<br><br>
<h4 data-animation="fadeInUp" data-delay=".6s">mdxの使い方</h4>
<p data-animation="fadeInUp" data-delay=".8s">
<br>
<ol>
<li>後日追記します。
</ol>
</p>
<br><br>
<h4 data-animation="fadeInUp" data-delay=".6s">注意事項</h4>
<p data-animation="fadeInUp" data-delay=".8s">
<br>
<ol>
<li>コンペティションにおいてデータやLLMの利用に特に制限は設けませんが(タスクの説明で明示されているものを除く)、各データやモデルでは利用条件が定められているので、十分注意して利用するようにしてください。例えば OpenAI のモデルは、OpenAI と競合するモデルの開発が禁止されています。
</ol>
</p>
<br><br>
<br><br>
</div>
</div>
</div>
</div>
</div>
</main>
<script src="./assets/js/vendor/modernizr-3.5.0.min.js"></script>
<!-- Jquery, Popper, Bootstrap -->
<script src="./assets/js/vendor/jquery-1.12.4.min.js"></script>
<script src="./assets/js/popper.min.js"></script>
<script src="./assets/js/bootstrap.min.js"></script>
<!-- Jquery Mobile Menu -->
<script src="./assets/js/jquery.slicknav.min.js"></script>
<!-- Jquery Slick , Owl-Carousel Plugins -->
<script src="./assets/js/owl.carousel.min.js"></script>
<script src="./assets/js/slick.min.js"></script>
<!-- Date Picker -->
<script src="./assets/js/gijgo.min.js"></script>
<!-- One Page, Animated-HeadLin -->
<script src="./assets/js/wow.min.js"></script>
<script src="./assets/js/animated.headline.js"></script>
<script src="./assets/js/jquery.magnific-popup.js"></script>
<!-- Scrollup, nice-select, sticky -->
<script src="./assets/js/jquery.scrollUp.min.js"></script>
<script src="./assets/js/jquery.nice-select.min.js"></script>
<script src="./assets/js/jquery.sticky.js"></script>
<!-- contact js -->
<script src="./assets/js/contact.js"></script>
<script src="./assets/js/jquery.form.js"></script>
<script src="./assets/js/jquery.validate.min.js"></script>
<script src="./assets/js/mail-script.js"></script>
<script src="./assets/js/jquery.ajaxchimp.min.js"></script>
<!-- Jquery Plugins, main Jquery -->
<script src="./assets/js/plugins.js"></script>
<script src="./assets/js/main.js"></script>
</body>
</html>