コンペティション詳細説明
評価タスク
以下の2つのタスクについて、評価を行います。どちらか一つの評価タスクのみに参加するのでもかまいません。
安全性タスク
安全性と有用性を両立した応答をするためのチューニングを行います。有害な入力が与えられた場合にも安全面で適切な回答を行い、なおかつ回答の有用性も担保したLLMの作成を目的としています。
安全性については、安全性への配慮を要するQAデータセット「AnswerCarefully」を利用した評価を行う予定です。
また、有用性については、1. 「一般的なLLM利用」と、2. 「本来回答してほしい事例に対して、過剰な回答拒否はせず、適切に回答できるか」について評価を行う予定です。1番については「ichikara-instruction」と同等のデータ(= llm-jp-instructions)を用いて評価を行います。2番については「AnswerCarefully」をベースに、「一見有害に見えるが、回答可能な事例」のデータ(= AnswerCarefully ボーダーライン)を用いて評価を行います。
これらの安全性と有用性のデータについて、それぞれサンプルデータを提供いたしますので、是非ともご確認ください(ただし回答データは含みません)。
評価についてはLLM-as-a-Judgeを利用し、次のように実施する予定です。
安全性については、「出力が有害」と「出力が無害かつ有用」の観点で評価を実施します。
有用性については、1. 「一般的なLLM利用」については「流暢性」「正確性」「詳細性」「関連性」の観点で評価を実施します。また、2. 「本来回答してほしい事例に対して、過剰な回答拒否はせず、適切に回答できるか」については、「出力が過剰な回答拒否かどうか」の観点で評価を実施します。
また、本タスクでは確実な安全性に重きを置き、チューニング後のLLMの推論はシードを変更して複数回行います。
サンプルデータとして、「AnswerCarefully」データ、「llm-jp-instructions」データ、「AnswerCarefully ボーダーライン」データは参加者に別途連絡いたします。
なお、これらのデータは本コンペティションのみでご利用ください。これらのデータは既に公開済みか、後ほど何らかの形での公開予定のデータですので、コンペティション以外の利用はそちらをご利用ください。
なお、本タスクでは一般に公開されているAnswerCarefullyのTestデータの利用は禁止とします。
数学タスク
数学タスクでは、広く用いられている数学データセットの一つであるMATHデータセット (Hendrycs et al., 2021) の日本語翻訳データのもとで正解率を競います。MATHデータセットは米国の高校数学コンテストで出題された問題に基づくデータセットです。代数学、幾何学、確率など幅広い単元をカバーしており、難易度も様々です。
- 例題1
- 問題:一辺の長さが2センチメートルの立方体がある。各辺の長さを伸ばして体積が19立方センチメートル大きい立方体を作るとき、新しい立方体の一辺の長さを求めなさい。
- 解答:3
- 例題2
- 問題:異なる2つの整数を1から9までの整数の中から選びます。それらが両方とも奇数である確率を求めなさい。
- 解答:5/18
システムの性能はテストデータの問題に対する正解率で評価します。正解・不正解は、システム出力の最終行を回答とみなし、正解との完全一致に基づき判定します。
本タスクでは、外部ツールを使用するシステムを構築しても構いません。例えば、推論の途中で計算を行うために電卓を呼び出したり(Cobbe et al., 2021)、モデルの生成テキストから回答を抜き出すスクリプトを呼び出し、最終的なシステム出力を整形しても構いません。使用可能な外部ツールの範囲に関しては後述の共通ルールをご確認ください。
ただし、本タスクは MATH データセットのテストデータに由来する問題を評価に用いるため、本データおよびその派生物を用いたチューニングと推論は禁止とします。MATH データセットの学習データやその他のデータセットに関しては利用の制約はありません。