コンペティション詳細説明





評価タスク


以下の2つのタスクについて、評価を行います。どちらか一つの評価タスクのみに参加するのでもかまいません。


安全性タスク


安全性と有用性を両立した応答をするためのチューニングを行います。有害な入力が与えられた場合にも安全面で適切な回答を行い、なおかつ回答の有用性も担保したLLMの作成を目的としています。

安全性については、安全性への配慮を要するQAデータセット「AnswerCarefully」を利用した評価を行う予定です。 また、有用性については、1. 「一般的なLLM利用」と、2. 「本来回答してほしい事例に対して、過剰な回答拒否はせず、適切に回答できるか」について評価を行う予定です。1番については「ichikara-instruction」と同等のデータ(= llm-jp-instructions)を用いて評価を行います。2番については「AnswerCarefully」をベースに、「一見有害に見えるが、回答可能な事例」のデータ(= AnswerCarefully ボーダーライン)を用いて評価を行います。 これらの安全性と有用性のデータについて、それぞれサンプルデータを提供いたしますので、是非ともご確認ください(ただし回答データは含みません)。

評価についてはLLM-as-a-Judgeを利用し、次のように実施する予定です。 安全性については、「出力が有害」と「出力が無害かつ有用」の観点で評価を実施します。 有用性については、1. 「一般的なLLM利用」については「流暢性」「正確性」「詳細性」「関連性」の観点で評価を実施します。また、2. 「本来回答してほしい事例に対して、過剰な回答拒否はせず、適切に回答できるか」については、「出力が過剰な回答拒否かどうか」の観点で評価を実施します。 また、本タスクでは確実な安全性に重きを置き、チューニング後のLLMの推論はシードを変更して複数回行います。

サンプルデータとして、「AnswerCarefully」データ、「llm-jp-instructions」データ、「AnswerCarefully ボーダーライン」データは参加者に別途連絡いたします。 なお、これらのデータは本コンペティションのみでご利用ください。これらのデータは既に公開済みか、後ほど何らかの形での公開予定のデータですので、コンペティション以外の利用はそちらをご利用ください。

なお、本タスクでは一般に公開されているAnswerCarefullyのTestデータの利用は禁止とします。

数学タスク


数学タスクでは、広く用いられている数学データセットの一つであるMATHデータセット (Hendrycs et al., 2021) の日本語翻訳データのもとで正解率を競います。MATHデータセットは米国の高校数学コンテストで出題された問題に基づくデータセットです。代数学、幾何学、確率など幅広い単元をカバーしており、難易度も様々です。

  1. 例題1

    1. 問題:一辺の長さが2センチメートルの立方体がある。各辺の長さを伸ばして体積が19立方センチメートル大きい立方体を作るとき、新しい立方体の一辺の長さを求めなさい。
    2. 解答:3

  2. 例題2

    1. 問題:異なる2つの整数を1から9までの整数の中から選びます。それらが両方とも奇数である確率を求めなさい。
    2. 解答:5/18

システムの性能はテストデータの問題に対する正解率で評価します。正解・不正解は、システム出力の最終行を回答とみなし、正解との完全一致に基づき判定します。

本タスクでは、外部ツールを使用するシステムを構築しても構いません。例えば、推論の途中で計算を行うために電卓を呼び出したり(Cobbe et al., 2021)、モデルの生成テキストから回答を抜き出すスクリプトを呼び出し、最終的なシステム出力を整形しても構いません。使用可能な外部ツールの範囲に関しては後述の共通ルールをご確認ください。

ただし、本タスクは MATH データセットのテストデータに由来する問題を評価に用いるため、本データおよびその派生物を用いたチューニングと推論は禁止とします。MATH データセットの学習データやその他のデータセットに関しては利用の制約はありません。




共通ルール


  1. チューニングを行うベースモデルは、llm-jp-3-13b とします(インストラクションチューニング済みモデルも可)。
    1. https://huggingface.co/llm-jp/llm-jp-3-13b
    2. https://huggingface.co/llm-jp/llm-jp-3-13b-instruct
    3. llm-jp-3-13b-instruct2-public(参加者のみに近日中に提供)
  2. 評価は、モデルやデコーダを全て含めた Docker ファイルを提出していただき、オーガナイザ側で推論および評価を行います(詳細は結果提出方法を参照)。コンペティション期間中に、開発データを用いた中間評価を実施します(詳細は別途ご連絡します)。
  3. 2つの評価タスクについて1つのモデルを構築してもよいですし、異なるモデルを構築してもかまいません。
  4. チューニング手法について制約はありません。継続学習、教師付き学習、知識編集など、何をやってもかまいません。
  5. 新たにデータを構築してもかまいません。本コンペティションで利用したデータについて公開義務はありません。ただし、各タスク説明で禁止されているデータは使用しないでください。
  6. デコーダやプロンプトを工夫してもかまいません。結果提出時には、デコーダやプロンプトを含めて提出していただきます。
  7. RAGや外部ツールを使用してもかまいませんが、評価の際にはネットワークから遮断した環境でモデルを動かします。モデルを動かすのに必要なファイルやデータは全て提出物に含めてください。
  8. 評価の際は以下の計算リソースを用います。この条件で評価が完了するようにしてください。
    1. mdx I GPU演算加速ノード​​ 1インスタンス (NVIDIA Tesla A100 40GiB x 4台)
      1. システムの詳細はmdx Iのページを参照してください
    2. 時間制限:テストデータ全体に対する推論が24時間以内に完了すること
    3. 提出するDockerイメージのサイズ: 200GBまで



ツール・データ


  1. ベースモデル https://huggingface.co/llm-jp/llm-jp-3-13b
  2. インストラクションチューニング済みモデル https://huggingface.co/llm-jp/llm-jp-3-13b-instruct
  3. サンプルコード(チューニング):llm-jp-3-13b をチューニングして llm-jp-3-13b-instruct2-public を作るプログラム
    1. https://github.com/llm-jp/tuning-competition-baseline
  4. サンプルコード(デコーダ)
    1. llm-jp-3-13b-instruct を動かして入力データに対して出力を行うプログラムが Docker のサンプルスクリプトに含まれています。
  5. サンプルデータ:参加者へ別途案内します。
  6. Weights & Biases
    1. 今回のコンペティションの利用に際しては、アカデミアの方だけではなく、企業の方も利用可能です。


結果提出方法


  1. モデルパラメータと推論用スクリプトをDockerイメージに含めて提出していただきます。
  2. Dockerイメージを作成するサンプルスクリプトを後日提供します。
  3. 最終的な提出先は後日お知らせします。



mdxの使い方


  1. 後日追記します。



注意事項


  1. コンペティションにおいてデータやLLMの利用に特に制限は設けませんが(タスクの説明で明示されているものを除く)、各データやモデルでは利用条件が定められているので、十分注意して利用するようにしてください。例えば OpenAI のモデルは、OpenAI と競合するモデルの開発が禁止されています。