コンペティションは以下のような形で開催いたします。
基本ルール
チューニングを行うベースモデルは、llm-jp-3-13b とします(インストラクションチューニング済みモデルも可)。
2つの評価タスクについて1つのモデルを構築してもよいですし、異なるモデルを構築してもかまいません。
ベースモデル
インストラクションチューニング済みモデル
評価タスク
以下の2つのタスクについて、評価を行います。
どちらか一つの評価タスクのみに参加するのでもかまいません。
各タスクの詳細については、参加チームに対して別途明示いたします。
安全性チューニング:安全性と有用性を両立した応答をするためのチューニングを行います。安全性への配慮を要するQAデータセット「AnswerCarefully 」、一般ドメインのQAデータセット「ichikara-instruction」と同等のテストデータを用いて、安全性と有用性の2つの側面を評価することを予定しています。
数学チューニング:算数や数学の問題を解く能力を向上させるためのチューニングを行います。算数・数学の試験問題をテストデータとして評価を行い、モデルの数学能力を評価します。
結果提出・評価方法
チューニング済みモデルおよびデコーダ一式をコンペティション終了までに提出していただきます。
提出物は、事務局が指定する形式で入力を受け取り、指定する形式で出力を行う Docker イメージとして提出します。
また、開発中に参加チーム自身で評価を行えるように、評価ツールおよびリーダーボードを提供します。
なお、事務局が許可なくDockerイメージの内容を確認することはありません(※詳細は後述)。
ワークショップ当日に1時間時間を取り、上位3チーム(参加チームが多い場合には5チーム)の出力について人手評価を実施する予定です。
同時に、安全性や数学能力の評価に詳しい方をパネリストとして、評価結果について議論を行う時間を設ける予定です。