チューニングコンペティション

本ワークショップでは、チューニングコンペティションを開催します。 本コンペティションでは、安全性あるいは数学能力に強いLLMの構築を目指したファインチューニングにフォーカスを当てます。 ワークショップ当日には、各参加チームからの報告に加えて、上位チームの出力について人手評価や議論を行う予定です。

参加募集

チューニングコンペティションへの参加登録は以下からお願いします。 コンペティションの詳細は代表者のメールアドレスへ連絡いたします。

参加登録フォーム

スケジュール

コンペティション参加登録締切:2024年12月15日
コンペティション期間:2024年12月16日〜2025年2月20日
論文投稿締切 (論文投稿は必須ではありません):2025年3月5日
ワークショップ開催:2025年3月14日

コンペティションは以下のような形で開催いたします。

基本ルール

チューニングを行うベースモデルは、llm-jp-3-13b とします(インストラクションチューニング済みモデルも可)。 2つの評価タスクについて1つのモデルを構築してもよいですし、異なるモデルを構築してもかまいません。
ベースモデル
インストラクションチューニング済みモデル

評価タスク

以下の2つのタスクについて、評価を行います。 どちらか一つの評価タスクのみに参加するのでもかまいません。 各タスクの詳細については、参加チームに対して別途明示いたします。
安全性チューニング:安全性と有用性を両立した応答をするためのチューニングを行います。安全性への配慮を要するQAデータセット「AnswerCarefully 」、一般ドメインのQAデータセット「ichikara-instruction」と同等のテストデータを用いて、安全性と有用性の2つの側面を評価することを予定しています。
数学チューニング:算数や数学の問題を解く能力を向上させるためのチューニングを行います。算数・数学の試験問題をテストデータとして評価を行い、モデルの数学能力を評価します。

結果提出・評価方法

チューニング済みモデルおよびデコーダ一式をコンペティション終了までに提出していただきます。 提出物は、事務局が指定する形式で入力を受け取り、指定する形式で出力を行う Docker イメージとして提出します。 また、開発中に参加チーム自身で評価を行えるように、評価ツールおよびリーダーボードを提供します。 なお、事務局が許可なくDockerイメージの内容を確認することはありません(※詳細は後述)。
ワークショップ当日に1時間時間を取り、上位3チーム(参加チームが多い場合には5チーム)の出力について人手評価を実施する予定です。 同時に、安全性や数学能力の評価に詳しい方をパネリストとして、評価結果について議論を行う時間を設ける予定です。

GPU提供

本コンペティションへの参加にあたって十分な計算リソースを持たない参加チームに対して、mdx 1インスタンス(NVIDIA Tesla A100 40GB 4枚)を上限としてリクエストに応じて計算リソースを提供いたします。 参加登録時に、希望するGPU数と希望理由を申請してください。 提供できる資源が限られているため、各チームに提供するGPU数は事務局の決定にしたがっていただきます。 mdxの利用を希望するチーム数やmdxの混雑状況によっては、希望通りの計算リソースを提供することができない可能性があります。 また、参加チーム数によっては、期間全体としてではなく、日毎のローテーションを行う可能性もあります。 提供する計算リソースは、本コンペティションのための開発・実験のみに用いることができます。 GPU提供を受けた参加チームは、結果提出およびワークショップでの発表を必須とします。

ワークショップでの発表

3月14日にNLP2025併設のワークショップを開催します。 このワークショップの中で、結果提出をした参加チーム毎に代表者1人に発表を行っていただきます(発表は遠隔でも可)。 なお、参加チーム数が発表枠を超えた場合には、事務局でセレクションをさせていただく可能性があることにご承知おきください。 この結果発表では、チューニング手法の詳細、使用したデータなどを発表いただくようお願いいたします。

※Dockerイメージの取り扱いについて

投稿者本人の依頼または許可がない限り,Dockerイメージの内容(中身のコード)を事務局は確認しない
投稿者本人の依頼または許可がない限り,本コンペティションの精度評価以外に利用しない
投稿者本人の依頼または許可がない限り,本評価システムから外部の記憶媒体にコピーしない
投稿者本人の依頼または許可がない限り,本コンペティション終了後一定期間の後に全て削除する