大規模言語モデルのファインチューニング技術と評価

チューニングコンペティション

概要

FT-LLM 2026では、チューニングコンペティションを開催します。本コンペティションでは、数学タスクでの性能向上と、自由型タスクによる応用事例の開拓を目指します。ワークショップ当日には、各参加チームからの報告を行う予定です。

参加募集

チューニングコンペティションへの参加登録は以下からお願いします。コンペティションの詳細は代表者のメールアドレスへ連絡いたします。

参加登録フォーム

スケジュール

募集開始：2025年10月1日
募集締切：2025年10月22日
実施期間：2025年11月5日〜2026年1月31日
最終評価：2026年2月上旬
報告会／WS：2026年2〜3月（NLP2026WSもしくは東京都内開催を想定）

数学タスク

概要

数学タスクでは、日本の中学校・高等学校で扱う数学問題を対象に、言語モデルを基盤とするシステムを構築してその回答精度を競います。出題される問題はテキストのみで記述され、図形の読み取りを必要とする問題は含まれません。ただし、幾何学的関係をテキストで十分に記述できる問題（例えば三角関数やベクトルの問題など）は出題範囲です。数式は LaTeX 形式で表記されます。
たとえば、以下のような問題が出題されます。
例題１（出題範囲：中学校／第1学年／数と式）

問題：次の式を簡単にしなさい。$\frac{6x+2}{3}\div\frac{4}{9}$
解答：$\frac{9x+3}{2}$

例題２（出題範囲：高等学校／数学III／極限）

問題：$S_n$は次の式で与えられる。$S_n = \frac{1}{3^1} + \frac{2}{3^2} + \frac{3}{3^3} + \frac{4}{3^4} + \cdots + \frac{n}{3^n} = \sum_{k=1}^{n}\frac{k}{3^k}.$ このとき$\lim_{n \to \infty} S_n$の値を求めよ。
解答：$\frac{3}{4}$

ルール

LLM-jp で開発中の言語モデル llm-jp-4-8b（以下 LLM-jp モデル）をベースに数学問題を解くシステムを構築してください。 LLM-jp モデルを追加学習することはもちろん、推論の途中で電卓を呼び出す (Cobbe et al., 2021)、複数の回答候補をサンプリングして多数決を取る (Wang et al., 2023) など、LLM-jp モデルの能力を拡張したり、推論の頑健性を高めたりする工夫を組み込んでも構いません。ただし、以下の制約を守ってください。

推論時における外部モデルの利用

推論時に使用できる大規模言語モデルは LLM-jp モデルに限ります。 LLM-jp モデルとは独立に開発された、外部の大規模言語モデル（例：gpt-oss、Qwen-3）は推論時に利用できません。テキストや画像の生成を伴わない機械学習モデル（例：BERT）は開発組織によらず推論時に利用できます。ただし、外部の大規模言語モデルから派生したモデル（例：LM Head を切り離した gpt-oss）は、外部の大規模言語モデルに準ずるものとして、推論時の利用を禁止します。
具体例を示します：

BERTの埋め込みに基づき類題を取得し、Few-shot 事例として利用する
gpt-oss で回答を生成し、LLM-jp モデルでその回答を整形する
LLM-jp モデルで回答候補を複数生成し、gpt-oss で最良の候補を選択する
LLM-jp モデルの回答を LM Head を切り離した gpt-oss に入力し、内部表現に基づき正誤判定を行う

学習時における外部モデルの利用

LLM-jp モデルの追加学習のために外部の大規模言語モデルの出力に基づくデータを使用することは認められます。ただし、その場合はデータ生成に使用するモデルの利用規約に十分注意してください。例えば、データのフィルタリングに使用しただけであっても、その外部モデルのライセンスの制約を受け、オープンライセンスでのモデル公開（オープン枠参加の要件；後述）が出来なくなる場合があります。判断が難しい場合は、オーガナイザーまでお問い合わせください。
外部の大規模言語モデルのパラメータを直接 LLM-jp モデルに取り込む手法（例：モデルマージ）は、本コンペティションでは禁止とします。
具体例を示します：

gpt-oss（Apache 2.0 ライセンス）で問題と回答を生成し、そのデータで LLM-jp モデルを追加学習する
Llama-3.1（Llama ライセンス）で問題と回答を生成し、そのデータで LLM-jp モデルを追加学習する（※ オープン枠で参加する場合）
LLM-jp モデルの重みの一部を gpt-oss の重みに置き換える

インターネットの利用

推論時はインターネットから遮断されます。ウェブ検索で取得した類題に基づく検索拡張生成 (RAG) など、インターネットアクセスを要する推論時の工夫は適用できません。

評価

非公開のテストセットに含まれる500問を用いて、最終的な回答の一致に基づき正解率を評価します。評価スクリプトは Github で公開しています。本評価スクリプトでは、ルールベースの正規化処理により、一定の揺れを許容した正解判定を行います。例えば正解が $ \displaystyle\frac{x}{2} $ のとき、 $\frac{x}{2}$ や $\frac{1}{2}x$ はいずれも正解として判定されます。正規化処理および一致判定には Math-Verify を使用しています。

提出

学習済みモデルを含む Docker イメージファイルまたは Singularity イメージファイルを提出してください。 Docker イメージとして提出された場合、主催側で Singularity イメージに変換した上で評価を実行します。 Singularity イメージファイルの作成サンプルは ft-llm-2026 リポジトリの例を参照してください。評価の実行環境は ABCI 3.0 の1ノード（NVIDIA H200 GPU 8枚、2TB RAM）です。提出ファイルのサイズは 64GB を上限とします。実行時間は500分を上限とします。提出ファイルのサイズと実行時間は表彰の基準には含まれませんが、結果を公開する際に参考情報として併記します。

参加枠

オープン枠とクローズ枠の二つがあります。オープン枠の参加者は、最終的なシステムを OSS ライセンスで公開する必要があります。オープン枠の参加者には、ABCI 3.0 を 50 〜 100 ノード日分の計算資源を提供します。クローズ枠の参加者は、共通ルール以外の制約がない代わりに計算資源の提供はありません。
表彰は、オープン枠とクローズ枠を合わせた全体順位とオープン枠のみでの順位に基づき行います。

オープン枠

オープン枠の参加者は、最終的なシステムを OSS ライセンスで公開する必要があります。したがって、開発で使用できるのは最終的にオープンライセンスで公開されるリソースに限られます。また、再現手順を記載したレポートの提出と、学習済みモデルのオープンライセンスでの公開が求められます。

クローズ枠

クローズ枠の参加者は共通ルールの範囲内で自由に取り組むことができます。モデルやデータの公開義務はありません。成果発表も簡単な概要のみで構いません。ただし、計算リソースの貸与がないことにご注意ください。

自由型タスク

概要

自由型タスクは、オーガナイザーが課題を指定せず、参加チームが自由に LLM-jpモデルをチューニング・応用できる形式のタスクです。 LLM-jp モデルの多様な応用事例を集めることを目的としています。たとえば、以下のような応用事例が考えられます。

特定のドメインに特化した質問応答システム
特定のスタイルで文章を生成するシステム
コード生成システム
RAGシステム
その他、LLM-jpモデルを活用した応用事例

事前審査

計算資源の提供を受けるためには、事前審査を通過する必要があります。(※計算資源の提供を受けない場合は事前審査は不要です) 希望する参加チームには、ABCI 3.0 を 50 〜 100 ノード日分の計算資源を提供します。コンペティション参加登録時に以下の応募シートも提出ください。

応募シート
 応募シート（記入例）

計算資源に限りがあることから、最大5チームまで計算資源の提供を行います。コンペの目的に合致しているかどうかに加えて、提案の面白さや技術の価値、実現可能性などを考慮して、オーガナイザーによって審査を行います。

ルール

LLM-jpが開発中の言語モデル、llm-jp-4-8b をベースに開発してください。データやモデルの利用条件には十分注意して利用してください。例えば OpenAI のモデル(OSSを除く)は、OpenAI と競合するモデルの開発が禁止されています。自由形タスクでは、モデルや使用したデータの公開義務はありません。

結果提出方法

報告会での発表をもって結果提出とします。発表内容には、ライブデモもしくはデモ動画を含めてください。

評価方法

報告会での発表内容をもとに審査員により評価を行います。コンペの目的に合致しているかどうかに加えて、提案の面白さや技術の価値、LLM-jpモデルの活用度等を総合的に評価します。

その他

共有リソース

運営からは、以下のリソースを提供します。

ベースモデル
インストラクションプリトレーニング済みモデル
インストラクションチューニング済みモデル
チューニングスクリプト
中間学習スクリプト

その他にコンペティションで利用可能なリソースについては、各タスクのルールに従ってください。

計算資源の提供

希望するチームに対して、以下の計算資源を配布します。 ABCI 3.0 (Nvidia H200 x 8枚 / 1ノード)

配布数は以下の通りです。

数学タスク（※オープン枠のみ対象）
- 1チーム50~100ノード日 (※希望チーム数により変動)
- 先着10チーム
自由型タスク
- 1チーム100ノード日
- 最大5チーム (※事前審査あり)

計算資源管理の都合上、各チームはいずれかのタスクでしか計算資源の提供を受けられません。両方申請いただくことは可能ですが、自由タスクでの審査が通った場合、いずれか片方のタスクで計算資源提供をご辞退いただく必要があります。
各ユーザーは複数のチームで計算資源の提供を受けることはできません。
ABCIの利用規約に則るため、非居住者等による利用に抵触する方は、本計算資源を利用できません。

注意事項

データやモデルの利用条件には十分注意して利用するようにしてください。例えば OpenAI のモデル(OSSを除く)は、OpenAI と競合するモデルの開発が禁止されています。
llm-jp-4-8b は2025年11月現在，一般公開前のモデルであり，今回のコンペティションに限り学習途中のチェックポイントを参加者のみに配布いたします．一般公開までの期間は，配布したモデルおよびそのモデルを基にしたチューニング済みモデル，ならびにそれらを用いて生成したデータ等の派生物の公開はお控えください．一般公開後は，公開していただいて問題ございません．

QA

問い合わせのあった質問とその回答を以下に示します。

Q: 1チームあたりの参加人数に制限はありますか？
A: ありません。
Q: 学生のみで参加できますか？
A: はい。歓迎します。
Q: 複数の所属のメンバーでチームを組んでも良いですか？
A: はい。歓迎します。