FT-LLM 2026では、チューニングコンペティションを開催します。
本コンペティションでは、数学タスクでの性能向上と、自由型タスクによる応用事例の開拓を目指します。
ワークショップ当日には、各参加チームからの報告を行う予定です。
チューニングコンペティションへの参加登録は以下からお願いします。
コンペティションの詳細は代表者のメールアドレスへ連絡いたします。
参加登録フォーム
募集開始:2025年10月1日
募集締切:2025年10月22日
実施期間:2025年11月5日〜2026年1月31日
最終評価:2026年2月上旬
報告会/WS:2026年2〜3月(NLP2026WSもしくは東京都内開催を想定)
数学タスクでは、日本の中学校・高等学校で扱う数学問題を対象に、言語モデルを基盤とするシステムを構築してその回答精度を競います。
出題される問題はテキストのみで記述され、図形の読み取りを必要とする問題は含まれません。ただし、幾何学的関係をテキストで十分に記述できる問題(例えば三角関数やベクトルの問題など)は出題範囲です。
数式は LaTeX 形式で表記されます。
たとえば、以下のような問題が出題されます。
例題1(出題範囲:中学校/第1学年/数と式)
問題:次の式を簡単にしなさい。$\frac{6x+2}{3}\div\frac{4}{9}$
解答:$\frac{9x+3}{2}$
例題2(出題範囲:高等学校/数学III/極限)
問題:$S_n$は次の式で与えられる。$S_n = \frac{1}{3^1} + \frac{2}{3^2} + \frac{3}{3^3} + \frac{4}{3^4} + \cdots + \frac{n}{3^n} = \sum_{k=1}^{n}\frac{k}{3^k}.$ このとき$\lim_{n \to \infty} S_n$の値を求めよ。
解答:$\frac{3}{4}$
LLM-jp で開発中の言語モデル llm-jp-4-8b(以下 LLM-jp モデル)をベースに数学問題を解くシステムを構築してください。 LLM-jp モデルを追加学習することはもちろん、推論の途中で電卓を呼び出す (Cobbe et al., 2021)、 複数の回答候補をサンプリングして多数決を取る (Wang et al., 2023) など、LLM-jp モデルの能力を拡張したり、推論の頑健性を高めたりする工夫を組み込んでも構いません。 ただし、以下の制約を守ってください。
推論時における外部モデルの利用
推論時に使用できる大規模言語モデルは LLM-jp モデルに限ります。
LLM-jp モデルとは独立に開発された、外部の大規模言語モデル(例:gpt-oss、Qwen-3)は推論時に利用できません。
テキストや画像の生成を伴わない機械学習モデル(例:BERT)は開発組織によらず推論時に利用できます。
ただし、外部の大規模言語モデルから派生したモデル(例:LM Head を切り離した gpt-oss)は、外部の大規模言語モデルに準ずるものとして、推論時の利用を禁止します。
具体例を示します:
LLM-jp モデルの追加学習のために外部の大規模言語モデルの出力に基づくデータを使用することは認められます。
ただし、その場合はデータ生成に使用するモデルの利用規約に十分注意してください。
例えば、データのフィルタリングに使用しただけであっても、その外部モデルのライセンスの制約を受け、オープンライセンスでのモデル公開(オープン枠参加の要件;後述)が出来なくなる場合があります。
判断が難しい場合は、オーガナイザーまでお問い合わせください。
外部の大規模言語モデルのパラメータを直接 LLM-jp モデルに取り込む手法(例:モデルマージ)は、本コンペティションでは禁止とします。
具体例を示します:
推論時はインターネットから遮断されます。ウェブ検索で取得した類題に基づく検索拡張生成 (RAG) など、インターネットアクセスを要する推論時の工夫は適用できません。
非公開のテストセットに含まれる500問を用いて、最終的な回答の一致に基づき正解率を評価します。
評価スクリプトは Github で公開しています。
本評価スクリプトでは、ルールベースの正規化処理により、一定の揺れを許容した正解判定を行います。
例えば正解が \( \displaystyle\frac{x}{2} \) のとき、$\frac{x}{2}$ や $\frac{1}{2}x$ はいずれも正解として判定されます。
正規化処理および一致判定には Math-Verify を使用しています。
学習済みモデルを含む Docker イメージファイルまたは Singularity イメージファイルを提出してください。 Docker イメージとして提出された場合、主催側で Singularity イメージに変換した上で評価を実行します。 Singularity イメージファイルの作成サンプルは ft-llm-2026 リポジトリの例を参照してください。 評価の実行環境は ABCI 3.0 の1ノード(NVIDIA H200 GPU 8枚、2TB RAM)です。 提出ファイルのサイズは 64GB を上限とします。 実行時間は500分を上限とします。 提出ファイルのサイズと実行時間は表彰の基準には含まれませんが、結果を公開する際に参考情報として併記します。
オープン枠とクローズ枠の二つがあります。オープン枠の参加者は、最終的なシステムを OSS ライセンスで公開する必要があります。
オープン枠の参加者には、ABCI 3.0 を 50 〜 100 ノード日分の計算資源を提供します。クローズ枠の参加者は、共通ルール以外の制約がない代わりに計算資源の提供はありません。
表彰は、オープン枠とクローズ枠を合わせた全体順位とオープン枠のみでの順位に基づき行います。
オープン枠の参加者は、最終的なシステムを OSS ライセンスで公開する必要があります。 したがって、開発で使用できるのは最終的にオープンライセンスで公開されるリソースに限られます。 また、再現手順を記載したレポートの提出と、学習済みモデルのオープンライセンスでの公開が求められます。
クローズ枠の参加者は共通ルールの範囲内で自由に取り組むことができます。 モデルやデータの公開義務はありません。成果発表も簡単な概要のみで構いません。 ただし、計算リソースの貸与がないことにご注意ください。
自由型タスクは、オーガナイザーが課題を指定せず、参加チームが自由に LLM-jpモデルをチューニング・応用できる形式のタスクです。 LLM-jp モデルの多様な応用事例を集めることを目的としています。 たとえば、以下のような応用事例が考えられます。
計算資源の提供を受けるためには、事前審査を通過する必要があります。(※計算資源の提供を受けない場合は事前審査は不要です)
希望する参加チームには、ABCI 3.0 を 50 〜 100 ノード日分の計算資源を提供します。
コンペティション参加登録時に以下の応募シートも提出ください。
応募シート
応募シート(記入例)
計算資源に限りがあることから、最大5チームまで計算資源の提供を行います。
コンペの目的に合致しているかどうかに加えて、提案の面白さや技術の価値、実現可能性などを考慮して、オーガナイザーによって審査を行います。
LLM-jpが開発中の言語モデル、llm-jp-4-8b をベースに開発してください。
データやモデルの利用条件には十分注意して利用してください。例えば OpenAI のモデル(OSSを除く)は、OpenAI と競合するモデルの開発が禁止されています。
自由形タスクでは、モデルや使用したデータの公開義務はありません。
報告会での発表をもって結果提出とします。発表内容には、ライブデモもしくはデモ動画を含めてください。
報告会での発表内容をもとに審査員により評価を行います。コンペの目的に合致しているかどうかに加えて、提案の面白さや技術の価値、LLM-jpモデルの活用度等を総合的に評価します。
運営からは、以下のリソースを提供します。
その他にコンペティションで利用可能なリソースについては、各タスクのルールに従ってください。
希望するチームに対して、以下の計算資源を配布します。 ABCI 3.0 (Nvidia H200 x 8枚 / 1ノード)
配布数は以下の通りです。
問い合わせのあった質問とその回答を以下に示します。