FT-LLM 2026では、チューニングコンペティションを開催します。
本コンペティションでは、数学タスクでの性能向上と、自由型タスクによる応用事例の開拓を目指します。
ワークショップ当日には、各参加チームからの報告を行う予定です。
チューニングコンペティションへの参加登録は以下からお願いします。
コンペティションの詳細は代表者のメールアドレスへ連絡いたします。
参加登録フォーム
募集開始:2025年10月1日
募集締切:2025年10月22日
実施期間:2025年11月5日〜2026年1月31日
最終評価:2026年2月上旬
報告会/WS:2026年2〜3月(NLP2026WSもしくは東京都内開催を想定)
数学タスクでは、日本の中学校・高等学校で扱う数学問題を対象に、言語モデルを基盤とするシステムを構築してその回答精度を競います。
たとえば、以下のような問題が出題されます。
例題1(出題範囲:中学校/第1学年/数と式)
問題:次の式を簡単にしなさい。$\frac{6x+2}{3}\div\frac{4}{9}$
解答:$\frac{9x+3}{2}$
例題2(出題範囲:高等学校/数学III/極限)
問題:$S_n$は次の式で与えられる。$S_n = \frac{1}{3^1} + \frac{2}{3^2} + \frac{3}{3^3} + \frac{4}{3^4} + \cdots + \frac{n}{3^n} = \sum_{k=1}^{n}\frac{k}{3^k}.$ このとき$\lim_{n \to \infty} S_n$の値を求めよ。
解答:$\frac{3}{4}$
LLM-jp が開発した言語モデル、llm-jp-3.1-13b-instruct4もしくはllm-jp-3.1-13bをベースに数学問題を解くシステムを構築してください。 LLM-jp モデルを追加学習することはもちろん、推論の途中で電卓を呼び出す (Cobbe et al., 2021)、 複数の回答候補をサンプリングして多数決を取る (Wang et al., 2023) など、LLM-jp モデルの能力を拡張したり、推論の頑健性を高めたりする工夫を組み込んでも構いません。 参加枠ごとのルールの違いについては後述します。
推論時に使用して良い言語モデルは LLM-jp モデルに限ります。
例えば gpt-oss で数学問題を解き、LLM-jp モデルを回答の整形など補助的な目的で使用することはルール違反となります。
一方、LLM-jp モデルの追加学習のために LLM-jp モデル以外の言語モデルで生成した合成データを使用することは問題ありません。
また、テキストや画像等の生成を伴わない機械学習モデル(例:BERT)を推論時に使用することは問題ありません。
また、推論時はインターネットから遮断されます。ウェブ検索で取得した類題に基づく検索拡張生成など、インターネットアクセスを要する推論時の工夫は適用できません。
オープン枠とクローズ枠の二つがあります。オープン枠の参加者は、最終的なシステムを OSS ライセンスで公開する必要があります。
オープン枠の参加者には、ABCI 3.0 を 50 〜 100 ノード日分の計算資源を提供します。クローズ枠の参加者は、特段の制約がない代わりに、計算資源の提供はありません。
表彰は、オープン枠とクローズ枠を合わせた全体順位とオープン枠のみでの順位に基づき行います。
オープン枠の参加者は、最終的なシステムを OSS ライセンスで公開する必要があります。 したがって、開発で使用できるのはオープンライセンスのリソースに限られます。 また、再現手順を記載したレポートの提出と、学習済みモデルのオープンライセンスでの公開が求められます。
クローズ枠の参加者は共通ルールの範囲内で自由に取り組むことができます。
モデルやデータの公開義務はありません。成果発表も簡単な概要のみで構いません。
ただし、計算リソースの貸与がないことにご注意ください。
学習済みモデルを含んだ Docker イメージとして提出していただきます。Docker に関するより詳細な規定は後日公開します。
自由型タスクは、オーガナイザーが課題を指定せず、参加チームが自由に LLM-jpモデルをチューニング・応用できる形式のタスクです。 LLM-jp モデルの多様な応用事例を集めることを目的としています。 たとえば、以下のような応用事例が考えられます。
計算資源の提供を受けるためには、事前審査を通過する必要があります。(※計算資源の提供を受けない場合は事前審査は不要です)
希望する参加チームには、ABCI 3.0 を 50 〜 100 ノード日分の計算資源を提供します。
コンペティション参加登録時に以下の応募シートも提出ください。
応募シート
応募シート(記入例)
計算資源に限りがあることから、最大5チームまで計算資源の提供を行います。
コンペの目的に合致しているかどうかに加えて、提案の面白さや技術の価値、実現可能性などを考慮して、オーガナイザーによって審査を行います。
LLM-jpが開発した言語モデル、llm-jp-3.1-13b-instruct4もしくはllm-jp-3.1-13bをベースに開発してください。
データやモデルの利用条件には十分注意して利用してください。例えば OpenAI のモデル(OSSを除く)は、OpenAI と競合するモデルの開発が禁止されています。
自由形タスクでは、モデルや使用したデータの公開義務はありません。
報告会での発表をもって結果提出とします。発表内容には、ライブデモもしくはデモ動画を含めてください。
運営からは、以下のリソースを提供します。
その他にコンペティションで利用可能なリソースについては、各タスクのルールに従ってください。
希望するチームに対して、以下の計算資源を配布します。 ABCI 3.0 (Nvidia H200 x 8枚 / 1ノード)
配布数は以下の通りです。
データやモデルの利用条件には十分注意して利用するようにしてください。例えば OpenAI のモデル(OSSを除く)は、OpenAI と競合するモデルの開発が禁止されています。
問い合わせのあった質問とその回答を以下に示します。