Skip to content

日本語LLMまとめ

[ English | Français | 日本語 ]

日本語LLM・海外LLMのパラメータサイズの推移

日本語LLM・海外LLMのパラメータ数の推移。日本語モデルの情報は本記事、海外モデルの情報は LifeArchitect.ai の Models table を参照しています(ただし、図のスペース上一部のモデルは省略。また、海外モデルのパラメータ数は推測値を含む)。修正・追加等ありましたらお知らせ下さい。

この記事は、一般公開されている日本語LLM(日本語を中心に学習されたLLM)および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。

以下の点について、あらかじめご理解とご了承をお願いいたします

  1. 本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。
  2. 一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。
  3. 本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、一部のモデルには、非営利限定のライセンス(例:CC BY-NC-SA 4.0)や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある点にご注意ください。
  4. 個人が開発したモデルに関する記述では、作成者の敬称は省略させていただいております。

この記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、GitHub Issues 経由で報告していただけますと幸いです。

目次

テキスト生成に主に使うモデル

画像を含むテキスト生成モデルはこちら

フルスクラッチ学習モデル

汎用

アーキテクチャ入出力で扱える
トークン数
学習テキスト開発元ライセンス / 利用規約
Sarashina2-8x70BMixtral
(8x70b (465b))
8,192不明SB IntuitionsSarashina Model NonCommercial License
LLM-jp-3 172B beta2Llama
(172b-beta2, 172b-beta2-instruct2)
4,096事前学習: llm-jp-corpus-v3の一部
(計 1.4T トークン)
Instruction Tuning: ichikara-instruction, answer-carefully, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k
大規模言語モデル研究開発センター (LLMC)LLM-jp-3 172B beta2 Terms of Use
LLM-jp-3 172B beta1Llama
(172b-beta1, 172b-beta1-instruct)
4,096事前学習: llm-jp-corpus-v3の一部
(計 0.7T トークン)
Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN
大規模言語モデル研究開発センター (LLMC)LLM-jp-3 172B beta1 Terms of Use
LLM-jp-3 172B alphaLlama
(172b-alpha1, 172b-alpha1-instruct, 172b-alpha2, 172b-alpha2-instruct)
4,096事前学習: llm-jp-corpus-v3の一部
(alpha1: 計 0.7T トークン, alpha2: 計 1.4T トークン)
Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN
大規模言語モデル研究開発センター (LLMC)Apache 2.0
Stockmark-100bLlama
(100b, 100b-instruct-v0.1)
4,096事前学習: RedPajama, 日本語 Wikipedia, Japanese mC4, Japanese CommonCrawl, 日本語特許, Stockmark Web Corpus
(計 910B トークン)
Instruction Tuning (LoRA): ichikara-instruction
ストックマークMIT
PLaMo-100B-PretrainedLlama[1]
(100b)
4,096事前学習: Japanese CommonCrawl, RefinedWeb, 独自のデータセット
(計: 2.0T トークン)
Preferred ElementsPLaMo Non-Commercial License
Sarashina2Llama
(7b, 13b, 70b)
7b, 13b: 4,096
70b: 8,192
事前学習: Japanese Common Crawl, SlimPajama, StarCoder
(計 2.1T トークン)
SB IntuitionsMIT
Sarashina1GPT-NeoX
(7b, 13b, 65b)
2,048事前学習: Japanese Common Crawl
(計 1T トークン)
SB IntuitionsMIT
Tanuki-8×8BTanuki (MoE) (47b)
(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)
4,096事前学習: 様々な Web 上のデータ, 合成データ(計 1.7T トークン)
SFT, DPO: 様々な合成データ [2]
松尾研LLM開発プロジェクトApache 2.0
CyberAgentLM3 (CALM3)Llama
(22b-chat)
16,384不明
(計 2.0T トークン)
サイバーエージェントApache 2.0
LLM-jp-3 13BLlama
(1.8b, 1.8b-instruct, 3.7b, 3.7b-instruct, 13b, 13b-instruct)
4,096事前学習: llm-jp-corpus-v3
(計 2.1T トークン)
Instruction Tuning: ichikara-instruction, answer-carefully, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k
大規模言語モデル研究開発センター (LLMC)Apache 2.0
llm-jp-3-3.7b-instruct-EZOLlama
(3.7b-instruct-EZO-Common, 3.7b-instruct-EZO-Humanities)
4,096LLM-jp-3 (3.7B) に対して追加学習AxcxeptApache 2.0
LLM-jp-13B v2.0Llama
(13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)
4,096事前学習: llm-jp-corpus-v2
(計 260B トークン)
Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2
LLM-jpApache 2.0
Fugaku-LLMGPT
(13B, 13B-instruct, 13B-instruct-gguf)
2,048事前学習: 独自
Instruction Tuning: OASST1, Dolly Dataset, GSM8K
東工大, 東北大, 富士通, 理研, 名大, サイバーエージェント, Kotoba TechnologiesFugaku-LLM Terms of Use
LLM-jp-13B v1.1GPT
(13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)
2,048Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction
DPO (LoRA): HH RLHF
LLM-jpApache 2.0
LLM-jp-13BGPT
(1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)
2,048事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン)
Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1
LLM-jpApache 2.0
PLaMo-13BLlama[3]
(13b, 13b-instruct, 13b-instruct-nc)
base: 4,096
instruct, instruct-nc: 8,192
事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4
(計 1.5T トークン)
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習)
Preferred NetworksApache 2.0
(NC モデルは CC BY-NC 4.0)
Stockmark-13bLlama
(13b, 13b-instruct)
2,048事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus
(計 220B トークン)
Instruction Tuning (LoRA): ichikara-instruction
ストックマークbaseモデル: MIT
instructモデル: CC BY-NC-SA 4.0
Weblab-10BGPT-NeoX
(10b, 10b-instruction-sft)
2,048Japanese mC4 + The Pile(計 600B トークン)
*instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング
東大 松尾研CC BY-NC 4.0
Tanuki-8BTanuki (8b)
(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)
4,096事前学習: 様々な Web 上のデータ, 合成データ(計 1.3T トークン)
SFT, DPO: 様々な合成データ [2:1]
松尾研LLM開発プロジェクトApache 2.0
Japanese StableLM AlphaGPT-NeoX
(base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)
2,048Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama
(+ 独自のデータセット)[4]
(計 750B トークン)
*instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング
(v2では商用利用不可の Alpaca Dataset を除外)
Stability AIbaseモデル: Apache 2.0
instruct モデル (v1): 独自のライセンス
instruct モデル (v2): Apache 2.0
CyberAgentLM2 (CALM2)Llama
(7b, 7b-chat, 7b-chat-dpo-experimental)
base: 4,096
chat: 32,768
一般公開されている日本語・英語のデータセット(詳細不明) (計 1.3T トークン)
*dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習
サイバーエージェントApache 2.0
(dpo モデルのみ CC BY 4.0)
OpenCALMGPT-NeoX
(small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))
2,048日本語 Wikipedia
+ Jpanese mC4
+ Japanese CC-100
サイバーエージェントCC BY-SA 4.0
StormyGPT-NeoX
(7b(6.8b))
2,048OpenCALM (6.8b) に対して
llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング
東大 和泉研CC BY-SA 4.0
rinna GPT
(英語やコードも含めて学習されたモデル)
GPT-NeoX
(4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)
8kモデル: 8,192
他: 2,048
Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile
(計 524B トークン)
*8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング
*instruction-sft モデルでは HH RLHF、FLAN でファインチューニング
*instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習
rinnaMIT
japanese-large-lmGPT-NeoX
(1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)
2,048日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど
(計 650GB)
*instruction-sft モデルでは OASST1 でファインチューニング
LINEApache 2.0
rinna GPT
(日本語のみで学習されたモデル)
GPT または GPT-NeoX
(xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)
≤ 2,048日本語 Wikipedia
+ Japanese CC-100
(1b 以降のモデルでは
さらに Japanese mC4 を追加)
*instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング
*instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習
rinnaMIT
レトリバT5T5
(small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))
日本語 Wikipedia + Japanese mC4レトリバCC BY-SA 4.0
Spiral-RetNet-3b-baseRetNet
(3b)
2,048Wikipedia, Japanese CC-100, CulturaXSpiral.AIMIT
kotomamba-2.8BMamba
(2.8B-v1.0)
2,048日本語 Wikipedia, Swallow Corpus, SlimPajamaKotoba TechnologiesApache 2.0
ABEJA GPTGPT または GPT-NeoX
(large, neox-2.7b)
日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
ABEJAMIT
早大GPTGPT
(small, xl(1.5b))
日本語 Wikipedia
+ Japanese CC-100
早大 河原研CC BY-SA 4.0
ストックマークGPTGPT-NeoX
(1.4b)
日本語 Wikipedia (0.88B トークン)
+ Japanese CC-100 (10.5B トークン)
+ 独自のWebデータ (8.6B トークン)
ストックマークMIT
イエローバックGPTGPT-NeoX
(1.3b)
日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
イエローバックApache 2.0
colorfulscoop GPTGPT
(small)
日本語 WikipediaColorful ScoopCC BY-SA 3.0
東工大GPTGPT
(medium, medium (逆方向)) [5]
日本語 Wikipedia + Japanese CC-100東工大 岡崎研CC BY-SA 4.0
京大GPTGPT
(small (文字レベル), medium (文字レベル), large (文字レベル))
日本語 Wikipedia (約2,700万文 (3.2GB))
+ Japanese CC-100 (約6億1,900万文 (85GB))
+ Japanese OSCAR (約3億2,600万文 (54GB))
京大 言語メディア研究室CC BY-SA 4.0
日本語BARTBART
(base, large)
日本語 Wikipedia (約1,800万文)京大 言語メディア研究室CC BY-SA 4.0
Megagon Labs T5T5
(base)
Japanese mC4 (87,425,304 ページ (782 GB))
+ Japanese wiki40b (828,236 記事 (2 GB))
Megagon Labs
(リクルート)
Apache 2.0

ドメイン特化型

ドメインアーキテクチャ学習テキスト開発元ライセンス
日本語対話Transformer対話TransformerTwitter 上の日本語リプライのペアNTT独自のライセンス
日本語ニュースBARTビジネスBART (base)日本語ビジネスニュース記事(約2,100万記事 (2.9億文))ストックマークMIT
AcademicBART学術BART (base)CiNii の日本語論文愛媛大 人工知能研究室Apache 2.0

海外モデルに日本語で継続事前学習を行ったモデル

汎用

ベースのLLM学習テキスト開発元ライセンス / 利用規約
Llama 3.1 Swallow 70B
(70B-v0.1, 70B-Instruct-v0.1)
Llama 3.1 (70b)事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus
Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie
SwallowプロジェクトLlama 3.1 Community License
(Instructモデルは Gemma Terms of Use も適用)
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407Llama 3.1 (70b)不明サイバーエージェントLlama 3.1 Community License
Llama 3 Swallow 70B
(70B-v0.1, 70B-Instruct-v0.1)
Llama 3 (70b)事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath
Instruction Tuning: OASST1 [6]
SwallowプロジェクトLlama 3 Community License
turing-motors/Llama-3-heron-brain-70B-v0.3Llama 3 (70b)Llama 3 Swallow 70B に対して追加学習(詳細不明)TuringLlama 3 Community License
Llama 3 Youko 70B
(70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq)
Llama 3 (70b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 5B トークン)
Instruction Tuning: 独自のデータセット[7]
rinnaLlama 3 Community License
Swallow 70B
(70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf)
Llama 2 (70b)事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1モデルでは OASST1, OASST2 を使用
SwallowプロジェクトLlama 2 Community License
KARAKURI LM
(70b-v0.1, 70b-chat-v0.1)
Llama 2 (70b)事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット
(計 16B トークン)
SteerLM: OASST2, 独自のデータセット
カラクリLlama 2 Community License[8]
Japanese Stable LM Beta 70B
(base-beta-70b, instruct-beta-70b)
Llama 2 (70b)事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
Stability AILlama 2 Community License
Swallow-MX 8x7B
(8x7b-NVE-v0.1)
Mixtral-8x7B-Instruct-v0.1 (46.7b)事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The VaultSwallowプロジェクトApache 2.0
KARAKURI LM 8x7B Instruct v0.1
(8x7b-instruct-v0.1)
Mixtral-8x7B-Instruct-v0.1 (46.7b)Swallow-MX 8x7B に対して以下のデータセットで学習: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, 独自のデータセットカラクリApache 2.0 (?)[9]
KARAKURI LM 8x7B Chat v0.1
(8x7b-chat-v0.1)
Mixtral-8x7B-Instruct-v0.1 (46.7b)Swallow-MX 8x7B に対して
SteerLM: OASST2, HelpSteer, 独自のデータセット
カラクリApache 2.0
ABEJA-Mixtral-8x7B-japanese
(8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged)
Mixtral-8x7B-Instruct-v0.1 (46.7b)
*Instructが名前に付いていないモデルのみ Mixtral-8x7B-v0.1 がベース
事前学習: Japanese CC, Redpajama, 独自
(計 450B トークン)
ABEJAApache 2.0
Nekomata 14B
(14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)
Qwen (14b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 66B トークン)
Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部
rinnaTongyi Qianwen LICENSE
Swallow 13B
(13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf)
Llama 2 (13b)事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1モデルでは OASST1, OASST2 を使用
SwallowプロジェクトLlama 2 Community License
LEIA-Swallow-13B
(13b)
Llama 2 (13b)Swallow 13B に対して LEIA で追加学習個人 (山田育矢, 李凌寒)Llama 2 Community License
ELYZA-japanese-Llama-2-13b
(13b, 13b-instruct, 13b-fast, 13b-fast-instruct)
Llama 2 (13b)事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど
(計 18B トークン)
Instruction Tuning: 独自のデータセット
ELYZALlama 2 Community License
cyberagent/Mistral-Nemo-Japanese-Instruct-2408Mistral NeMo (12b)不明サイバーエージェントApache 2.0
Llama 3.1 Swallow 8B
(8B-v0.1, 8B-Instruct-v0.1, 8B-v0.2, 8B-Instruct-v0.2)
Llama 3.1 (8b)事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus
Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie
SwallowプロジェクトLlama 3.1 Community License
(Instructモデルは Gemma Terms of Use も適用)
Llama 3 Swallow 8B
(8B-v0.1, 8B-Instruct-v0.1)
Llama 3 (8b)事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath
Instruction Tuning: OASST1 [6:1]
SwallowプロジェクトLlama 3 Community License
turing-motors/Llama-3-heron-brain-8B-v0.3Llama 3 (8b)Llama 3 Swallow 8B に対して追加学習(詳細不明)TuringLlama 3 Community License
Llama 3 Youko 8B
(8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq)
Llama 3 (8b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 22B トークン)
Instruction Tuning[7:1]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, 独自のデータセット
DPO: HelpSteer, HelpSteer2, 独自のデータセット
rinnaLlama 3 Community License
Llama 3 ELYZA JP 8B
(8B, 8B-GGUF, 8B-AWQ)
Llama 3 (8b)不明ELYZALlama 3 Community License
Llama 3 neoAI 8B Chat v0.1
(8B-Chat-v0.1)
Llama 3 (8b)不明neoAILlama 3 Community License
Llama 3 tedllm
(v0)
Llama 3 (8b)事前学習: 日本語の一般コーパス東京エレクトロン デバイスLlama 3 Community License
Swallow 7B
(7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)
Llama 2 (7b)事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1モデルでは OASST1, OASST2 を使用
SwallowプロジェクトLlama 2 Community License
LEIA-Swallow-7B
(7b)
Llama 2 (7b)Swallow 7B に対して LEIA で追加学習個人 (山田育矢, 李凌寒)Llama 2 Community License
ELYZA-japanese-Llama-2-7b
(7b, 7b-instruct, 7b-fast, 7b-fast-instruct)
Llama 2 (7b)事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど
(計 18B トークン)
Instruction Tuning: 独自のデータセット
ELYZALlama 2 Community License
Youri 7B
(7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)
Llama 2 (7b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 40B トークン)
Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部
rinnaLlama 2 Community License
houou-7b
(instruction-7b-v1, instruction-7b-v2, instruction-7b-v3)
Llama 2 (7b)Youri 7B (base) に対して Instruction Tuning: ichikara-instructionマネーフォワードLlama 2 Community License
Japanese Stable LM Beta 7B
(base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)
Llama 2 (7b)事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
Stability AILlama 2 Community License
SambaLingo-Japanese
(Base, Chat)
Llama 2 (7b)事前学習: CulturaX
Instruction Tuning: ultrachat_200k
DPO: ultrafeedback, cai-conversation-harmless
SambaNova SystemsLlama 2 Community License (?)[9:1]
blue-lizard
(blue-lizard)
Llama 2 (7b)不明DeepreneurLlama 2 Community License
Swallow-MS 7B
(7b-v0.1, 7b-instruct-v0.1)
Mistral-7B-v0.1 (7b)事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, OASST1
SwallowプロジェクトApache 2.0
RakutenAI-7B
(7B, 7B-instruct, 7B-chat)
Mistral-7B-v0.1 (7b)事前学習: 不明
Instruction Tuning: Dolly Dataset, OASST1, (jasterと同様に)言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット
楽天Apache 2.0
Japanese Stable LM Gamma 7B
(base-gamma-7b, instruct-gamma-7b)
Mistral-7B-v0.1 (7b)事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset
Stability AIApache 2.0
ChatNTQ JA 7B
(7b-v1.0)
Mistral-7B-v0.1 (7b)Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction TuningNTQ SolutionApache 2.0
Shisa Gamma 7B
(7b-v1)
Mistral-7B-v0.1 (7b)Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction TuningAUGMXNTApache 2.0 (?)[9:2]
Shisa 7B
(base-7b-v1, 7b-v1)
Mistral-7B-v0.1 (7b)事前学習: shisa-pretrain-en-ja-v1 (8B トークン)
Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1
AUGMXNTApache 2.0 (?)[9:3]
Karasu
(7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)
Mistral-7B-v0.1 (7b)Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン)
Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット
LightblueApache 2.0 (?)[9:4]
Nekomata 7B
(7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)
Qwen (7b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 66B トークン)
Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部
rinnaTongyi Qianwen LICENSE
lightblue/japanese-mpt-7bMPT (7b)Japanese mC4LightblueApache 2.0
Japanese Stable LM 3B-4E1T
(3b-4e1t-base, 3b-4e1t-instruct)
StableLM-3B-4E1T (3b)事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset
Stability AIApache 2.0
kotomamba-2.8B-CLmamba-2.8b-slimpj
(2.8b)
日本語 Wikipedia, Swallow Corpus, SlimPajamaKotoba TechnologiesApache 2.0
Gemma 2 Baku 2B
(2b, 2b-it)
Gemma 2 (2b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 80B トークン)
OPRO: 独自のデータセット [10]
rinnaGemma Terms of Use
Japanese Stable LM 2 1.6B
(base, instruct)
Stable LM 2 1.6B (1.6b)事前学習: Wikipedia, CulturaX
Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1
Stability AISTABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE
karasu-1.1BTinyLlama (1.1b)事前学習: Japanese OSCAR, Japanese mC4
(計 3B トークン)
LightblueApache 2.0

ドメイン特化型

ドメインベースのLLM開発元ライセンス
Llama3-Preferred-MedSwallow-70B
(70B)
医療Llama 3 (70b)Preferred NetworksLlama 3 Community License
AIgroup-CVM-utokyohospital/MedSwallow-70b医療Llama 2 (70b)東京大学医学部附属病院 循環器内科 AIグループCC BY-NC-SA 4.0
nekomata-14b-pfn-qfin
(qfin, qfin-inst-merge)
金融Qwen (14b)Preferred NetworksTongyi Qianwen LICENSE
Watashiha-Llama-2-13B-Ogiri-sft
(sft, sft-neuron)
大喜利Llama 2 (13b)わたしはLlama 2 Community License
ELYZA-japanese-CodeLlama-7b
(7b, 7b-instruct)
コーディングCode Llama
(7b)
ELYZALlama 2 Community License
AIBunCho/japanese-novel-gpt-j-6b物語生成GPT-J (6b)個人 (大曽根宏幸)CreativeML OpenRAIL-M License
NovelAI/genji-jp物語生成GPT-J (6b)NovelAI

海外モデルに日本語で事後学習のみ行ったモデル

汎用

ベースのLLM学習テキスト開発元ライセンス / 利用規約
AXCXEPT/EZO-Qwen2.5-72B-Instruct
AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4
Qwen2.5 (72b)AxcxeptQwen License
ao-Karasu
(72B)
Qwen1.5 (72b)ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本語の公開技術ブログ, ニュース記事, QAサイトの回答, 独自のデータセットLightblueTongyi Qianwen LICENSE (?)[9:5]
AXCXEPT/Llama-3.1-70B-EZO-1.1-itLlama 3.1 (70b)AxcxeptLlama 3.1 Community License
Llama 3 shisa-v1-llama3-70b
(70b)
Llama 3 (70b)ultra-orca-boros-en-ja-v1Shisa.AILlama 3 Community License (?)[9:6]
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japaneseLlama 2 (70b)東京大学医学部附属病院 循環器内科 AIグループLlama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1Llama 2 (70b)同志社大学 メディア情報学研究室
AXCXEPT/EZO-Qwen2.5-32B-Instruct
AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-32B-Instruct
Qwen2.5 (32b)AxcxeptApache 2.0
Qarasu
(14B-chat-plus-unleashed)
Qwen (14b)ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセットLightblueTongyi Qianwen LICENSE (?)[9:7]
Sparticle/llama-2-13b-chat-japanese-loraLlama 2 (13b)Sparticle
izumi-lab/llama-13b-japanese-lora-v0-1epLlama (13b)東大 和泉研
AXCXEPT/EZO-Common-9B-gemma-2-itGemma 2 (9b)AxcxeptGemma Terms of Use
AXCXEPT/EZO-Humanities-9B-gemma-2-itGemma 2 (9b)AxcxeptGemma Terms of Use
AXCXEPT/Llama-3.1-8B-EZO-1.1-itLlama 3.1 (8b)AxcxeptLlama 3.1 Community License
Llama 3 Suzume 8B
(8B-japanese, 8B-japanese-gguf)
Llama 3 (8b)megagonlabs/instruction_ja, ShareGPT, 独自のデータセットLightblueLlama 3 Community License (?)[9:8]
Llama 3 shisa-v1-llama3-8b
(8b)
Llama 3 (8b)ultra-orca-boros-en-ja-v1Shisa.AILlama 3 Community License (?)[9:9]
AXCXEPT/Llama-3-EZO-8b-Common-itLlama 3 (8b)AxcxeptLlama 3 Community License
ganchengguang/Yoko-7B-Japanese-v1Llama 2 (7b)横浜国大 森研
Sparticle/llama-2-7b-chat-japanese-loraLlama 2 (7b)Sparticle
izumi-lab/llama-7b-japanese-lora-v0-5epLlama (7b)東大 和泉研
lightblue/jodMistral-7B-SlimOrca (7b)LightblueApache 2.0
NTQAI/chatntq-7b-jpntunedRWKV-4 World (7b)NTQ Solution
Borea
(Jp, Common, Coding)
Phi-3.5 (3.8b)AxcxeptMIT
AXCXEPT/EZO-Llama-3.2-3B-Instruct-dpoELlama 3.2 (3b)AxcxeptLlama 3.2 Community License
日本語版 Gemma 2 2B
(2b-jpn-it)
Gemma 2 (2b)GoogleGemma Terms of Use
AXCXEPT/EZO-gemma-2-2b-jpn-itGemma 2 (2b)AxcxeptGemma Terms of Use
AXCXEPT/EZO-Common-T2-2B-gemma-2-itGemma 2 (2b)AxcxeptGemma Terms of Use

ドメイン特化型

ドメインベースのLLM開発元ライセンス
JMedLoRA
(llama2-jmedlora-6.89ep)
医療Llama 2 (70b)東京大学医学部附属病院 循環器内科 AIグループCC BY-NC 4.0

複数のLLMをマージして作成されたモデル

マージ元のLLM(太字は日本語LLM)開発元ライセンス
EQUES/MedLLama3-JP-v2Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8BEQUESLlama 3 Community License
EvoLLM-JP-A
(v1-7B)
Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002Sakana AIApache 2.0
EvoLLM-JP
(v1-7B, v1-10B)
Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002Sakana AIMICROSOFT RESEARCH LICENSE

APIとして提供されているモデル

入出力で扱える
トークン数
開発元プラットフォーム
Solar mini chat ja
(solar-1-mini-chat-ja)
32,768Upstage独自
AIのべりすと2,400 ~ 8,192Bit192独自
LHTM-OPTオルツAWS Marketplace

入力テキストの処理に主に使うモデル

汎用

アーキテクチャ学習テキスト開発元ライセンスHuggingFace ですぐ使える? [11]
京大BERTBERT (base, large)日本語 Wikipedia (約1,800万文)京大 言語メディア研究室Apache 2.0
東北大BERTBERT (base, large)base (v1):
日本語 Wikipedia 約1,700万文 (2.6GB)
base (v2) & large:
日本語 Wikipedia 約3,000万文 (4.0GB)
base (v3) & large (v2):
日本語 Wikipedia 約3,400万文 (4.9GB)
+ 日本語 CC-100 約3億9,200万文 (74.3GB)
東北大
自然言語処理研究グループ
base (v1, v2) & large: CC BY-SA 3.0
base (v3) & large (v2): Apache 2.0
◯ (base (v1), base (v1, 文字レベル), base (v2), base (v2, 文字レベル), large, large (文字レベル), base (v3), base (v3, 文字レベル), large (v2), large (v2, 文字レベル))
NICT BERTBERT (base)日本語 WikipediaNICTCC BY 4.0
Laboro BERTBERT (base, large)日本語 Web コーパス
(ニュースサイトやブログなど
計4,307のWebサイト、2,605,280ページ (12GB))
Laboro.AICC BY-NC 4.0
colorfulscoop BERTBERT (base)日本語 WikipediaColorful ScoopCC BY-SA 3.0
東大BERTBERT (small)日本語 Wikipedia (約2,000万文 (2.9GB))東大 和泉研CC BY-SA 4.0
chiTra (Sudachi Transformers)BERT (base)国語研日本語ウェブコーパス (NWJC) (148GB)NINJAL, ワークス徳島人工知能NLP研Apache 2.0
ACCMS BERTBERT (base)日本語 Wikipedia (3.3GB)京大 ACCMSCC BY-SA 4.0
日立BERTBERT (base)日本語 Wikipedia
+ Japanese CC-100
日立製作所CC BY-NC-SA 4.0 [12]
RetrievaBERTBERT [13]Japanese CommonCrawl, RefinedWeb, Chinese Wikipedia, Korean Wikipedia, The StackレトリバApache 2.0
Bandai Namco DistilBERTDistilBERT- (東北大BERT(base) を親モデルとして知識蒸留)Bandai Namco ResearchMIT
Laboro DistilBERTDistilBERT- (Laboro BERT(base) を親モデルとして知識蒸留)Laboro.AICC BY-NC 4.0
LINE DistilBERTDistilBERT- (LINE社内のBERTを親モデルとして知識蒸留)LINEApache 2.0
rinna RoBERTaRoBERTa (base)日本語 Wikipedia
+ Japanese CC-100
rinnaMIT
早大RoBERTaRoBERTa (base, large)日本語 Wikipedia
+ Japanese CC-100
早大 河原研CC BY-SA 4.0◯ (base, large, large (seq512)) [14]
インフォマティクスRoBERTaRoBERTa (base)日本語 Wikipedia
+ Web 上の記事 (計25GB)
インフォマティクスApache 2.0
京大RoBERTaRoBERTa (base, large)日本語 Wikipedia
+ Japanese CC-100
京大 言語メディア研究室CC BY-SA 4.0◯ (base (文字レベル), large (文字レベル))
横浜国大RoBERTaRoBERTa (base)日本語 Wikipedia (3.45GB)横浜国大 森研Apache 2.0
Megagon Labs RoBERTaRoBERTa (base) [15]Japanese mC4 (約2億文)Megagon Labs
(リクルート)
MIT
ACCMS RoBERTaRoBERTa (base)日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB)京大 ACCMSCC BY-SA 4.0
シナモンELECTRAELECTRA (small)日本語 WikipediaシナモンApache 2.0
Megagon Labs ELECTRAELECTRA (base)Japanese mC4 (約2億文)Megagon Labs
(リクルート)
MIT
東大ELECTRAELECTRA (small, base)日本語 Wikipedia (約2,000万文 (2.9GB))東大 和泉研CC BY-SA 4.0◯ (small, base)
日本語RoFormerRoFormer (base)日本語 Wikipedia (3.45GB)横浜国大 森研Apache 2.0
日本語LUKELUKE (base, large)日本語 WikipediaStudio OusiaApache 2.0◯ (base, large)
京大DeBERTaV2DeBERTaV2 (tiny, base, large)日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
(計171GB)
京大 言語メディア研究室CC BY-SA 4.0◯ (tiny, tiny (文字レベル), base, large)
京大DeBERTaV3DeBERTaV3 (base)llm-jp-corpus京大 言語メディア研究室Apache 2.0
東大DeBERTaV2DeBERTaV2 (small, base)日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR東大 和泉研CC BY-SA 4.0◯ (small, base)
GLOBIS DeBERTaV3DeBERTaV3 (xsmall, base, large)Wikipedia, WikiBooks, 青空文庫, Japanese CC-100, Japanese mC4, Japanese OSCARグロービスCC BY-SA 4.0◯ (xsmall, base, large)
日本語BigBirdBigBird (base)日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
早大 河原研CC BY-SA 4.0
日本語LayoutLMLayoutLM (base)東北大BERT (base, v2) で重みを初期化した上で、日本語 Wikipedia の文章とレイアウトで事前学習日本総合研究所CC BY-SA 3.0

ドメイン特化型

ドメインアーキテクチャ学習テキスト開発元ライセンスHuggingFace ですぐ使える?
日本語ニュースBERTビジネスBERT (base)日本語ビジネスニュース記事(300万記事)ストックマークCC BY 4.0
日本語ニュースXLNetビジネスXLNet (base)日本語ビジネスニュース記事(300万記事)ストックマーク※ 非公式の HuggingFace 向けに変換されたモデルが公開されている
日本語ニュースALBERTビジネスALBERT (base)日本語ビジネスニュース記事(300万記事)ストックマーク
日本語ブログELECTRA口語ELECTRA (small)日本語ブログコーパス(3億5,400万文)北見工大 桝井・プタシンスキ研CC BY-SA 4.0
日本語話し言葉BERT話し言葉BERT (base)東北大BERTに対して日本語話し言葉コーパス(CSJ)を用いて追加学習
(DAPTモデルでは国会議事録データも使用)
レトリバApache 2.0
日本語金融BERT金融BERT (small, base) [16]日本語 Wikipedia
+ 日本語金融コーパス (約2,700万文 (5.2GB))
東大 和泉研CC BY-SA 4.0◯ (small, base)
日本語金融ELECTRA金融ELECTRA (small)日本語 Wikipedia (約2,000万文 (2.9GB))
+ 日本語金融コーパス (約2,700万文 (5.2GB))
東大 和泉研CC BY-SA 4.0
UTH-BERT医療BERT (base)日本語診療記録(約1億2,000万行)東大病院
医療AI開発学講座
CC BY-NC-SA 4.0
medBERTjp医療BERT (base)日本語 Wikipedia
+ 日本語医療コーパス(『今日の診療プレミアム』Web版)
阪大病院
医療情報学研究室
CC BY-NC-SA 4.0
JMedRoBERTa医療RoBERTa (base)日本語医学論文 (約1,100万文 (1.8GB))NII 相澤研CC BY-NC-SA 4.0◯ (万病WordPiece, SentencePiece) [17]
AcademicRoBERTa学術RoBERTa (base)CiNii の日本語論文 (約628万文)愛媛大 人工知能研究室Apache 2.0
みんぱくBERT文化財BERT (base)東北大BERTに対して国立民族学博物館の文化財データで追加学習兵庫県立大学 大島研MIT◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token)
local-politics-BERT政治BERT (base)Wikipedia, 国会会議録, 地方議会会議録地方議会会議録コーパスプロジェクトCC BY-SA 4.0◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) [18]

埋め込み (Embeddings) 作成に特化したモデル [19]

Bi-Encoders

Single-representation bi-encoders

入力で扱えるトークン数開発元ライセンス
RoSEtta
(pkshatech/RoSEtta-base-ja)
1,024PKSHA TechnologyApache 2.0
GLuCoSE v2
(pkshatech/GLuCoSE-base-ja-v2)
512PKSHA TechnologyApache 2.0
Ruri
(cl-nagoya/ruri-pt-small, cl-nagoya/ruri-pt-base, cl-nagoya/ruri-pt-large, cl-nagoya/ruri-small, cl-nagoya/ruri-base, cl-nagoya/ruri-large)
512名大 笹野研Apache 2.0
Japanese SimCSE
(cl-nagoya/unsup-simcse-ja-base, cl-nagoya/unsup-simcse-ja-large, cl-nagoya/sup-simcse-ja-base, cl-nagoya/sup-simcse-ja-large)
512名大 笹野研CC BY-SA 4.0
GLuCoSE
(pkshatech/GLuCoSE-base-ja)
512PKSHA TechnologyApache 2.0
colorfulscoop/sbert-base-jaColorful ScoopCC BY-SA 4.0
MU-Kindai/SBERT-JSNLI-base
MU-Kindai/SBERT-JSNLI-large
近畿大学 (研究室不明)
MU-Kindai/Japanese-SimCSE-BERT-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-large-unsup
MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-base-sup
MU-Kindai/Japanese-SimCSE-BERT-large-sup
近畿大学 (研究室不明)MIT
pkshatech/simcse-ja-bert-base-clcmlpPKSHA TechnologyCC BY-SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base
MU-Kindai/Japanese-MixCSE-BERT-large
近畿大学 (研究室不明)MIT
MU-Kindai/Japanese-DiffCSE-BERT-base近畿大学 (研究室不明)MIT
bclavie/fio-base-japanese-v0.1個人 (Benjamin Clavié)
cl-nagoya/shioriha-large-pt名大 笹野研

Multi-representation bi-encoders

開発元ライセンス
JaColBERTv2.5
(JaColBERTv2.4, JaColBERTv2.5)
Answer.AIMIT
JaColBERTv2
(JaColBERTv2)
個人 (Benjamin Clavié)MIT
JaColBERT
(JaColBERT)
個人 (Benjamin Clavié)MIT

Cross-Encoders

開発元ライセンス
Ruri-Reranker
(cl-nagoya/ruri-reranker-stage1-small, cl-nagoya/ruri-reranker-stage1-base, cl-nagoya/ruri-reranker-stage1-large, cl-nagoya/ruri-reranker-small, cl-nagoya/ruri-reranker-base, cl-nagoya/ruri-reranker-large)
名大 笹野研Apache 2.0
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1
hotchpotch/japanese-reranker-cross-encoder-small-v1
hotchpotch/japanese-reranker-cross-encoder-base-v1
hotchpotch/japanese-reranker-cross-encoder-large-v1
hotchpotch/japanese-bge-reranker-v2-m3-v1
個人 (舘野祐一)MIT

視覚言語モデル (Vision-Language Models)

画像+テキストからのテキスト生成

フルスクラッチ学習モデル

汎用

アーキテクチャ学習画像/テキスト開発元ライセンス
llava-calm2-siglip
(llava-calm2-siglip)
LLaVA-1.5MS-COCO と VisualGenome から生成された対話データサイバーエージェントApache 2.0
Heron
(blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1)
BLIP-2 または GITv1: LLaVA-Instruct-150K-JA または LLaVA-Instruct-620K-JA
v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset
TuringCC BY-NC 4.0
Japanese Stable VLM
(japanese-stable-vlm)
LLaVA-1.5Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA datasetStability AISTABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha
(japanese-instructblip-alpha)
InstructBLIPJapanese CC12M, STAIR Captions, Japanese Visual Genome VQA datasetStability AIJAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4
(bilingual-gpt-neox-4b-minigpt4)
MiniGPT-4CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA datasetrinnaMIT

ドメイン特化型

アーキテクチャドメイン開発元ライセンス
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlmLLaVA大喜利わたしはLlama 2 Community License

海外モデルに日本語で追加学習を行ったモデル

ベースのVLM学習画像/テキスト開発元ライセンス
AXCXEPT/EZO-InternVL2-26BInternVL2-AxcxeptMIT

複数のVLM・LLMをマージして作成されたモデル

マージ元のLLM・VLM(太字は日本語LLM)開発元ライセンス
Llama-3-EvoVLM-JP-v2
(v2)
Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, Bunny-v1.1-Llama-3-8B-VSakana AILlama 3 Community License
AXCXEPT/Llama-3-EZO-VLM-1- (Llama-3-EvoVLM-JP-v2 に対して追加学習)AxcxeptLlama 3 Community License
EvoVLM-JP
(v1-7B)
Shisa Gamma 7B (v1), LLaVA-1.6-Mistral-7BSakana AIApache 2.0

テキストからの画像生成

汎用

アーキテクチャ学習画像/テキスト開発元ライセンス
CommonArt β
(commonart-beta)
PixArt-ΣCommonCatalog-cc-by, Megalith-10M, Smithonian Open Access, ArtBench (CC-0 only)AI PicassoApache 2.0
EvoSDXL-JP
(v1)
Stable Diffusion- (Japanese Stable Diffusion XL を含む複数の画像生成モデルをマージ)Sakana AIApache 2.0[20]
Japanese Stable Diffusion XL
(japanese-stable-diffusion-xl)
Stable Diffusion不明Stability AISTABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
東北大Stable Diffusion
(base, refiner)
Stable DiffusionWMT2023 Shared Task の日英対訳コーパス、laion2B-multi のキャプション約 1,300 万件東北大
自然言語処理研究グループ
CreativeML OpenRAIL-M License
rinna Stable Diffusion
(japanese-stable-diffusion)
Stable DiffusionLAION-5B データセットのうちキャプションが日本語のもの(画像約 1 億枚)rinnaCreativeML OpenRAIL-M License

ドメイン特化型

アーキテクチャドメイン開発元ライセンス
Evo-Nishikie
(v1)
Stable Diffusion (ControlNet)浮世絵Sakana AIApache 2.0[20:1]
Evo-Ukiyoe
(v1)
Stable Diffusion浮世絵Sakana AIApache 2.0[20:2]

その他

アーキテクチャ学習画像/テキスト開発元ライセンス
LINEヤフーCLIP
(clip-japanese-base)
CLIPCommonCrawl, CC12M, YFCC100MLINEヤフーApache 2.0
リクルートCLIP
(japanese-clip-vit-b-32-roberta-base)
CLIPlaion2B-multi のキャプション約1億2000万件リクルートCC BY-4.0
Japanese Stable CLIP
(japanese-stable-clip-vit-l-16)
SigLIPCC12M のキャプションを日本語に翻訳したもの、STAIR CaptionsStability AISTABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP
(japanese-clip-vit-b-16)
CLIPCC12M のキャプションを日本語に翻訳したものrinnaApache 2.0
rinna CLOOB
(japanese-cloob-vit-b-16)
CLOOBCC12M のキャプションを日本語に翻訳したものrinnaApache 2.0
博報堂テクノロジーズCLIP
(base, deeper, wider)
CLIPlaion2B-multi のキャプション約1億2000万件博報堂テクノロジーズCC BY-NC-SA 4.0

音声言語モデル (Speech-Language Models)

音声認識

アーキテクチャ学習コーパス開発元ライセンス
Kotoba-Whisper
(v1.0, v1.0-ggml, v1.0-faster, v1.1, bilingual-v1.0, bilingual-v1.0-ggml, bilingual-v1.0-faster, v2.0, v2.0-ggml, v2.0-faster, v2.1)
Distil-WhisperReazonSpeech
(+ Multilingual LibriSpeech)
Kotoba TechnologiesApache 2.0
Nue ASR
(nue-asr)
Nue ASR
(HuBERT + LLM)
ReazonSpeechrinnaApache 2.0
ReazonSpeech
(espnet-v1, espnet-next, espnet-v2, nemo-v2)
ESPnet (Conformer-Transducer) または NeMo (FastConformer-RNNT)ReazonSpeechレアゾン・ホールディングスApache 2.0

その他

アーキテクチャ学習コーパス開発元ライセンス
Kotoba-Speech
(v0.1)
Transformer不明Kotoba TechnologiesApache 2.0
東大HuBERT
(base-jtube)
HuBERTJTubeSpeech東大 猿渡・高道研MIT
rinna HuBERT
(base, large)
HuBERTReazonSpeechrinnaApache 2.0

日本語LLM評価ベンチマーク/データセットまとめ

複合型ベンチマーク

説明開発元
Nejumi LLMリーダーボード3LLM の日本語能力を言語理解能力、応用能力、アライメント(制御性、安全性を含む)の 3 つの観点で評価している。詳しくはこちらの記事を参照Weights & Biases
日本語LLM評価様々な LLM を日本語理解・生成タスク、日本語マルチターン対話タスク、英語理解・生成タスクの 3 種類から総合的に評価している。また、既存の LLM 評価ツールを統合・改修した評価スクリプトである swallow-evaluation を合わせて公開している。Swallowプロジェクト

基礎的な自然言語理解 (NLU) を中心に測定するベンチマーク/データセット

説明開発元
llm-jp-eval複数のデータセットを横断して日本語 LLM を自動評価するツールである。
対応している全データセット一覧はこちらから確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。
評価結果は llm-jp-eval リーダーボード にまとめられている。
LLM-jp
JP Language Model Evaluation HarnessStability AI による EleutherAI/lm-evaluation-harness のフォーク。複数のデータセットを横断して日本語 LLM を自動評価するツールである。
対応している全データセット一覧はこちらから確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。
rinna による詳細な評価結果まとめがある: [rinna] Benchmark of Stability-AI/lm-evaluation-harness
Stability AI
JGLUEGLUE ベンチマークの日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む(JCoLA は東大大関研により作成)。各タスクの詳細はこちらこちらを参照早大 河原研, ヤフー
JMMLUMMLU ベンチマークの日本語版として構築されたベンチマーク。自然科学・人文科学・社会科学の幅広い学術領域から 4 択問題を構成している。元の MMLU を翻訳しただけでなく、日本独自の文化的背景に基づく問題(日本問題)を新たに追加しているのが特徴である。早大 河原研
日本語 Open LLM LeaderboardHuggingface の Open LLM Leaderboard と同様の検証を日本語 LLM に対して行ったもの。日本語 LLM の英語タスクにおける性能を確認できる。LLM-jp

人間らしい応答の生成能力を中心に測定するベンチマーク/データセット

説明開発元
Japanese MT-benchマルチターン会話能力を問う MT-bench の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。
GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。
Stability AI
Rakuda Benchmark日本の地理、歴史、政治、社会に関する40問の自由質問に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う。YuzuAI
ELYZA-tasks-100複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。
要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。
ELYZA
Japanese Vicuna QA BenchmarkMT-Bench の前身である vicuna-blog-eval の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価(勝率計算)のスクリプトも含まれている。リーダーボードはこちら京大 言語メディア研究室
Tengu-Bench様々なカテゴリから成る 120 問の自由質問が収録されている。質問のカテゴリは以下の通り: 表の読み取り、論理パズル、アイデア生成、Function calling、長い文書要約(千トークン以上)、会話要約、長い文書のClosed QA(千トークン以上)、敬語、プロジェクト作成、数学、翻訳、抽出、倫理的制御、コスト見積、日本、雑談、ダジャレ、フォーマット、建設、ビジネス、法律判断、政治、架空の質問Lightblue
ShaberiJapanese MT-benchRakuda BenchmarkELYZA-tasks-100Tengu-Bench の評価をまとめて行うことができるフレームワーク。なお、Shisa.AI によるフォークも存在するLightblue

特定ドメインの性能を測定するベンチマーク/データセット

説明開発元
Japanese Language Model Financial Evaluation Harness金融分野における日本語 LLM のベンチマーク。金融分野における感情分析タスク(chabsa)、証券分析における基礎知識タスク(cma_basics)、公認会計士試験における監査に関するタスク(cpa_audit)、ファイナンシャルプランナー試験の選択肢問題のタスク(fp2)、証券外務員試験の模擬試験タスク(security_sales_1)を含む。詳細はこちらを参照Preferred Networks
pfmt-bench-fin-ja金融分野における日本語 LLM の生成能力を測定するためのベンチマーク。Preferred Networks
Stockmark Business Questions市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。ストックマーク
JMED-LLM日本語医療分野における LLM の評価用データセット。これまでに開発されてきた日本語の医療言語処理タスクを LLM ベンチマーク用にまとめている。NAIST ソーシャル・コンピューティング研究室
JMedBench日本語医療分野の LLM ベンチマーク。選択肢問題、機械翻訳、固有表現抽出、文書分類、文類似度計算の 5 種類、計 20 個のデータセットが収録されている(一部のデータセットは JMMLU の医療分野問題や JMED-LLM から借用されている)。また、JMedBench での評価を簡単に行うためのツール med-eval が開発されている。NII 相澤研
Japanese Medical Language Model Evaluation Harnessワンコマンドで実行可能な医療分野に特化したLLMの日英能力評価プログラム。個人 (​助田一晟)
karakuri-bench日本語 LLM のカスタマーサポートにおける性能を測定するためのデータセット。カラクリ

事実性・安全性を測定するベンチマーク/データセット

説明開発元
JTruthfulQALLM の事実性を評価するデータセット TruthfulQA の日本語版。迷信などの、一部の人々に信じられているが事実とは言えない事象に関する質問群と、日本固有の知識に関する質問群が、一から収集されている。早大 河原研
JCommonsenseMorality日本語の常識道徳に関するデータセット。行為を表す文に対して、道徳的に間違っているか許容できるかの 2 値ラベルが割り当てられている。北大 言語メディア学研究室
JBBQ社会性バイアスQAデータセット BBQ を、日本の文化・慣習を踏まえて翻訳、修正、問題追加を行い作成されたデータセット。東大 谷中研

論理推論能力を測定するベンチマーク/データセット

説明開発元
JFLD (Japanese Formal Logic Deduction)日本語 LLM の演繹推論能力を問うデータセット(同著者らが提案している FLD (Formal Logic Deduction) の日本語版)。LLM が持つ知識と切り分けて評価を行うために、反実仮想的なサンプルから構成されているのが特徴である。日立製作所
JHumanEval英語の指示から Python コードの生成能力を評価するベンチマークである HumanEval の日本語版。日本語版を作成する際には、まず機械翻訳にかけたあと、人手での修正を行っている。日本女子大 倉光研

制約付きの生成能力を測定するベンチマーク/データセット

説明開発元
LCTG Bench日本語 LLM の制御性ベンチマーク。出力のフォーマット、文字数、キーワード、NGワードの 4 つの観点から、LLM が制約を守って出力を行えているかを評価する。生成されたテキストの品質も合わせて評価する。サイバーエージェント

埋め込みモデルのベンチマーク/データセット

説明開発元
JMTEBMTEBの日本語版として作成されたベンチマーク。
文書クラスタリング、文書分類、文間類似度、文ペアラベル予測、文書抽出の5種類のタスクから構成されている(その後、リランキングタスクが新たに追加)。
SB Intuitions
JQaRA日本語の文書抽出・リランキング精度評価のためのデータセット。1,667件の質問文それぞれに対し、候補となる100件のドキュメントが割り当てられており、そのうち1件以上が質問文に回答できる内容になっている。質問文は JAQKET を、候補のドキュメントは日本語 Wikipedia を用いている。個人 (舘野祐一)
JaCWIRWikipedia 以外のドメインで文書抽出・リランキングの評価を行えることを目指して作成されたデータセット。5,000件の質問文それぞれに対し、その質問文が作成される元になった 1 件の Webページと、質問文とは関係のない 99 件の Web ページが割り当てられている。個人 (舘野祐一)

視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

説明開発元
JMMMUMMMU ベンチマークの日本語版として構築されたベンチマーク。720 件の MMMU の翻訳版の問題と 600 件の日本文化特有の新規の問題から構成される。東大 相澤研
Heron VLM リーダーボード powered by nejumi@WandBJapanese-Heron-BenchLLaVA-Bench-In-the-Wild (Japanese) の評価結果をまとめている。Turing, Weights & Biases
Japanese-Heron-Bench21 枚の画像に対して計 102 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。Turing
JA-VLM-Bench-In-the-WildSakana AI が EvoVLM-JP-v1-7B の評価のために独自に用意したデータセット。42 枚の画像に対して計 50 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。Sakana AI
JA-Multi-Image-VQA複数の画像に対する日本語での質疑応答能力を評価するデータセット。Sakana AI
LLaVA-Bench-In-the-Wild (Japanese)LLaVA-Bench-In-the-Wild を DeepL で日本語に訳したもの。24 枚の画像に対して計 60 問の質問が割り当てられている。Turing
LLaVA-Bench (COCO) JapaneseLLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL で日本語に訳したもの。30 枚の画像に対して各 3 種類の質問が割り当てられている。Turing

各モデル・アーキテクチャの原論文

Transformer2017.06.12NIPS(NeurIPS) 2017Attention Is All You Need
GPT2018.06.11-Improving Language Understanding by Generative Pre-Training
BERT2018.10.11NAACL 2019BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
GPT-22019.02.14-Language Models are Unsupervised Multitask Learners
XLNet2019.06.19NeurIPS 2019XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa2019.07.26-RoBERTa: A Robustly Optimized BERT Pretraining Approach
Sentence-BERT2019.08.27EMNLP-IJCNLP 2019Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
ALBERT2019.09.26ICLR 2020ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
DistilBERT2019.10.02EMC2 Workshop at NeurIPS 2019DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
T52019.10.23JMLR 2020Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
BART2019.10.29ACL 2020BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
LayoutLM2019.12.31KDD 2020LayoutLM: Pre-training of Text and Layout for Document Image Understanding
ELECTRA2020.03.23ICLR 2020ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
ColBERT2020.04.27SIGIR 2020ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
Conformer2020.05.16INTERSPEECH 2020Conformer: Convolution-augmented Transformer for Speech Recognition
GPT-32020.05.28NeurIPS 2020Language Models are Few-Shot Learners
DeBERTa2020.06.05ICLR 2021DeBERTa: Decoding-enhanced BERT with Disentangled Attention
BigBird2020.07.28NeurIPS 2020Big Bird: Transformers for Longer Sequences
LUKE2020.10.02EMNLP 2020LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
CLIP2021.02.26ICML 2021Learning Transferable Visual Models From Natural Language Supervision
SimCSE2021.04.18EMNLP 2021SimCSE: Simple Contrastive Learning of Sentence Embeddings
RoFormer2021.04.20-RoFormer: Enhanced Transformer with Rotary Position Embedding
HuBERT2021.06.14TASLP 2021HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
CLOOB2021.10.21NeurIPS 2022CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
DeBERTaV32021.11.18ICLR 2023DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing
ColBERTv22021.12.02NAACL 2022ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction
Stable Diffusion2021.12.20CVPR 2022High-Resolution Image Synthesis With Latent Diffusion Models
BLIP2022.01.28ICML 2022BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
MixCSE2022.02.22AAAI 2022Unsupervised Sentence Representation via Contrastive Learning with Mixing Negatives
InstructGPT2022.03.04NeurIPS 2022Training language models to follow instructions with human feedback
GPT-NeoX2022.04.14BigScience Research Workshop at ACL 2022GPT-NeoX-20B: An Open-Source Autoregressive Language Model
DiffCSE2022.04.21NAACL 2022DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings
GIT2022.05.27TMLR 2022GIT: A Generative Image-to-text Transformer for Vision and Language
Whisper2022.12.06ICML 2023Robust Speech Recognition via Large-Scale Weak Supervision
BLIP-22023.01.30ICML 2023BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
ControlNet2023.02.10ICCV 2023Adding Conditional Control to Text-to-Image Diffusion Models
Llama2023.02.27-LLaMA: Open and Efficient Foundation Language Models
GPT-42023.03.15-GPT-4 Technical Report
SigLIP2023.03.27ICCV 2023Sigmoid Loss for Language Image Pre-Training
LLaVA2023.04.17NeurIPS 2023Visual Instruction Tuning
MiniGPT-42023.04.20-MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
Fast Conformer2023.05.08ASRU 2023Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition
InstructBLIP2023.05.11NeurIPS 2023InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
RWKV2023.05.22EMNLP 2023 (Findings)RWKV: Reinventing RNNs for the Transformer Era
RetNet2023.07.17-Retentive Network: A Successor to Transformer for Large Language Models
Llama 22023.07.18-Llama 2: Open Foundation and Fine-Tuned Chat Models
Code Llama2023.08.24-Code Llama: Open Foundation Models for Code
Qwen2023.09.28-Qwen Technical Report
PixArt-α2023.09.30ICLR 2024PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
LLaVA-1.52023.10.05CVPR 2024Improved Baselines with Visual Instruction Tuning
Mistral 7B2023.10.10-Mistral 7B
Distil-Whisper2023.11.01-Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
Mamba2023.12.01COLM 2024Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Nue ASR2023.12.06ACL 2024 (Findings)Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition
InternVL2023.12.21CVPR 2024InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
TinyLlama2024.01.04-TinyLlama: An Open-Source Small Language Model
Mixtral2024.01.08-Mixtral of Experts
PIXART-δ2024.01.10-PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
LEIA2024.02.18ACL 2024 (Findings)LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation
PixArt-Σ2024.03.07-PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
Gemma2024.03.13-Gemma: Open Models Based on Gemini Research and Technology
EvoLLM-JP, EvoVLM-JP2024.03.19-Evolutionary Optimization of Model Merging Recipes
RakutenAI-7B2024.03.21-RakutenAI-7B: Extending Large Language Models for Japanese
rinna GPT, rinna RoBERTa, Nekomata, Youri, etc.2024.04.02LREC-COLING 2024Release of Pre-Trained Models for the Japanese Language
SambaLingo-Japanese2024.04.08-SambaLingo: Teaching Large Language Models New Languages
Heron2024.04.11-Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese
Stockmark-13b2024.04.12-Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain
Phi-32024.04.22-Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
InternVL 1.52024.04.25-How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
Swallow2024.04.27COLM 2024Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities
LLM-jp-13B2024.07.04-LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs
Llama 3.12024.07.23-The Llama 3 Herd of Models
Gemma 22024.07.31-Gemma 2: Improving Open Language Models at a Practical Size
PLaMo-100B2024.10.10-PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency

LLMの学習手法の原論文

PPO (RLHF)2017.07.20-Proximal Policy Optimization Algorithms
Instruction Tuning
(Supervised Fine-tuning; SFT)
2021.09.03ICLR 2022Finetuned Language Models Are Zero-Shot Learners
DPO2023.05.29NeurIPS 2023Direct Preference Optimization: Your Language Model is Secretly a Reward Model
SteerLM2023.10.09EMNLP 2023 (Findings)SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF
ORPO2024.03.12EMNLP 2024ORPO: Monolithic Preference Optimization without Reference Model

コントリビューター

このプロジェクトに貢献してくれているコントリビューターのみなさんです!

コントリビューター

引用

このリポジトリの要約はプレプリントとしても公開されています: Exploring Open Large Language Models for the Japanese Language: A Practical Guide

このリポジトリについて言及する場合は、以下の通り引用してください:

@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}

  1. 一部アーキテクチャの変更を加えている。詳しくは以下を参照: 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 ↩︎

  2. 詳細は以下の記事を参照: 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など, 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー ↩︎ ↩︎

  3. ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: PLaMo-13Bを公開しました ↩︎

  4. 詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』 ↩︎

  5. 通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。 ↩︎

  6. Instruction Tuning を行う前に、Llama 3 Instruct と Llama 3 Base の差分の Chat Vector を加えている。 ↩︎ ↩︎

  7. Instruction Tuning を行った後に、Llama 3 Instruct と Llama 3 Base の差分の Chat Vector を加えている。 ↩︎ ↩︎

  8. ただし、KARAKURI LM を商用利用したい場合は、開発元であるカラクリ株式会社に直接連絡が必要であるとしている。 ↩︎

  9. Instruction Tuning において、GPT-3.5, GPT-4 等の OpenAI のモデルで生成されたデータを使って学習しているため、OpenAI の規約に違反している可能性がある。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  10. ORPO を行う前に、Gemma 2 Instruct と Gemma 2 Base の差分の Chat Vector を加えている。 ↩︎

  11. ○: HuggingFace の Model Hub にモデルがアップロードされており、AutoModel.from_pretrained() 等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。 ↩︎

  12. 様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。 ↩︎

  13. ただし、最大系列長が 2048 に拡張されているほか、元の BERT に対して様々なアーキテクチャの変更が施されている。詳しくは HuggingFace リポジトリの README を参照。 ↩︎

  14. nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している ↩︎

  15. ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる ↩︎

  16. small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある ↩︎

  17. 万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル ↩︎

  18. それぞれのモデルの詳細は作者らの論文の第4章を参照。なお、SC-2M-wiki モデルは Wikipedia でのみ事前学習されているため、厳密にはドメイン特化型モデルではない。 ↩︎

  19. 埋め込みモデルの分類は Dense Text Retrieval based on Pretrained Language Models: A Survey (Zhao+, 2022) を参考に行った。Bi-Encoder は 2つの入力を個別にモデルに入力し、それぞれベクトル化した上で、それらの内積やコサイン類似度を入力の近さとして定式化するアーキテクチャである。それに対し、Cross-Encoder は 2 つの入力を組み合わせたものをモデルに入力し、モデル内部で近さを直接計算するアーキテクチャである。情報抽出の分野では、Cross-Encoder の方が計算コストがかかるが、入力の近さをよりきめ細かくモデルが計算することが期待されるため、抽出結果の順序を再検討するリランカーとして用いられることも多い。なお、Bi-Encoder の中でも、入力を単一のベクトルではなく(トークンごとなどの)複数のベクトルとして表現するタイプのもの(例: ColBERT)があるため、Single-representation bi-encoders と Multi-representation bi-encoders にさらに細分化している。 ↩︎

  20. ただし、研究および教育を目的とした利用を念頭に置くよう呼びかけている。また、マージ元のモデルのいくつかのライセンスは Apache 2.0 ではない点にも注意すること。 ↩︎ ↩︎ ↩︎

Last updated: