awesome-japanese-llm

日本語LLMまとめ

日本語LLM・英語LLMのパラメータサイズの推移

日本語LLM・英語LLMのパラメータ数の推移。日本語モデルの情報は本記事、英語モデルの情報は LifeArchitect.ai の Models table を参照しています（ただし、図のスペース上一部のモデルは省略。また、英語モデルのパラメータ数は推測値を含む）。修正・追加等ありましたらお知らせ下さい。

この記事は、一般公開されている日本語LLM（日本語を中心に学習されたLLM）および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。

⚠ 以下の点について、あらかじめご理解とご了承をお願いいたします：

本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。
一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。
本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、一部のモデルには、非営利限定のライセンス（例：CC BY-NC-SA 4.0）や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある点にご注意ください。

この記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、GitHub Issues 経由で報告していただけますと幸いです。

テキスト生成に主に使うモデル
入力テキストの処理に主に使うモデル
- 汎用
- ドメイン特化型
埋め込み (Embeddings) 作成に特化したモデル
視覚言語モデル (Vision-Language Models)
- 画像を含むテキスト生成
  - 汎用
  - ドメイン特化型
- その他
音声言語モデル (Speech-Language Models)
- 音声認識
- その他
日本語LLM評価ベンチマーク/データセットまとめ
各モデル・アーキテクチャの原論文
LLMの学習手法の原論文
コントリビューター
引用

テキスト生成に主に使うモデル

画像を含むテキスト生成モデルはこちら

フルスクラッチ事前学習モデル

汎用

	アーキテクチャ	入出力で扱えるトークン数	学習テキスト	開発元	ライセンス
LLM-jp-13B v1.1	GPT (13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)	2,048	Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction DPO (LoRA): HH RLHF	LLM-jp	Apache 2.0
LLM-jp-13B	GPT (1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)	2,048	事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン) Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1	LLM-jp	Apache 2.0
PLaMo-13B	Llama¹ (13b, 13b-instruct, 13b-instruct-nc)	base: 4,096 instruct, instruct-nc: 8,192	事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4 (計 1.5T トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習)	Preferred Networks	Apache 2.0 (NC モデルは CC BY-NC 4.0)
Stockmark-13b	Llama (13b, 13b-instruct)	2,048	事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus (計 220B トークン) Instruction Tuning (LoRA): ichikara-instruction	ストックマーク	baseモデル: MIT instructモデル: CC BY-NC-SA 4.0
Weblab-10B	GPT (10b, 10b-instruction-sft)	2,048	Japanese mC4 + The Pile（計 600B トークン） *instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング	東大松尾研	CC BY-NC 4.0
Japanese StableLM Alpha	GPT (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)	2,048	Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama (+ 独自のデータセット)² (計 750B トークン) *instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング (v2では商用利用不可の Alpaca Dataset を除外)	Stability AI	baseモデル: Apache 2.0 instruct モデル (v1): 独自のライセンス instruct モデル (v2): Apache 2.0
CALM2	Llama (7b, 7b-chat, 7b-chat-dpo-experimental)	base: 4,096 chat: 32,768	一般公開されている日本語・英語のデータセット（詳細不明） (計 1.3T トークン) *dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習	サイバーエージェント	Apache 2.0 (dpo モデルのみ CC BY 4.0)
OpenCALM	GPT (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))	2,048	日本語 Wikipedia + Jpanese mC4 + Japanese CC-100	サイバーエージェント	CC BY-SA 4.0
Stormy	GPT (7b(6.8b))	2,048	OpenCALM (6.8b) に対して llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング	東大和泉研	CC BY-SA 4.0
rinna GPT (英語やコードも含めて学習されたモデル)	GPT (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)	8kモデル: 8,192 他: 2,048	Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile (計 524B トークン) 8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング instruction-sft モデルでは HH RLHF、FLAN でファインチューニング *instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習	rinna	MIT
japanese-large-lm	GPT (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)	2,048	日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど (計 650GB) *instruction-sft モデルでは OASST1 でファインチューニング	LINE	Apache 2.0
rinna GPT (日本語のみで学習されたモデル)	GPT (xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)	≤ 2,048	日本語 Wikipedia + Japanese CC-100 (1b 以降のモデルではさらに Japanese mC4 を追加) instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習	rinna	MIT
レトリバT5	T5 (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))		日本語 Wikipedia + Japanese mC4	レトリバ	CC BY-SA 4.0
kotomamba-2.8B	Mamba (2.8B-v1.0)	2,048	日本語 Wikipedia, Swallow Corpus, SlimPajama	Kotoba Technologies	Apache 2.0
ABEJA GPT	GPT (large, neox-2.7b)		日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR	ABEJA	MIT
早大GPT	GPT (small, xl(1.5b))		日本語 Wikipedia + Japanese CC-100	早大河原研	CC BY-SA 4.0
ストックマークGPT	GPT (1.4b)		日本語 Wikipedia (0.88B トークン) + Japanese CC-100 (10.5B トークン) + 独自のWebデータ (8.6B トークン)	ストックマーク	MIT
イエローバックGPT	GPT (1.3b)		日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR	イエローバック	Apache 2.0
colorfulscoop GPT	GPT (small)		日本語 Wikipedia	Colorful Scoop	CC BY-SA 3.0
東工大GPT	GPT (medium, medium (逆方向)) ³		日本語 Wikipedia + Japanese CC-100	東工大岡崎研	CC BY-SA 4.0
京大GPT	GPT (small (文字レベル), medium (文字レベル), large (文字レベル))		日本語 Wikipedia (約2,700万文 (3.2GB)) + Japanese CC-100 (約6億1,900万文 (85GB)) + Japanese OSCAR (約3億2,600万文 (54GB))	京大言語メディア研究室	CC BY-SA 4.0
日本語BART	BART (base, large)		日本語 Wikipedia (約1,800万文)	京大言語メディア研究室	CC BY-SA 4.0
Megagon Labs T5	T5 (base)		Japanese mC4 (87,425,304 ページ (782 GB)) + Japanese wiki40b (828,236 記事 (2 GB))	Megagon Labs (リクルート)	Apache 2.0

ドメイン特化型

	ドメイン	アーキテクチャ	学習テキスト	開発元	ライセンス
日本語対話Transformer	対話	Transformer	Twitter 上の日本語リプライのペア	NTT	独自のライセンス
日本語ニュースBART	ビジネス	BART (base)	日本語ビジネスニュース記事（約2,100万記事 (2.9億文)）	ストックマーク	MIT
AcademicBART	学術	BART (base)	CiNii の日本語論文	愛媛大人工知能研究室	Apache 2.0

英語モデルに日本語で追加事前学習を行ったモデル（継続事前学習モデル）

汎用

	ベースのLLM	学習テキスト	開発元	ライセンス
Swallow 70B (70b-hf, 70b-instruct-hf, 70b-NVE-hf, 70b-NVE-instruct-hf)	Llama 2 (70b)	事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1	TokyoTech-LLM	Llama 2 Community License
KARAKURI LM (70b-v0.1, 70b-chat-v0.1)	Llama 2 (70b)	事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット (計 16B トークン) SteerLM: OASST2, 独自のデータセット	カラクリ	Llama 2 Community License⁴
Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b)	Llama 2 (70b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1	Stability AI	Llama 2 Community License
Swallow-MX 8x7B (8x7b-NVE-v0.1)	Mixtral-8x7B-Instruct-v0.1 (46.7b)	事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault	TokyoTech-LLM	Apache 2.0
Nekomata 14B (14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)	Qwen (14b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, FLAN, llm-japanese-datasetの一部	rinna	Tongyi Qianwen LICENSE
Swallow 13B (13b-hf, 13b-instruct-hf, 13b-NVE-hf)	Llama 2 (13b)	事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1	TokyoTech-LLM	Llama 2 Community License
ELYZA-japanese-Llama-2-13b (13b, 13b-instruct, 13b-fast, 13b-fast-instruct)	Llama 2 (13b)	事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット	ELYZA	Llama 2 Community License
Swallow 7B (7b-hf, 7b-instruct-hf, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)	Llama 2 (7b)	事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1	TokyoTech-LLM	Llama 2 Community License
ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct)	Llama 2 (7b)	事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット	ELYZA	Llama 2 Community License
Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)	Llama 2 (7b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 40B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, FLAN, llm-japanese-datasetの一部	rinna	Llama 2 Community License
houou-7b (instruction-7b-v1, instruction-7b-v2)	Llama 2 (7b)	Youri 7B (base) に対して Instruction Tuning (Full-parameter FT): ichikara-instruction	マネーフォワード	Llama 2 Community License
Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)	Llama 2 (7b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1	Stability AI	Llama 2 Community License
SambaLingo-Japanese (Base, Chat)	Llama 2 (7b)	事前学習: Cultura-X Instruction Tuning: ultrachat_200k DPO: ultrafeedback, cai-conversation-harmless	SambaNova Systems	Llama 2 Community License (?)⁵
blue-lizard (blue-lizard)	Llama 2 (7b)	不明	Deepreneur	Llama 2 Community License
Swallow-MS 7B (7b-v0.1)	Mistral-7B-v0.1 (7b)	事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile	TokyoTech-LLM	Apache 2.0
RakutenAI-7B (7B, 7B-instruct, 7B-chat)	Mistral-7B-v0.1 (7b)	事前学習: 不明 Instruction Tuning: Dolly Dataset, OASST1, （jasterと同様に）言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット	楽天	Apache 2.0
Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b)	Mistral-7B-v0.1 (7b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset	Stability AI	Apache 2.0
ChatNTQ JA 7B (7b-v1.0)	Mistral-7B-v0.1 (7b)	Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning	NTQ Solution	Apache 2.0
Shisa Gamma 7B (7b-v1)	Mistral-7B-v0.1 (7b)	Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning	AUGMXNT	Apache 2.0 (?)⁵
Shisa 7B (base-7b-v1, 7b-v1)	Mistral-7B-v0.1 (7b)	事前学習: shisa-pretrain-en-ja-v1 (8B トークン) Instruction Tuning(Full-parameter FT) & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1	AUGMXNT	Apache 2.0 (?)⁵
Karasu (7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)	Mistral-7B-v0.1 (7b)	Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン) Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット	Lightblue	Apache 2.0 (?)⁵
Nekomata 7B (7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)	Qwen (7b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, FLAN, llm-japanese-datasetの一部	rinna	Tongyi Qianwen LICENSE
lightblue/japanese-mpt-7b	MPT (7b)	Japanese mC4	Lightblue	Apache 2.0
Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct)	StableLM-3B-4E1T (3b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset	Stability AI	Apache 2.0
kotomamba-2.8B-CL	mamba-2.8b-slimpj (2.8b)	日本語 Wikipedia, Swallow Corpus, SlimPajama	Kotoba Technologies	Apache 2.0
karasu-1.1B	TinyLlama (1.1b)	事前学習: Japanese OSCAR, Japanese mC4 (計 3B トークン)	Lightblue	Apache 2.0

ドメイン特化型

	ドメイン	ベースのLLM	開発元	ライセンス
Watashiha-Llama-2-13B-Ogiri-sft (sft, sft-neuron)	大喜利	Llama 2 (13b)	わたしは	Llama 2 Community License
ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct)	コーディング	Code Llama (7b)	ELYZA	Llama 2 Community License
AIBunCho/japanese-novel-gpt-j-6b	物語生成	GPT-J (6b)	個人 (大曽根宏幸)	CreativeML OpenRAIL-M License
NovelAI/genji-jp	物語生成	GPT-J (6b)	NovelAI	？

英語モデルに日本語で指示チューニング (Instruction Tuning) のみ行ったモデル

汎用

	ベースのLLM	学習テキスト	開発元	ライセンス
ao-Karasu (72B)	Qwen1.5 (72b)	ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本語の公開技術ブログ, ニュース記事, QAサイトの回答, 独自のデータセット	Lightblue	Tongyi Qianwen LICENSE (?)⁵
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese	Llama 2 (70b)		東京大学医学部附属病院循環器内科 AIグループ	Llama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1	Llama 2 (70b)		同志社大学メディア情報学研究室	？
Qarasu (14B-chat-plus-unleashed)	Qwen (14b)	ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット	Lightblue	Tongyi Qianwen LICENSE (?)⁵
Sparticle/llama-2-13b-chat-japanese-lora	Llama 2 (13b)		Sparticle	？
izumi-lab/llama-13b-japanese-lora-v0-1ep	Llama (13b)		東大和泉研	？
ganchengguang/Yoko-7B-Japanese-v1	Llama 2 (7b)		横浜国大森研	？
Sparticle/llama-2-7b-chat-japanese-lora	Llama 2 (7b)		Sparticle	？
izumi-lab/llama-7b-japanese-lora-v0-5ep	Llama (7b)		東大和泉研	？
lightblue/jod	Mistral-7B-SlimOrca (7b)		Lightblue	Apache 2.0
NTQAI/chatntq-7b-jpntuned	RWKV-4 World (7b)		NTQ Solution	？

ドメイン特化型

	ドメイン	ベースのLLM	開発元	ライセンス
JMedLoRA (llama2-jmedlora-6.89ep)	医療	Llama 2 (70b)	東京大学医学部附属病院循環器内科 AIグループ	CC BY-NC 4.0

複数のLLMをマージして作成されたモデル

	マージ元のLLM（太字は日本語LLM）	開発元	ライセンス
EvoLLM-JP-A (v1-7B)	Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002	Sakana AI	Apache 2.0
EvoLLM-JP (v1-7B, v1-10B)	Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002	Sakana AI	MICROSOFT RESEARCH LICENSE

入力テキストの処理に主に使うモデル

汎用

	アーキテクチャ	学習テキスト	開発元	ライセンス	HuggingFace ですぐ使える？ ⁶
京大BERT	BERT (base, large)	日本語 Wikipedia (約1,800万文)	京大言語メディア研究室	Apache 2.0	△
東北大BERT	BERT (base, large)	base (v1): 日本語 Wikipedia 約1,700万文 (2.6GB) base (v2) & large: 日本語 Wikipedia 約3,000万文 (4.0GB) base (v3) & large (v2): 日本語 Wikipedia 約3,400万文 (4.9GB) + 日本語 CC-100 約3億9,200万文 (74.3GB)	東北大自然言語処理研究グループ	base (v1, v2) & large: CC BY-SA 3.0 base (v3) & large (v2): Apache 2.0	◯ (base (v1), base (v1, 文字レベル), base (v2), base (v2, 文字レベル), large, large (文字レベル), base (v3), base (v3, 文字レベル), large (v2), large (v2, 文字レベル))
NICT BERT	BERT (base)	日本語 Wikipedia	NICT	CC BY 4.0	△
colorfulscoop BERT	BERT (base)	日本語 Wikipedia	Colorful Scoop	CC BY-SA 3.0	◯
東大BERT	BERT (small)	日本語 Wikipedia (約2,000万文 (2.9GB))	東大和泉研	CC BY-SA 4.0	◯
chiTra (Sudachi Transformers)	BERT (base)	国語研日本語ウェブコーパス (NWJC) (148GB)	NINJAL & ワークス徳島人工知能NLP研	Apache 2.0	△
ACCMS BERT	BERT (base)	日本語 Wikipedia (3.3GB)	京大 ACCMS	CC BY-SA 4.0	◯
日立BERT	BERT (base)	日本語 Wikipedia + Japanese CC-100	日立製作所	CC BY-NC-SA 4.0	◯ ⁷
Bandai Namco DistilBERT	DistilBERT	- （東北大BERT(base) を親モデルとして知識蒸留）	Bandai Namco Research	MIT	◯
LINE DistilBERT	DistilBERT	- （LINE社内のBERTを親モデルとして知識蒸留）	LINE	Apache 2.0	◯
rinna RoBERTa	RoBERTa (base)	日本語 Wikipedia + Japanese CC-100	rinna	MIT	◯
早大RoBERTa	RoBERTa (base, large)	日本語 Wikipedia + Japanese CC-100	早大河原研	CC BY-SA 4.0	◯ (base, large, large (seq512)) ⁸
インフォマティクスRoBERTa	RoBERTa (base)	日本語 Wikipedia + Web 上の記事 (計25GB)	インフォマティクス	Apache 2.0	△
京大RoBERTa	RoBERTa (base, large)	日本語 Wikipedia + Japanese CC-100	京大言語メディア研究室	CC BY-SA 4.0	◯ (base (文字レベル), large (文字レベル))
横浜国大RoBERTa	RoBERTa (base)	日本語 Wikipedia (3.45GB)	横浜国大森研	Apache 2.0	◯
Megagon Labs RoBERTa	RoBERTa (base) ⁹	Japanese mC4 (約2億文)	Megagon Labs (リクルート)	MIT	◯
ACCMS RoBERTa	RoBERTa (base)	日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB)	京大 ACCMS	CC BY-SA 4.0	◯
シナモンELECTRA	ELECTRA (small)	日本語 Wikipedia	シナモン	Apache 2.0	◯
Megagon Labs ELECTRA	ELECTRA (base)	Japanese mC4 (約2億文)	Megagon Labs (リクルート)	MIT	◯
東大ELECTRA	ELECTRA (small, base)	日本語 Wikipedia (約2,000万文 (2.9GB))	東大和泉研	CC BY-SA 4.0	◯ (small, base)
日本語RoFormer	RoFormer (base)	日本語 Wikipedia (3.45GB)	横浜国大森研	Apache 2.0	◯
日本語LUKE	LUKE (base, large)	日本語 Wikipedia	Studio Ousia	Apache 2.0	◯ (base, large)
京大DeBERTaV2	DeBERTaV2 (tiny, base, large)	日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR （計171GB）	京大言語メディア研究室	CC BY-SA 4.0	◯ (tiny, tiny (文字レベル), base, large)
東大DeBERTaV2	DeBERTaV2 (small, base)	日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR	東大和泉研	CC BY-SA 4.0	◯ (small, base)
日本語BigBird	BigBird (base)	日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR	早大河原研	CC BY-SA 4.0	◯
日本語LayoutLM	LayoutLM (base)	東北大BERT (base, v2) で重みを初期化した上で、日本語 Wikipedia の文章とレイアウトで事前学習	日本総合研究所	CC BY-SA 3.0	◯

ドメイン特化型

	アーキテクチャ	学習テキスト	開発元	ライセンス	HuggingFace ですぐ使える？
日本語ニュースBERT	BERT (base)	日本語ビジネスニュース記事(300万記事)	ストックマーク	CC BY 4.0	△
日本語ニュースXLNet	XLNet (base)	日本語ビジネスニュース記事(300万記事)	ストックマーク	？	※ 非公式の HuggingFace 向けに変換されたモデルが公開されている
日本語ニュースALBERT	ALBERT (base)	日本語ビジネスニュース記事(300万記事)	ストックマーク	？	△
Laboro BERT	BERT (base, large)	日本語 Web コーパス (ニュースサイトやブログなど計4,307のWebサイト、2,605,280ページ (12GB))	Laboro.AI	CC BY-NC 4.0	✕
Laboro DistilBERT	DistilBERT	- （Laboro BERT(base) を親モデルとして知識蒸留）	Laboro.AI	CC BY-NC 4.0	◯
日本語ブログELECTRA	ELECTRA (small)	日本語ブログコーパス（3億5,400万文）	北見工大桝井・プタシンスキ研	CC BY-SA 4.0	◯
日本語話し言葉BERT	BERT (base)	東北大BERTに対して日本語話し言葉コーパス（CSJ）を用いて追加学習（DAPTモデルでは国会議事録データも使用）	レトリバ	Apache 2.0	◯
日本語金融BERT	BERT (small, base) ¹⁰	日本語 Wikipedia + 日本語金融コーパス (約2,700万文 (5.2GB))	東大和泉研	CC BY-SA 4.0	◯ (small, base)
日本語金融ELECTRA	ELECTRA (small)	日本語 Wikipedia (約2,000万文 (2.9GB)) + 日本語金融コーパス (約2,700万文 (5.2GB))	東大和泉研	CC BY-SA 4.0	◯
UTH-BERT	BERT (base)	日本語診療記録(約1億2,000万行)	東大病院医療AI開発学講座	CC BY-NC-SA 4.0	△
medBERTjp	BERT (base)	日本語 Wikipedia + 日本語医療コーパス（『今日の診療プレミアム』Web版）	阪大病院医療情報学研究室	CC BY-NC-SA 4.0	△
JMedRoBERTa	RoBERTa (base)	日本語医学論文 (約1,100万文 (1.8GB))	東大相澤研	CC BY-NC-SA 4.0	◯ (万病WordPiece, SentencePiece) ¹¹
AcademicRoBERTa	RoBERTa (base)	CiNii の日本語論文 (約628万文)	愛媛大人工知能研究室	Apache 2.0	◯

埋め込み (Embeddings) 作成に特化したモデル

	アーキテクチャ	開発元	ライセンス
JaColBERT (JaColBERT, JaColBERTv2)	ColBERT	個人 (Benjamin Clavié)	MIT
Japanese SimCSE (cl-nagoya/unsup-simcse-ja-base, cl-nagoya/unsup-simcse-ja-large, cl-nagoya/sup-simcse-ja-base, cl-nagoya/sup-simcse-ja-large)	SimCSE	名大武田・笹野研	CC BY-SA 4.0
GLuCoSE (pkshatech/GLuCoSE-base-ja)	LUKEベースの文埋め込みモデル (GLuCoSE)	PKSHA Technology	Apache 2.0

colorfulscoop/sbert-base-ja	Sentence-BERT	Colorful Scoop	CC BY-SA 4.0
MU-Kindai/SBERT-JSNLI-base MU-Kindai/SBERT-JSNLI-large	Sentence-BERT	近畿大学 (研究室不明)	？
MU-Kindai/Japanese-SimCSE-BERT-base-unsup MU-Kindai/Japanese-SimCSE-BERT-large-unsup MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup MU-Kindai/Japanese-SimCSE-BERT-base-sup MU-Kindai/Japanese-SimCSE-BERT-large-sup	SimCSE	近畿大学 (研究室不明)	MIT
pkshatech/simcse-ja-bert-base-clcmlp	SimCSE	PKSHA Technology	CC BY-SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base MU-Kindai/Japanese-MixCSE-BERT-large	MixCSE	近畿大学 (研究室不明)	MIT
MU-Kindai/Japanese-DiffCSE-BERT-base	DiffCSE	近畿大学 (研究室不明)	MIT

視覚言語モデル (Vision-Language Models)

画像を含むテキスト生成

汎用

	アーキテクチャ	学習画像/テキスト	開発元	ライセンス
EvoVLM-JP (v1-7B)	-	- （Shisa Gamma 7B (v1) と LLaVA-1.6-Mistral-7B をマージ）	Sakana AI	Apache 2.0
Heron (blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0)	BLIP-2 または GIT	v1: LLaVA-Instruct-150K-JA または LLaVA-Instruct-620K-JA v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset	Turing	CC BY-NC 4.0
Japanese Stable VLM (japanese-stable-vlm)	LLaVA-1.5	Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset	Stability AI	STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha (japanese-instructblip-alpha)	InstructBLIP	Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset	Stability AI	JAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4 (bilingual-gpt-neox-4b-minigpt4)	MiniGPT-4	CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset	rinna	MIT

ドメイン特化型

	アーキテクチャ	ドメイン	開発元	ライセンス
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm	LLaVA	大喜利	わたしは	Llama 2 Community License

その他

	アーキテクチャ	学習画像/テキスト	開発元	ライセンス
リクルートCLIP (japanese-clip-vit-b-32-roberta-base)	CLIP	laion2B-multi のキャプション約1億2000万件	リクルート	CC BY-4.0
Japanese Stable CLIP (japanese-stable-clip-vit-l-16)	SigLIP	CC12M のキャプションを日本語に翻訳したもの、STAIR Captions	Stability AI	STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP (japanese-clip-vit-b-16)	CLIP	CC12M のキャプションを日本語に翻訳したもの	rinna	Apache 2.0
rinna CLOOB (japanese-cloob-vit-b-16)	CLOOB	CC12M のキャプションを日本語に翻訳したもの	rinna	Apache 2.0
博報堂テクノロジーズCLIP (base, deeper, wider)	CLIP	laion2B-multi のキャプション約1億2000万件	博報堂テクノロジーズ	CC BY-NC-SA 4.0
Japanese Stable Diffusion XL (japanese-stable-diffusion-xl)	Stable Diffusion	不明	Stability AI	STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
東北大Stable Diffusion (base, refiner)	Stable Diffusion	WMT2023 Shared Task の日英対訳コーパス、laion2B-multi のキャプション約 1,300 万件	東北大自然言語処理研究グループ	CreativeML OpenRAIL-M License
rinna Stable Diffusion (japanese-stable-diffusion)	Stable Diffusion	LAION-5B データセットのうちキャプションが日本語のもの（画像約 1 億枚）	rinna	CreativeML OpenRAIL-M License

音声言語モデル (Speech-Language Models)

音声認識

	アーキテクチャ	学習コーパス	開発元	ライセンス
Kotoba-Whisper (v1.0, v1.0-ggml)	Distil-Whisper	ReazonSpeech	Kotoba Technologies	Apache 2.0
Nue ASR (nue-asr)	Nue ASR (HuBERT + LLM)	ReazonSpeech	rinna	Apache 2.0
ReazonSpeech (espnet-v1, espnet-next, espnet-v2, nemo-v2)	ESPnet (Conformer-Transducer) または NeMo (FastConformer-RNNT)	ReazonSpeech	レアゾン・ホールディングス	Apache 2.0

その他

	アーキテクチャ	学習コーパス	開発元	ライセンス
Kotoba-Speech (v0.1)	Transformer	不明	Kotoba Technologies	Apache 2.0
東大HuBERT (base-jtube)	HuBERT	JTubeSpeech	東大猿渡・高道研	MIT
rinna HuBERT (base, large)	HuBERT	ReazonSpeech	rinna	Apache 2.0

日本語LLM評価ベンチマーク/データセットまとめ

複合型ベンチマーク

Nejumi LLMリーダーボード Neo (Weights & Biases)

一問一答形式で言語理解を評価する llm-jp-eval とプロンプト対話で生成能力を評価する Japanese MT-bench による総合評価の結果をまとめている。

基礎的な自然言語理解 (NLU) を中心に測定するベンチマーク/データセット

llm-jp-eval (LLM-jp)

複数のデータセットを横断して日本語 LLM を自動評価するツールである。
対応している全データセット一覧はこちらから確認できる（この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている）。
評価結果は llm-jp-eval リーダーボードにまとめられている。

JP Language Model Evaluation Harness (Stability AI)

Stability AI による EleutherAI/lm-evaluation-harness のフォーク。複数のデータセットを横断して日本語 LLM を自動評価するツールである。
対応している全データセット一覧はこちらから確認できる（この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている）。
rinna による詳細な評価結果まとめがある: [rinna] Benchmark of Stability-AI/lm-evaluation-harness

JGLUE (早大河原研 & ヤフー)

GLUE ベンチマークの日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む（JCoLA は東大大関研により作成）。各タスクの詳細はこちらやこちらを参照

JMMLU (早大河原研)

MMLU ベンチマークの日本語版として構築されたベンチマーク。自然科学・人文科学・社会科学の幅広い学術領域から 4 択問題を構成している。元の MMLU を翻訳しただけでなく、日本独自の文化的背景に基づく問題（日本問題）を新たに追加しているのが特徴である。

日本語 Open LLM Leaderboard (LLM-jp)

Huggingface の Open LLM Leaderboard と同様の検証を日本語 LLM に対して行ったもの。日本語 LLM の英語タスクにおける性能を確認できる。

人間らしい応答の生成能力を中心に測定するベンチマーク/データセット

Japanese MT-bench (Stability AI)

マルチターン会話能力を問う MT-bench の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。
GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。

Rakuda Benchmark (YuzuAI)

日本の地理、歴史、政治、社会に関する40問の自由質問に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う。

ELYZA-tasks-100 (ELYZA)

複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。
要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。
評価結果はこちらやこちらを参照。また、より新しいモデルを含む評価結果はこちらを参照。

Japanese Vicuna QA Benchmark (京大言語メディア研究室)

MT-Bench の前身である vicuna-blog-eval の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価（勝率計算）のスクリプトも含まれている。リーダーボードはこちら

論理推論能力を測定するベンチマーク/データセット

JFLD (Japanese Formal Logic Deduction) (日立製作所)

日本語 LLM の演繹推論能力を問うデータセット（同著者らが提案している FLD (Formal Logic Deduction) の日本語版）。LLM が持つ知識と切り分けて評価を行うために、反実仮想的なサンプルから構成されているのが特徴である。

特定ドメインの性能を測定するベンチマーク/データセット

Japanese Language Model Financial Evaluation Harness (Preferred Networks)

金融分野における日本語 LLM のベンチマーク。金融分野における感情分析タスク(chabsa)、証券分析における基礎知識タスク(cma_basics)、公認会計士試験における監査に関するタスク(cpa_audit)、ファイナンシャルプランナー試験の選択肢問題のタスク(fp2)、証券外務員試験の模擬試験タスク(security_sales_1)を含む。詳細はこちらを参照

Stockmark Business Questions (ストックマーク)

市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。

視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

JA-VLM-Bench-In-the-Wild (Sakana AI)

Sakana AI が EvoVLM-JP-v1-7B の評価のために独自に用意したデータセット。42 枚の画像に対して計 50 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。

LLaVA-Bench (COCO) Japanese (Turing)

LLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL で日本語に訳したもの。30 枚の画像に対して各 3 種類の質問が割り当てられている。

各モデル・アーキテクチャの原論文

モデル/アーキテクチャ	初出時期	会議/ジャーナル	論文
Transformer	2017.06.12	NIPS(NeurIPS) 2017	Attention Is All You Need
GPT	2018.06.11	-	Improving Language Understanding by Generative Pre-Training
BERT	2018.10.11	NAACL 2019	BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
GPT-2	2019.02.14	-	Language Models are Unsupervised Multitask Learners
XLNet	2019.06.19	NeurIPS 2019	XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa	2019.07.26	-	RoBERTa: A Robustly Optimized BERT Pretraining Approach
Sentence-BERT	2019.08.27	EMNLP-IJCNLP 2019	Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
ALBERT	2019.09.26	ICLR 2020	ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
DistilBERT	2019.10.02	EMC2 Workshop at NeurIPS 2019	DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
T5	2019.10.23	JMLR 2020	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
BART	2019.10.29	ACL 2020	BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
LayoutLM	2019.12.31	KDD 2020	LayoutLM: Pre-training of Text and Layout for Document Image Understanding
ELECTRA	2020.03.23	ICLR 2020	ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
ColBERT	2020.04.27	SIGIR 2020	ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
Conformer	2020.05.16	INTERSPEECH 2020	Conformer: Convolution-augmented Transformer for Speech Recognition
GPT-3	2020.05.28	NeurIPS 2020	Language Models are Few-Shot Learners
DeBERTa	2020.06.05	ICLR 2021	DeBERTa: Decoding-enhanced BERT with Disentangled Attention
BigBird	2020.07.28	NeurIPS 2020	Big Bird: Transformers for Longer Sequences
LUKE	2020.10.02	EMNLP 2020	LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
CLIP	2021.02.26	ICML 2021	Learning Transferable Visual Models From Natural Language Supervision
SimCSE	2021.04.18	EMNLP 2021	SimCSE: Simple Contrastive Learning of Sentence Embeddings
RoFormer	2021.04.20	-	RoFormer: Enhanced Transformer with Rotary Position Embedding
HuBERT	2021.06.14	TASLP 2021	HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
CLOOB	2021.10.21	NeurIPS 2022	CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
Stable Diffusion	2021.12.20	CVPR 2022	High-Resolution Image Synthesis With Latent Diffusion Models
BLIP	2022.01.28	ICML 2022	BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
MixCSE	2022.02.22	AAAI 2022	Unsupervised Sentence Representation via Contrastive Learning with Mixing Negatives
InstructGPT	2022.03.04	NeurIPS 2022	Training language models to follow instructions with human feedback
GPT-NeoX	2022.04.14	BigScience Research Workshop at ACL 2022	GPT-NeoX-20B: An Open-Source Autoregressive Language Model
DiffCSE	2022.04.21	NAACL 2022	DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings
GIT	2022.05.27	TMLR 2022	GIT: A Generative Image-to-text Transformer for Vision and Language
Whisper	2022.12.06	ICML 2023	Robust Speech Recognition via Large-Scale Weak Supervision
BLIP-2	2023.01.30	ICML 2023	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Llama	2023.02.27	-	LLaMA: Open and Efficient Foundation Language Models
GPT-4	2023.03.15	-	GPT-4 Technical Report
SigLIP	2023.03.27	ICCV 2023	Sigmoid Loss for Language Image Pre-Training
LLaVA	2023.04.17	NeurIPS 2023	Visual Instruction Tuning
MiniGPT-4	2023.04.20	-	MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
Fast Conformer	2023.05.08	ASRU 2023	Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition
InstructBLIP	2023.05.11	-	InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
RWKV	2023.05.22	-	RWKV: Reinventing RNNs for the Transformer Era
Llama 2	2023.07.18	-	Llama 2: Open Foundation and Fine-Tuned Chat Models
Code Llama	2023.08.24	-	Code Llama: Open Foundation Models for Code
Qwen	2023.09.28	-	Qwen Technical Report
LLaVA-1.5	2023.10.05	-	Improved Baselines with Visual Instruction Tuning
Mistral 7B	2023.10.10	-	Mistral 7B
Distil-Whisper	2023.11.01	-	Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
Mamba	2023.12.01	-	Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Nue ASR	2023.12.06	-	An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition
TinyLlama	2024.01.04	-	TinyLlama: An Open-Source Small Language Model
Mixtral 8x7B	2024.01.08	-	Mixtral of Experts
EvoLLM-JP, EvoVLM-JP	2024.03.19	-	Evolutionary Optimization of Model Merging Recipes
RakutenAI-7B	2024.03.21	-	RakutenAI-7B: Extending Large Language Models for Japanese
rinna GPT, rinna RoBERTa, Nekomata, Youri, etc.	2024.04.02	LREC-COLING 2024	Release of Pre-Trained Models for the Japanese Language

LLMの学習手法の原論文

手法	初出時期	会議/ジャーナル	論文
PPO (RLHF)	2017.07.20	-	Proximal Policy Optimization Algorithms
Instruction Tuning (Supervised Fine-tuning; SFT)	2021.09.03	ICLR 2022	Finetuned Language Models Are Zero-Shot Learners
DPO	2023.05.29	NeurIPS 2023	Direct Preference Optimization: Your Language Model is Secretly a Reward Model
SteerLM	2023.10.09	Findings of EMNLP 2023	SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF

コントリビューター

このプロジェクトに貢献してくれているコントリビューターのみなさんです！

引用

このリポジトリの要約はプレプリントとしても公開されています: Exploring Open Large Language Models for the Japanese Language: A Practical Guide

このリポジトリについて言及する場合は、以下の通り引用してください:

@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}

ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: PLaMo-13Bを公開しました ↩
詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』 ↩
通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。 ↩
ただし、KARAKURI LM を商用利用したい場合は、開発元であるカラクリ株式会社に直接連絡が必要であるとしている。 ↩
Instruction Tuning において、GPT-3.5, GPT-4 等の OpenAI のモデルで生成されたデータを使って学習しているため、OpenAI の規約に違反している可能性がある。 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
○: HuggingFace の Model Hub にモデルがアップロードされており、AutoModel.from_pretrained() 等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。 ↩
様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。 ↩
nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している ↩
ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる ↩
small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある ↩
万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル ↩

This site is open source. Improve this page.

awesome-japanese-llm

日本語LLMまとめ

目次

テキスト生成に主に使うモデル

フルスクラッチ事前学習モデル

汎用

ドメイン特化型

英語モデルに日本語で追加事前学習を行ったモデル（継続事前学習モデル）

汎用

ドメイン特化型

英語モデルに日本語で指示チューニング (Instruction Tuning) のみ行ったモデル

汎用

ドメイン特化型

複数のLLMをマージして作成されたモデル

入力テキストの処理に主に使うモデル

汎用

ドメイン特化型

埋め込み (Embeddings) 作成に特化したモデル

視覚言語モデル (Vision-Language Models)

画像を含むテキスト生成

汎用

ドメイン特化型

その他

音声言語モデル (Speech-Language Models)

音声認識

その他

日本語LLM評価ベンチマーク/データセットまとめ

複合型ベンチマーク

Nejumi LLMリーダーボード Neo (Weights & Biases)

基礎的な自然言語理解 (NLU) を中心に測定するベンチマーク/データセット

llm-jp-eval (LLM-jp)

JP Language Model Evaluation Harness (Stability AI)

JGLUE (早大河原研 & ヤフー)

JMMLU (早大河原研)

日本語 Open LLM Leaderboard (LLM-jp)

人間らしい応答の生成能力を中心に測定するベンチマーク/データセット

Japanese MT-bench (Stability AI)

Rakuda Benchmark (YuzuAI)

ELYZA-tasks-100 (ELYZA)

Japanese Vicuna QA Benchmark (京大 言語メディア研究室)

論理推論能力を測定するベンチマーク/データセット

JFLD (Japanese Formal Logic Deduction) (日立製作所)

特定ドメインの性能を測定するベンチマーク/データセット

Japanese Language Model Financial Evaluation Harness (Preferred Networks)

Stockmark Business Questions (ストックマーク)

視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

JA-VLM-Bench-In-the-Wild (Sakana AI)

LLaVA-Bench (COCO) Japanese (Turing)

各モデル・アーキテクチャの原論文

LLMの学習手法の原論文

コントリビューター

引用

Japanese Vicuna QA Benchmark (京大言語メディア研究室)