awesome-japanese-llm

日本語LLMまとめ

[ English | Français | 日本語 ]

日本語LLM・英語LLMのパラメータサイズの推移

日本語LLM・英語LLMのパラメータ数の推移。日本語モデルの情報は本記事、英語モデルの情報は LifeArchitect.ai の Models table を参照しています(ただし、図のスペース上一部のモデルは省略。また、英語モデルのパラメータ数は推測値を含む)。修正・追加等ありましたらお知らせ下さい。

この記事は、一般公開されている日本語LLM(日本語を中心に学習されたLLM)および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。

⚠ 以下の点について、あらかじめご理解とご了承をお願いいたします:

  1. 本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。
  2. 一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。
  3. 本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、一部のモデルには、非営利限定のライセンス(例:CC BY-NC-SA 4.0)や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある点にご注意ください。

この記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、GitHub Issues 経由で報告していただけますと幸いです。

目次

テキスト生成に主に使うモデル

画像を含むテキスト生成モデルはこちら

フルスクラッチ事前学習モデル

汎用

  アーキテクチャ 入出力で扱える
トークン数
学習テキスト 開発元 ライセンス
LLM-jp-13B v1.1 GPT
(13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)
2,048 Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction
DPO (LoRA): HH RLHF
LLM-jp Apache 2.0
LLM-jp-13B GPT
(1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)
2,048 事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン)
Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1
LLM-jp Apache 2.0
PLaMo-13B Llama1
(13b, 13b-instruct, 13b-instruct-nc)
base: 4,096
instruct, instruct-nc: 8,192
事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4
(計 1.5T トークン)
Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習)
Preferred Networks Apache 2.0
(NC モデルは CC BY-NC 4.0)
Stockmark-13b Llama
(13b, 13b-instruct)
2,048 事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus
(計 220B トークン)
Instruction Tuning (LoRA): ichikara-instruction
ストックマーク baseモデル: MIT
instructモデル: CC BY-NC-SA 4.0
Weblab-10B GPT
(10b, 10b-instruction-sft)
2,048 Japanese mC4 + The Pile(計 600B トークン)
*instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング
東大 松尾研 CC BY-NC 4.0
Japanese StableLM Alpha GPT
(base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)
2,048 Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama
(+ 独自のデータセット)2
(計 750B トークン)
*instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング
(v2では商用利用不可の Alpaca Dataset を除外)
Stability AI baseモデル: Apache 2.0
instruct モデル (v1): 独自のライセンス
instruct モデル (v2): Apache 2.0
CALM2 Llama
(7b, 7b-chat, 7b-chat-dpo-experimental)
base: 4,096
chat: 32,768
一般公開されている日本語・英語のデータセット(詳細不明) (計 1.3T トークン)
*dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習
サイバーエージェント Apache 2.0
(dpo モデルのみ CC BY 4.0)
OpenCALM GPT
(small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))
2,048 日本語 Wikipedia
+ Jpanese mC4
+ Japanese CC-100
サイバーエージェント CC BY-SA 4.0
Stormy GPT
(7b(6.8b))
2,048 OpenCALM (6.8b) に対して
llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング
東大 和泉研 CC BY-SA 4.0
rinna GPT
(英語やコードも含めて学習されたモデル)
GPT
(4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)
8kモデル: 8,192
他: 2,048
Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile
(計 524B トークン)
*8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング
*instruction-sft モデルでは HH RLHF、FLAN でファインチューニング
*instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習
rinna MIT
japanese-large-lm GPT
(1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)
2,048 日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど
(計 650GB)
*instruction-sft モデルでは OASST1 でファインチューニング
LINE Apache 2.0
rinna GPT
(日本語のみで学習されたモデル)
GPT
(xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)
≤ 2,048 日本語 Wikipedia
+ Japanese CC-100
(1b 以降のモデルでは
さらに Japanese mC4 を追加)
*instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング
*instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習
rinna MIT
レトリバT5 T5
(small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))
  日本語 Wikipedia + Japanese mC4 レトリバ CC BY-SA 4.0
kotomamba-2.8B Mamba
(2.8B-v1.0)
2,048 日本語 Wikipedia, Swallow Corpus, SlimPajama Kotoba Technologies Apache 2.0
ABEJA GPT GPT
(large, neox-2.7b)
  日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
ABEJA MIT
早大GPT GPT
(small, xl(1.5b))
  日本語 Wikipedia
+ Japanese CC-100
早大 河原研 CC BY-SA 4.0
ストックマークGPT GPT
(1.4b)
  日本語 Wikipedia (0.88B トークン)
+ Japanese CC-100 (10.5B トークン)
+ 独自のWebデータ (8.6B トークン)
ストックマーク MIT
イエローバックGPT GPT
(1.3b)
  日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
イエローバック Apache 2.0
colorfulscoop GPT GPT
(small)
  日本語 Wikipedia Colorful Scoop CC BY-SA 3.0
東工大GPT GPT
(medium, medium (逆方向)) 3
  日本語 Wikipedia + Japanese CC-100 東工大 岡崎研 CC BY-SA 4.0
京大GPT GPT
(small (文字レベル), medium (文字レベル), large (文字レベル))
  日本語 Wikipedia (約2,700万文 (3.2GB))
+ Japanese CC-100 (約6億1,900万文 (85GB))
+ Japanese OSCAR (約3億2,600万文 (54GB))
京大 言語メディア研究室 CC BY-SA 4.0
日本語BART BART
(base, large)
  日本語 Wikipedia (約1,800万文) 京大 言語メディア研究室 CC BY-SA 4.0
Megagon Labs T5 T5
(base)
  Japanese mC4 (87,425,304 ページ (782 GB))
+ Japanese wiki40b (828,236 記事 (2 GB))
Megagon Labs
(リクルート)
Apache 2.0

ドメイン特化型

  ドメイン アーキテクチャ 学習テキスト 開発元 ライセンス
日本語対話Transformer 対話 Transformer Twitter 上の日本語リプライのペア NTT 独自のライセンス
日本語ニュースBART ビジネス BART (base) 日本語ビジネスニュース記事(約2,100万記事 (2.9億文)) ストックマーク MIT
AcademicBART 学術 BART (base) CiNii の日本語論文 愛媛大 人工知能研究室 Apache 2.0

英語モデルに日本語で追加事前学習を行ったモデル(継続事前学習モデル)

汎用

  ベースのLLM 学習テキスト 開発元 ライセンス
Swallow 70B
(70b-hf, 70b-instruct-hf, 70b-NVE-hf, 70b-NVE-instruct-hf)
Llama 2 (70b) 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1
TokyoTech-LLM Llama 2 Community License
KARAKURI LM
(70b-v0.1, 70b-chat-v0.1)
Llama 2 (70b) 事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット
(計 16B トークン)
SteerLM: OASST2, 独自のデータセット
カラクリ Llama 2 Community License4
Japanese Stable LM Beta 70B
(base-beta-70b, instruct-beta-70b)
Llama 2 (70b) 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1
Stability AI Llama 2 Community License
Swallow-MX 8x7B
(8x7b-NVE-v0.1)
Mixtral-8x7B-Instruct-v0.1 (46.7b) 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault TokyoTech-LLM Apache 2.0
Nekomata 14B
(14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)
Qwen (14b) 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 66B トークン)
Instruction Tuning (Full-parameter FT): Dolly Dataset, FLAN, llm-japanese-datasetの一部
rinna Tongyi Qianwen LICENSE
Swallow 13B
(13b-hf, 13b-instruct-hf, 13b-NVE-hf)
Llama 2 (13b) 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1
TokyoTech-LLM Llama 2 Community License
ELYZA-japanese-Llama-2-13b
(13b, 13b-instruct, 13b-fast, 13b-fast-instruct)
Llama 2 (13b) 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど
(計 18B トークン)
Instruction Tuning: 独自のデータセット
ELYZA Llama 2 Community License
Swallow 7B
(7b-hf, 7b-instruct-hf, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)
Llama 2 (7b) 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1
TokyoTech-LLM Llama 2 Community License
ELYZA-japanese-Llama-2-7b
(7b, 7b-instruct, 7b-fast, 7b-fast-instruct)
Llama 2 (7b) 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど
(計 18B トークン)
Instruction Tuning: 独自のデータセット
ELYZA Llama 2 Community License
Youri 7B
(7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)
Llama 2 (7b) 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 40B トークン)
Instruction Tuning (Full-parameter FT): Dolly Dataset, FLAN, llm-japanese-datasetの一部
rinna Llama 2 Community License
houou-7b
(instruction-7b-v1, instruction-7b-v2)
Llama 2 (7b) Youri 7B (base) に対して Instruction Tuning (Full-parameter FT): ichikara-instruction マネーフォワード Llama 2 Community License
Japanese Stable LM Beta 7B
(base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)
Llama 2 (7b) 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, OASST1
Stability AI Llama 2 Community License
SambaLingo-Japanese
(Base, Chat)
Llama 2 (7b) 事前学習: Cultura-X
Instruction Tuning: ultrachat_200k
DPO: ultrafeedback, cai-conversation-harmless
SambaNova Systems Llama 2 Community License (?)5
blue-lizard
(blue-lizard)
Llama 2 (7b) 不明 Deepreneur Llama 2 Community License
Swallow-MS 7B
(7b-v0.1)
Mistral-7B-v0.1 (7b) 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile TokyoTech-LLM Apache 2.0
RakutenAI-7B
(7B, 7B-instruct, 7B-chat)
Mistral-7B-v0.1 (7b) 事前学習: 不明
Instruction Tuning: Dolly Dataset, OASST1, (jasterと同様に)言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット
楽天 Apache 2.0
Japanese Stable LM Gamma 7B
(base-gamma-7b, instruct-gamma-7b)
Mistral-7B-v0.1 (7b) 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset
Stability AI Apache 2.0
ChatNTQ JA 7B
(7b-v1.0)
Mistral-7B-v0.1 (7b) Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning NTQ Solution Apache 2.0
Shisa Gamma 7B
(7b-v1)
Mistral-7B-v0.1 (7b) Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning AUGMXNT Apache 2.0 (?)5
Shisa 7B
(base-7b-v1, 7b-v1)
Mistral-7B-v0.1 (7b) 事前学習: shisa-pretrain-en-ja-v1 (8B トークン)
Instruction Tuning(Full-parameter FT) & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1
AUGMXNT Apache 2.0 (?)5
Karasu
(7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)
Mistral-7B-v0.1 (7b) Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン)
Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット
Lightblue Apache 2.0 (?)5
Nekomata 7B
(7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)
Qwen (7b) 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 66B トークン)
Instruction Tuning (Full-parameter FT): Dolly Dataset, FLAN, llm-japanese-datasetの一部
rinna Tongyi Qianwen LICENSE
lightblue/japanese-mpt-7b MPT (7b) Japanese mC4 Lightblue Apache 2.0
Japanese Stable LM 3B-4E1T
(3b-4e1t-base, 3b-4e1t-instruct)
StableLM-3B-4E1T (3b) 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning (Full-parameter FT): Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset
Stability AI Apache 2.0
kotomamba-2.8B-CL mamba-2.8b-slimpj
(2.8b)
日本語 Wikipedia, Swallow Corpus, SlimPajama Kotoba Technologies Apache 2.0
karasu-1.1B TinyLlama (1.1b) 事前学習: Japanese OSCAR, Japanese mC4
(計 3B トークン)
Lightblue Apache 2.0

ドメイン特化型

  ドメイン ベースのLLM 開発元 ライセンス
Watashiha-Llama-2-13B-Ogiri-sft
(sft, sft-neuron)
大喜利 Llama 2 (13b) わたしは Llama 2 Community License
ELYZA-japanese-CodeLlama-7b
(7b, 7b-instruct)
コーディング Code Llama
(7b)
ELYZA Llama 2 Community License
AIBunCho/japanese-novel-gpt-j-6b 物語生成 GPT-J (6b) 個人 (大曽根宏幸) CreativeML OpenRAIL-M License
NovelAI/genji-jp 物語生成 GPT-J (6b) NovelAI

英語モデルに日本語で指示チューニング (Instruction Tuning) のみ行ったモデル

汎用

  ベースのLLM 学習テキスト 開発元 ライセンス
ao-Karasu
(72B)
Qwen1.5 (72b) ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本語の公開技術ブログ, ニュース記事, QAサイトの回答, 独自のデータセット Lightblue Tongyi Qianwen LICENSE (?)5
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese Llama 2 (70b)   東京大学医学部附属病院 循環器内科 AIグループ Llama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1 Llama 2 (70b)   同志社大学 メディア情報学研究室
Qarasu
(14B-chat-plus-unleashed)
Qwen (14b) ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット Lightblue Tongyi Qianwen LICENSE (?)5
Sparticle/llama-2-13b-chat-japanese-lora Llama 2 (13b)   Sparticle
izumi-lab/llama-13b-japanese-lora-v0-1ep Llama (13b)   東大 和泉研
ganchengguang/Yoko-7B-Japanese-v1 Llama 2 (7b)   横浜国大 森研
Sparticle/llama-2-7b-chat-japanese-lora Llama 2 (7b)   Sparticle
izumi-lab/llama-7b-japanese-lora-v0-5ep Llama (7b)   東大 和泉研
lightblue/jod Mistral-7B-SlimOrca (7b)   Lightblue Apache 2.0
NTQAI/chatntq-7b-jpntuned RWKV-4 World (7b)   NTQ Solution

ドメイン特化型

  ドメイン ベースのLLM 開発元 ライセンス
JMedLoRA
(llama2-jmedlora-6.89ep)
医療 Llama 2 (70b) 東京大学医学部附属病院 循環器内科 AIグループ CC BY-NC 4.0

複数のLLMをマージして作成されたモデル

  マージ元のLLM(太字は日本語LLM) 開発元 ライセンス
EvoLLM-JP-A
(v1-7B)
Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002 Sakana AI Apache 2.0
EvoLLM-JP
(v1-7B, v1-10B)
Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002 Sakana AI MICROSOFT RESEARCH LICENSE

入力テキストの処理に主に使うモデル

汎用

  アーキテクチャ 学習テキスト 開発元 ライセンス HuggingFace ですぐ使える? 6
京大BERT BERT (base, large) 日本語 Wikipedia (約1,800万文) 京大 言語メディア研究室 Apache 2.0
東北大BERT BERT (base, large) base (v1):
日本語 Wikipedia 約1,700万文 (2.6GB)
base (v2) & large:
日本語 Wikipedia 約3,000万文 (4.0GB)
base (v3) & large (v2):
日本語 Wikipedia 約3,400万文 (4.9GB)
+ 日本語 CC-100 約3億9,200万文 (74.3GB)
東北大
自然言語処理研究グループ
base (v1, v2) & large: CC BY-SA 3.0
base (v3) & large (v2): Apache 2.0
◯ (base (v1), base (v1, 文字レベル), base (v2), base (v2, 文字レベル), large, large (文字レベル), base (v3), base (v3, 文字レベル), large (v2), large (v2, 文字レベル))
NICT BERT BERT (base) 日本語 Wikipedia NICT CC BY 4.0
colorfulscoop BERT BERT (base) 日本語 Wikipedia Colorful Scoop CC BY-SA 3.0
東大BERT BERT (small) 日本語 Wikipedia (約2,000万文 (2.9GB)) 東大 和泉研 CC BY-SA 4.0
chiTra (Sudachi Transformers) BERT (base) 国語研日本語ウェブコーパス (NWJC) (148GB) NINJAL & ワークス徳島人工知能NLP研 Apache 2.0
ACCMS BERT BERT (base) 日本語 Wikipedia (3.3GB) 京大 ACCMS CC BY-SA 4.0
日立BERT BERT (base) 日本語 Wikipedia
+ Japanese CC-100
日立製作所 CC BY-NC-SA 4.0 7
Bandai Namco DistilBERT DistilBERT - (東北大BERT(base) を親モデルとして知識蒸留) Bandai Namco Research MIT
LINE DistilBERT DistilBERT - (LINE社内のBERTを親モデルとして知識蒸留) LINE Apache 2.0
rinna RoBERTa RoBERTa (base) 日本語 Wikipedia
+ Japanese CC-100
rinna MIT
早大RoBERTa RoBERTa (base, large) 日本語 Wikipedia
+ Japanese CC-100
早大 河原研 CC BY-SA 4.0 ◯ (base, large, large (seq512)) 8
インフォマティクスRoBERTa RoBERTa (base) 日本語 Wikipedia
+ Web 上の記事 (計25GB)
インフォマティクス Apache 2.0
京大RoBERTa RoBERTa (base, large) 日本語 Wikipedia
+ Japanese CC-100
京大 言語メディア研究室 CC BY-SA 4.0 ◯ (base (文字レベル), large (文字レベル))
横浜国大RoBERTa RoBERTa (base) 日本語 Wikipedia (3.45GB) 横浜国大 森研 Apache 2.0
Megagon Labs RoBERTa RoBERTa (base) 9 Japanese mC4 (約2億文) Megagon Labs
(リクルート)
MIT
ACCMS RoBERTa RoBERTa (base) 日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB) 京大 ACCMS CC BY-SA 4.0
シナモンELECTRA ELECTRA (small) 日本語 Wikipedia シナモン Apache 2.0
Megagon Labs ELECTRA ELECTRA (base) Japanese mC4 (約2億文) Megagon Labs
(リクルート)
MIT
東大ELECTRA ELECTRA (small, base) 日本語 Wikipedia (約2,000万文 (2.9GB)) 東大 和泉研 CC BY-SA 4.0 ◯ (small, base)
日本語RoFormer RoFormer (base) 日本語 Wikipedia (3.45GB) 横浜国大 森研 Apache 2.0
日本語LUKE LUKE (base, large) 日本語 Wikipedia Studio Ousia Apache 2.0 ◯ (base, large)
京大DeBERTaV2 DeBERTaV2 (tiny, base, large) 日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
(計171GB)
京大 言語メディア研究室 CC BY-SA 4.0 ◯ (tiny, tiny (文字レベル), base, large)
東大DeBERTaV2 DeBERTaV2 (small, base) 日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR 東大 和泉研 CC BY-SA 4.0 ◯ (small, base)
日本語BigBird BigBird (base) 日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
早大 河原研 CC BY-SA 4.0
日本語LayoutLM LayoutLM (base) 東北大BERT (base, v2) で重みを初期化した上で、日本語 Wikipedia の文章とレイアウトで事前学習 日本総合研究所 CC BY-SA 3.0

ドメイン特化型

  アーキテクチャ 学習テキスト 開発元 ライセンス HuggingFace ですぐ使える?
日本語ニュースBERT BERT (base) 日本語ビジネスニュース記事(300万記事) ストックマーク CC BY 4.0
日本語ニュースXLNet XLNet (base) 日本語ビジネスニュース記事(300万記事) ストックマーク ※ 非公式の HuggingFace 向けに変換されたモデルが公開されている
日本語ニュースALBERT ALBERT (base) 日本語ビジネスニュース記事(300万記事) ストックマーク
Laboro BERT BERT (base, large) 日本語 Web コーパス
(ニュースサイトやブログなど
計4,307のWebサイト、2,605,280ページ (12GB))
Laboro.AI CC BY-NC 4.0
Laboro DistilBERT DistilBERT - (Laboro BERT(base) を親モデルとして知識蒸留) Laboro.AI CC BY-NC 4.0
日本語ブログELECTRA ELECTRA (small) 日本語ブログコーパス(3億5,400万文) 北見工大 桝井・プタシンスキ研 CC BY-SA 4.0
日本語話し言葉BERT BERT (base) 東北大BERTに対して日本語話し言葉コーパス(CSJ)を用いて追加学習
(DAPTモデルでは国会議事録データも使用)
レトリバ Apache 2.0
日本語金融BERT BERT (small, base) 10 日本語 Wikipedia
+ 日本語金融コーパス (約2,700万文 (5.2GB))
東大 和泉研 CC BY-SA 4.0 ◯ (small, base)
日本語金融ELECTRA ELECTRA (small) 日本語 Wikipedia (約2,000万文 (2.9GB))
+ 日本語金融コーパス (約2,700万文 (5.2GB))
東大 和泉研 CC BY-SA 4.0
UTH-BERT BERT (base) 日本語診療記録(約1億2,000万行) 東大病院
医療AI開発学講座
CC BY-NC-SA 4.0
medBERTjp BERT (base) 日本語 Wikipedia
+ 日本語医療コーパス(『今日の診療プレミアム』Web版)
阪大病院
医療情報学研究室
CC BY-NC-SA 4.0
JMedRoBERTa RoBERTa (base) 日本語医学論文 (約1,100万文 (1.8GB)) 東大 相澤研 CC BY-NC-SA 4.0 ◯ (万病WordPiece, SentencePiece) 11
AcademicRoBERTa RoBERTa (base) CiNii の日本語論文 (約628万文) 愛媛大 人工知能研究室 Apache 2.0

埋め込み (Embeddings) 作成に特化したモデル

  アーキテクチャ 開発元 ライセンス
JaColBERT
(JaColBERT, JaColBERTv2)
ColBERT 個人 (Benjamin Clavié) MIT
Japanese SimCSE
(cl-nagoya/unsup-simcse-ja-base, cl-nagoya/unsup-simcse-ja-large, cl-nagoya/sup-simcse-ja-base, cl-nagoya/sup-simcse-ja-large)
SimCSE 名大 武田・笹野研 CC BY-SA 4.0
GLuCoSE
(pkshatech/GLuCoSE-base-ja)
LUKEベースの文埋め込みモデル
(GLuCoSE)
PKSHA Technology Apache 2.0
       
colorfulscoop/sbert-base-ja Sentence-BERT Colorful Scoop CC BY-SA 4.0
MU-Kindai/SBERT-JSNLI-base
MU-Kindai/SBERT-JSNLI-large
Sentence-BERT 近畿大学 (研究室不明)
MU-Kindai/Japanese-SimCSE-BERT-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-large-unsup
MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-base-sup
MU-Kindai/Japanese-SimCSE-BERT-large-sup
SimCSE 近畿大学 (研究室不明) MIT
pkshatech/simcse-ja-bert-base-clcmlp SimCSE PKSHA Technology CC BY-SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base
MU-Kindai/Japanese-MixCSE-BERT-large
MixCSE 近畿大学 (研究室不明) MIT
MU-Kindai/Japanese-DiffCSE-BERT-base DiffCSE 近畿大学 (研究室不明) MIT

視覚言語モデル (Vision-Language Models)

画像を含むテキスト生成

汎用

  アーキテクチャ 学習画像/テキスト 開発元 ライセンス
EvoVLM-JP
(v1-7B)
- - (Shisa Gamma 7B (v1) と LLaVA-1.6-Mistral-7B をマージ) Sakana AI Apache 2.0
Heron
(blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0)
BLIP-2 または GIT v1: LLaVA-Instruct-150K-JA または LLaVA-Instruct-620K-JA
v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset
Turing CC BY-NC 4.0
Japanese Stable VLM
(japanese-stable-vlm)
LLaVA-1.5 Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset Stability AI STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha
(japanese-instructblip-alpha)
InstructBLIP Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset Stability AI JAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4
(bilingual-gpt-neox-4b-minigpt4)
MiniGPT-4 CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset rinna MIT

ドメイン特化型

  アーキテクチャ ドメイン 開発元 ライセンス
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm LLaVA 大喜利 わたしは Llama 2 Community License

その他

  アーキテクチャ 学習画像/テキスト 開発元 ライセンス
リクルートCLIP
(japanese-clip-vit-b-32-roberta-base)
CLIP laion2B-multi のキャプション約1億2000万件 リクルート CC BY-4.0
Japanese Stable CLIP
(japanese-stable-clip-vit-l-16)
SigLIP CC12M のキャプションを日本語に翻訳したもの、STAIR Captions Stability AI STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP
(japanese-clip-vit-b-16)
CLIP CC12M のキャプションを日本語に翻訳したもの rinna Apache 2.0
rinna CLOOB
(japanese-cloob-vit-b-16)
CLOOB CC12M のキャプションを日本語に翻訳したもの rinna Apache 2.0
博報堂テクノロジーズCLIP
(base, deeper, wider)
CLIP laion2B-multi のキャプション約1億2000万件 博報堂テクノロジーズ CC BY-NC-SA 4.0
Japanese Stable Diffusion XL
(japanese-stable-diffusion-xl)
Stable Diffusion 不明 Stability AI STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
東北大Stable Diffusion
(base, refiner)
Stable Diffusion WMT2023 Shared Task の日英対訳コーパス、laion2B-multi のキャプション約 1,300 万件 東北大
自然言語処理研究グループ
CreativeML OpenRAIL-M License
rinna Stable Diffusion
(japanese-stable-diffusion)
Stable Diffusion LAION-5B データセットのうちキャプションが日本語のもの(画像約 1 億枚) rinna CreativeML OpenRAIL-M License

音声言語モデル (Speech-Language Models)

音声認識

  アーキテクチャ 学習コーパス 開発元 ライセンス
Kotoba-Whisper
(v1.0, v1.0-ggml)
Distil-Whisper ReazonSpeech Kotoba Technologies Apache 2.0
Nue ASR
(nue-asr)
Nue ASR
(HuBERT + LLM)
ReazonSpeech rinna Apache 2.0
ReazonSpeech
(espnet-v1, espnet-next, espnet-v2, nemo-v2)
ESPnet (Conformer-Transducer) または NeMo (FastConformer-RNNT) ReazonSpeech レアゾン・ホールディングス Apache 2.0

その他

  アーキテクチャ 学習コーパス 開発元 ライセンス
Kotoba-Speech
(v0.1)
Transformer 不明 Kotoba Technologies Apache 2.0
東大HuBERT
(base-jtube)
HuBERT JTubeSpeech 東大 猿渡・高道研 MIT
rinna HuBERT
(base, large)
HuBERT ReazonSpeech rinna Apache 2.0

日本語LLM評価ベンチマーク/データセットまとめ

複合型ベンチマーク

Nejumi LLMリーダーボード Neo (Weights & Biases)

一問一答形式で言語理解を評価する llm-jp-eval とプロンプト対話で生成能力を評価する Japanese MT-bench による総合評価の結果をまとめている。

基礎的な自然言語理解 (NLU) を中心に測定するベンチマーク/データセット

llm-jp-eval (LLM-jp)

複数のデータセットを横断して日本語 LLM を自動評価するツールである。
対応している全データセット一覧はこちらから確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。
評価結果は llm-jp-eval リーダーボード にまとめられている。

JP Language Model Evaluation Harness (Stability AI)

Stability AI による EleutherAI/lm-evaluation-harness のフォーク。複数のデータセットを横断して日本語 LLM を自動評価するツールである。
対応している全データセット一覧はこちらから確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。
rinna による詳細な評価結果まとめがある: [rinna] Benchmark of Stability-AI/lm-evaluation-harness

JGLUE (早大河原研 & ヤフー)

GLUE ベンチマークの日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む(JCoLA は東大大関研により作成)。各タスクの詳細はこちらこちらを参照

JMMLU (早大河原研)

MMLU ベンチマークの日本語版として構築されたベンチマーク。自然科学・人文科学・社会科学の幅広い学術領域から 4 択問題を構成している。元の MMLU を翻訳しただけでなく、日本独自の文化的背景に基づく問題(日本問題)を新たに追加しているのが特徴である。

日本語 Open LLM Leaderboard (LLM-jp)

Huggingface の Open LLM Leaderboard と同様の検証を日本語 LLM に対して行ったもの。日本語 LLM の英語タスクにおける性能を確認できる。

人間らしい応答の生成能力を中心に測定するベンチマーク/データセット

Japanese MT-bench (Stability AI)

マルチターン会話能力を問う MT-bench の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。
GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。

Rakuda Benchmark (YuzuAI)

日本の地理、歴史、政治、社会に関する40問の自由質問に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う。

ELYZA-tasks-100 (ELYZA)

複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。
要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。
評価結果はこちらこちらを参照。また、より新しいモデルを含む評価結果はこちらを参照。

Japanese Vicuna QA Benchmark (京大 言語メディア研究室)

MT-Bench の前身である vicuna-blog-eval の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価(勝率計算)のスクリプトも含まれている。リーダーボードはこちら

論理推論能力を測定するベンチマーク/データセット

JFLD (Japanese Formal Logic Deduction) (日立製作所)

日本語 LLM の演繹推論能力を問うデータセット(同著者らが提案している FLD (Formal Logic Deduction) の日本語版)。LLM が持つ知識と切り分けて評価を行うために、反実仮想的なサンプルから構成されているのが特徴である。

特定ドメインの性能を測定するベンチマーク/データセット

Japanese Language Model Financial Evaluation Harness (Preferred Networks)

金融分野における日本語 LLM のベンチマーク。金融分野における感情分析タスク(chabsa)、証券分析における基礎知識タスク(cma_basics)、公認会計士試験における監査に関するタスク(cpa_audit)、ファイナンシャルプランナー試験の選択肢問題のタスク(fp2)、証券外務員試験の模擬試験タスク(security_sales_1)を含む。詳細はこちらを参照

Stockmark Business Questions (ストックマーク)

市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。

視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

JA-VLM-Bench-In-the-Wild (Sakana AI)

Sakana AI が EvoVLM-JP-v1-7B の評価のために独自に用意したデータセット。42 枚の画像に対して計 50 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。

LLaVA-Bench (COCO) Japanese (Turing)

LLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL で日本語に訳したもの。30 枚の画像に対して各 3 種類の質問が割り当てられている。

各モデル・アーキテクチャの原論文

モデル/アーキテクチャ 初出時期 会議/ジャーナル 論文
Transformer 2017.06.12 NIPS(NeurIPS) 2017 Attention Is All You Need
GPT 2018.06.11 - Improving Language Understanding by Generative Pre-Training
BERT 2018.10.11 NAACL 2019 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
GPT-2 2019.02.14 - Language Models are Unsupervised Multitask Learners
XLNet 2019.06.19 NeurIPS 2019 XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa 2019.07.26 - RoBERTa: A Robustly Optimized BERT Pretraining Approach
Sentence-BERT 2019.08.27 EMNLP-IJCNLP 2019 Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
ALBERT 2019.09.26 ICLR 2020 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
DistilBERT 2019.10.02 EMC2 Workshop at NeurIPS 2019 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
T5 2019.10.23 JMLR 2020 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
BART 2019.10.29 ACL 2020 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
LayoutLM 2019.12.31 KDD 2020 LayoutLM: Pre-training of Text and Layout for Document Image Understanding
ELECTRA 2020.03.23 ICLR 2020 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
ColBERT 2020.04.27 SIGIR 2020 ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
Conformer 2020.05.16 INTERSPEECH 2020 Conformer: Convolution-augmented Transformer for Speech Recognition
GPT-3 2020.05.28 NeurIPS 2020 Language Models are Few-Shot Learners
DeBERTa 2020.06.05 ICLR 2021 DeBERTa: Decoding-enhanced BERT with Disentangled Attention
BigBird 2020.07.28 NeurIPS 2020 Big Bird: Transformers for Longer Sequences
LUKE 2020.10.02 EMNLP 2020 LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
CLIP 2021.02.26 ICML 2021 Learning Transferable Visual Models From Natural Language Supervision
SimCSE 2021.04.18 EMNLP 2021 SimCSE: Simple Contrastive Learning of Sentence Embeddings
RoFormer 2021.04.20 - RoFormer: Enhanced Transformer with Rotary Position Embedding
HuBERT 2021.06.14 TASLP 2021 HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
CLOOB 2021.10.21 NeurIPS 2022 CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
Stable Diffusion 2021.12.20 CVPR 2022 High-Resolution Image Synthesis With Latent Diffusion Models
BLIP 2022.01.28 ICML 2022 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
MixCSE 2022.02.22 AAAI 2022 Unsupervised Sentence Representation via Contrastive Learning with Mixing Negatives
InstructGPT 2022.03.04 NeurIPS 2022 Training language models to follow instructions with human feedback
GPT-NeoX 2022.04.14 BigScience Research Workshop at ACL 2022 GPT-NeoX-20B: An Open-Source Autoregressive Language Model
DiffCSE 2022.04.21 NAACL 2022 DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings
GIT 2022.05.27 TMLR 2022 GIT: A Generative Image-to-text Transformer for Vision and Language
Whisper 2022.12.06 ICML 2023 Robust Speech Recognition via Large-Scale Weak Supervision
BLIP-2 2023.01.30 ICML 2023 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Llama 2023.02.27 - LLaMA: Open and Efficient Foundation Language Models
GPT-4 2023.03.15 - GPT-4 Technical Report
SigLIP 2023.03.27 ICCV 2023 Sigmoid Loss for Language Image Pre-Training
LLaVA 2023.04.17 NeurIPS 2023 Visual Instruction Tuning
MiniGPT-4 2023.04.20 - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
Fast Conformer 2023.05.08 ASRU 2023 Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition
InstructBLIP 2023.05.11 - InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
RWKV 2023.05.22 - RWKV: Reinventing RNNs for the Transformer Era
Llama 2 2023.07.18 - Llama 2: Open Foundation and Fine-Tuned Chat Models
Code Llama 2023.08.24 - Code Llama: Open Foundation Models for Code
Qwen 2023.09.28 - Qwen Technical Report
LLaVA-1.5 2023.10.05 - Improved Baselines with Visual Instruction Tuning
Mistral 7B 2023.10.10 - Mistral 7B
Distil-Whisper 2023.11.01 - Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
Mamba 2023.12.01 - Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Nue ASR 2023.12.06 - An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition
TinyLlama 2024.01.04 - TinyLlama: An Open-Source Small Language Model
Mixtral 8x7B 2024.01.08 - Mixtral of Experts
EvoLLM-JP, EvoVLM-JP 2024.03.19 - Evolutionary Optimization of Model Merging Recipes
RakutenAI-7B 2024.03.21 - RakutenAI-7B: Extending Large Language Models for Japanese
rinna GPT, rinna RoBERTa, Nekomata, Youri, etc. 2024.04.02 LREC-COLING 2024 Release of Pre-Trained Models for the Japanese Language

LLMの学習手法の原論文

手法 初出時期 会議/ジャーナル 論文
PPO (RLHF) 2017.07.20 - Proximal Policy Optimization Algorithms
Instruction Tuning
(Supervised Fine-tuning; SFT)
2021.09.03 ICLR 2022 Finetuned Language Models Are Zero-Shot Learners
DPO 2023.05.29 NeurIPS 2023 Direct Preference Optimization: Your Language Model is Secretly a Reward Model
SteerLM 2023.10.09 Findings of EMNLP 2023 SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF

コントリビューター

このプロジェクトに貢献してくれているコントリビューターのみなさんです!

引用

このリポジトリの要約はプレプリントとしても公開されています: Exploring Open Large Language Models for the Japanese Language: A Practical Guide

このリポジトリについて言及する場合は、以下の通り引用してください:


@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}


  1. ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: PLaMo-13Bを公開しました 

  2. 詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』 

  3. 通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。 

  4. ただし、KARAKURI LM を商用利用したい場合は、開発元であるカラクリ株式会社に直接連絡が必要であるとしている。 

  5. Instruction Tuning において、GPT-3.5, GPT-4 等の OpenAI のモデルで生成されたデータを使って学習しているため、OpenAI の規約に違反している可能性がある。  2 3 4 5 6

  6. ○: HuggingFace の Model Hub にモデルがアップロードされており、AutoModel.from_pretrained() 等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。 

  7. 様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。 

  8. nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している 

  9. ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる 

  10. small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある 

  11. 万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル