日本語LLMまとめ
この記事は、一般公開されている日本語LLM(日本語を中心に学習されたLLM)および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。
以下の点について、あらかじめご理解とご了承をお願いいたします
- 本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。
- 一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。
- 本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、一部のモデルには、非営利限定のライセンス(例:CC BY-NC-SA 4.0)や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある点にご注意ください。
- 個人が開発したモデルに関する記述では、作成者の敬称は省略させていただいております。
この記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、GitHub Issues 経由で報告していただけますと幸いです。
目次
テキスト生成に主に使うモデル
画像を含むテキスト生成モデルはこちら
フルスクラッチ学習モデル
汎用
アーキテクチャ | 入出力で扱える トークン数 | 学習テキスト | 開発元 | ライセンス / 利用規約 | |
---|---|---|---|---|---|
Sarashina2-8x70B | Mixtral (8x70b (465b)) | 8,192 | Sarashina2 (70B) に対して Sparse Upcycling で学習 | SB Intuitions | Sarashina Model NonCommercial License |
LLM-jp-3 172B | Llama (172b, 172b-instruct3) | 4,096 | 事前学習: llm-jp-corpus-v3 (計 2.1T トークン) Instruction Tuning: ichikara-instruction, answer-carefully, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k DPO: 合成データ | 大規模言語モデル研究開発センター | 事前学習済みモデル: LLM-jp-3 172B Terms of Use 事後学習済みモデル: llm-jp-3-172b-instruct3利用許諾契約 |
LLM-jp-3 172B beta2 | Llama (172b-beta2, 172b-beta2-instruct2) | 4,096 | 事前学習: llm-jp-corpus-v3の一部 (計 1.4T トークン) Instruction Tuning: ichikara-instruction, answer-carefully, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k | 大規模言語モデル研究開発センター | LLM-jp-3 172B beta2 Terms of Use |
LLM-jp-3 172B beta1 | Llama (172b-beta1, 172b-beta1-instruct) | 4,096 | 事前学習: llm-jp-corpus-v3の一部 (計 0.7T トークン) Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN | 大規模言語モデル研究開発センター | LLM-jp-3 172B beta1 Terms of Use |
LLM-jp-3 172B alpha | Llama (172b-alpha1, 172b-alpha1-instruct, 172b-alpha2, 172b-alpha2-instruct) | 4,096 | 事前学習: llm-jp-corpus-v3の一部 (alpha1: 計 0.7T トークン, alpha2: 計 1.4T トークン) Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN | 大規模言語モデル研究開発センター | Apache 2.0 |
Stockmark-100b | Llama (100b, 100b-instruct-v0.1) | 4,096 | 事前学習: RedPajama, 日本語 Wikipedia, Japanese mC4, Japanese CommonCrawl, 日本語特許, Stockmark Web Corpus (計 910B トークン) Instruction Tuning (LoRA): ichikara-instruction | ストックマーク | MIT |
PLaMo-100B-Pretrained | Llama[1] (100b) | 4,096 | 事前学習: Japanese CommonCrawl, RefinedWeb, 独自のデータセット (計: 2.0T トークン) | Preferred Elements (Preferred Networks) | PLaMo Non-Commercial License |
Sarashina2 | Llama (7b, 13b, 70b) | 7b, 13b: 4,096 70b: 8,192 | 事前学習: Japanese Common Crawl, SlimPajama, StarCoder (計 2.1T トークン) | SB Intuitions | MIT |
Sarashina1 | GPT-NeoX (7b, 13b, 65b) | 2,048 | 事前学習: Japanese Common Crawl (計 1T トークン) | SB Intuitions | MIT |
Tanuki-8×8B | Tanuki (MoE) (47b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF) | 4,096 | 事前学習: 様々な Web 上のデータ, 合成データ(計 1.7T トークン) SFT, DPO: 様々な合成データ [2] | 松尾研LLM開発プロジェクト | Apache 2.0 |
CyberAgentLM3 (CALM3) | Llama (22b-chat) | 16,384 | 不明 (計 2.0T トークン) | サイバーエージェント | Apache 2.0 |
LLM-jp-3 13B | Llama (1.8b, 1.8b-instruct, 3.7b, 3.7b-instruct, 13b, 13b-instruct) | 4,096 | 事前学習: llm-jp-corpus-v3 (計 2.1T トークン) Instruction Tuning: ichikara-instruction, answer-carefully, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k | 大規模言語モデル研究開発センター | Apache 2.0 |
llm-jp-3-3.7b-instruct-EZO | Llama (3.7b-instruct-EZO-Common, 3.7b-instruct-EZO-Humanities) | 4,096 | LLM-jp-3 (3.7B) に対して追加学習 | Axcxept | Apache 2.0 |
LLM-jp-13B v2.0 | Llama (13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0) | 4,096 | 事前学習: llm-jp-corpus-v2 (計 260B トークン) Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2 | LLM-jp | Apache 2.0 |
Fugaku-LLM | GPT (13B, 13B-instruct, 13B-instruct-gguf) | 2,048 | 事前学習: 独自 Instruction Tuning: OASST1, Dolly Dataset, GSM8K | 東工大, 東北大, 富士通, 理研, 名大, サイバーエージェント, Kotoba Technologies | Fugaku-LLM Terms of Use |
LLM-jp-13B v1.1 | GPT (13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1) | 2,048 | Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction DPO (LoRA): HH RLHF | LLM-jp | Apache 2.0 |
LLM-jp-13B | GPT (1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0) | 2,048 | 事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン) Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1 | LLM-jp | Apache 2.0 |
PLaMo-13B | Llama[3] (13b, 13b-instruct, 13b-instruct-nc) | base: 4,096 instruct, instruct-nc: 8,192 | 事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4 (計 1.5T トークン) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習) | Preferred Networks | Apache 2.0 (NC モデルは CC BY-NC 4.0) |
Stockmark-13b | Llama (13b, 13b-instruct) | 2,048 | 事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus (計 220B トークン) Instruction Tuning (LoRA): ichikara-instruction | ストックマーク | baseモデル: MIT instructモデル: CC BY-NC-SA 4.0 |
Weblab-10B | GPT-NeoX (10b, 10b-instruction-sft) | 2,048 | Japanese mC4 + The Pile(計 600B トークン) *instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング | 東大 松尾研 | CC BY-NC 4.0 |
Tanuki-8B | Tanuki (8b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF) | 4,096 | 事前学習: 様々な Web 上のデータ, 合成データ(計 1.3T トークン) SFT, DPO: 様々な合成データ [2:1] | 松尾研LLM開発プロジェクト | Apache 2.0 |
Japanese StableLM Alpha | GPT-NeoX (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2) | 2,048 | Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama (+ 独自のデータセット)[4] (計 750B トークン) *instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング (v2では商用利用不可の Alpaca Dataset を除外) | Stability AI | baseモデル: Apache 2.0 instruct モデル (v1): 独自のライセンス instruct モデル (v2): Apache 2.0 |
CyberAgentLM2 (CALM2) | Llama (7b, 7b-chat, 7b-chat-dpo-experimental) | base: 4,096 chat: 32,768 | 一般公開されている日本語・英語のデータセット(詳細不明) (計 1.3T トークン) *dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習 | サイバーエージェント | Apache 2.0 (dpo モデルのみ CC BY 4.0) |
OpenCALM | GPT-NeoX (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b)) | 2,048 | 日本語 Wikipedia + Jpanese mC4 + Japanese CC-100 | サイバーエージェント | CC BY-SA 4.0 |
Stormy | GPT-NeoX (7b(6.8b)) | 2,048 | OpenCALM (6.8b) に対して llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング | 東大 和泉研 | CC BY-SA 4.0 |
rinna GPT (英語やコードも含めて学習されたモデル) | GPT-NeoX (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo) | 8kモデル: 8,192 他: 2,048 | Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile (計 524B トークン) *8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング *instruction-sft モデルでは HH RLHF、FLAN でファインチューニング *instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習 | rinna | MIT |
japanese-large-lm | GPT-NeoX (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft) | 2,048 | 日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど (計 650GB) *instruction-sft モデルでは OASST1 でファインチューニング | LINE | Apache 2.0 |
rinna GPT (日本語のみで学習されたモデル) | GPT または GPT-NeoX (xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo) | ≤ 2,048 | 日本語 Wikipedia + Japanese CC-100 (1b 以降のモデルでは さらに Japanese mC4 を追加) *instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング *instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習 | rinna | MIT |
レトリバT5 | T5 (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b)) | 日本語 Wikipedia + Japanese mC4 | レトリバ | CC BY-SA 4.0 | |
Spiral-RetNet-3b-base | RetNet (3b) | 2,048 | Wikipedia, Japanese CC-100, CulturaX | Spiral.AI | MIT |
kotomamba-2.8B | Mamba (2.8B-v1.0) | 2,048 | 日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |
ABEJA GPT | GPT または GPT-NeoX (large, neox-2.7b) | 日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR | ABEJA | MIT | |
早大GPT | GPT (small, xl(1.5b)) | 日本語 Wikipedia + Japanese CC-100 | 早大 河原研 | CC BY-SA 4.0 | |
ストックマークGPT | GPT-NeoX (1.4b) | 日本語 Wikipedia (0.88B トークン) + Japanese CC-100 (10.5B トークン) + 独自のWebデータ (8.6B トークン) | ストックマーク | MIT | |
イエローバックGPT | GPT-NeoX (1.3b) | 日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR | イエローバック | Apache 2.0 | |
Sarashina2.1-1B | Llama (1b) | 8,192 | Web 上などの日本語・英語データ(計 10T トークン) | SB Intuitions | Sarashina Model NonCommercial License |
colorfulscoop GPT | GPT (small) | 日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 | |
東工大GPT | GPT (medium, medium (逆方向)) [5] | 日本語 Wikipedia + Japanese CC-100 | 東工大 岡崎研 | CC BY-SA 4.0 | |
京大GPT | GPT (small (文字レベル), medium (文字レベル), large (文字レベル)) | 日本語 Wikipedia (約2,700万文 (3.2GB)) + Japanese CC-100 (約6億1,900万文 (85GB)) + Japanese OSCAR (約3億2,600万文 (54GB)) | 京大 言語メディア研究室 | CC BY-SA 4.0 | |
日本語BART | BART (base, large) | 日本語 Wikipedia (約1,800万文) | 京大 言語メディア研究室 | CC BY-SA 4.0 | |
Megagon Labs T5 | T5 (base) | Japanese mC4 (87,425,304 ページ (782 GB)) + Japanese wiki40b (828,236 記事 (2 GB)) | Megagon Labs (リクルート) | Apache 2.0 |
ドメイン特化型
ドメイン | アーキテクチャ | 学習テキスト | 開発元 | ライセンス | |
---|---|---|---|---|---|
日本語対話Transformer | 対話 | Transformer | Twitter 上の日本語リプライのペア | NTT | 独自のライセンス |
日本語ニュースBART | ビジネス | BART (base) | 日本語ビジネスニュース記事(約2,100万記事 (2.9億文)) | ストックマーク | MIT |
AcademicBART | 学術 | BART (base) | CiNii の日本語論文 | 愛媛大 人工知能研究室 | Apache 2.0 |
海外モデルに日本語で継続事前学習を行ったモデル
汎用
ベースのLLM | 学習テキスト | 開発元 | ライセンス / 利用規約 | |
---|---|---|---|---|
Llama 3.1 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1, 70B-Instruct-v0.3) | Llama 3.1 (70b) | 事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie | Swallowプロジェクト | Llama 3.1 Community License (Instructモデルは Gemma Terms of Use も適用) |
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407 | Llama 3.1 (70b) | 不明 | サイバーエージェント | Llama 3.1 Community License |
Llama 3 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1) | Llama 3 (70b) | 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 [6] | Swallowプロジェクト | Llama 3 Community License |
turing-motors/Llama-3-heron-brain-70B-v0.3 | Llama 3 (70b) | Llama 3 Swallow 70B に対して追加学習(詳細不明) | Turing | Llama 3 Community License |
Llama 3 Youko 70B (70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq) | Llama 3 (70b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 5B トークン) Instruction Tuning: 独自のデータセット[7] | rinna | Llama 3 Community License |
Swallow 70B (70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf) | Llama 2 (70b) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1モデルでは OASST1, OASST2 を使用 | Swallowプロジェクト | Llama 2 Community License |
KARAKURI LM (70b-v0.1, 70b-chat-v0.1) | Llama 2 (70b) | 事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット (計 16B トークン) SteerLM: OASST2, 独自のデータセット | カラクリ | Llama 2 Community License[8] |
Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b) | Llama 2 (70b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 | Stability AI | Llama 2 Community License |
Swallow-MX 8x7B (8x7b-NVE-v0.1) | Mixtral-8x7B-Instruct-v0.1 (46.7b) | 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault | Swallowプロジェクト | Apache 2.0 |
KARAKURI LM 8x7B Instruct v0.1 (8x7b-instruct-v0.1) | Mixtral-8x7B-Instruct-v0.1 (46.7b) | Swallow-MX 8x7B に対して以下のデータセットで学習: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, 独自のデータセット | カラクリ | Apache 2.0 (?)[9] |
KARAKURI LM 8x7B Chat v0.1 (8x7b-chat-v0.1) | Mixtral-8x7B-Instruct-v0.1 (46.7b) | Swallow-MX 8x7B に対して SteerLM: OASST2, HelpSteer, 独自のデータセット | カラクリ | Apache 2.0 |
ABEJA-Mixtral-8x7B-japanese (8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged) | Mixtral-8x7B-Instruct-v0.1 (46.7b) *Instructが名前に付いていないモデルのみ Mixtral-8x7B-v0.1 がベース | 事前学習: Japanese CC, Redpajama, 独自 (計 450B トークン) | ABEJA | Apache 2.0 |
Nekomata 14B (14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf) | Qwen (14b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Tongyi Qianwen LICENSE |
Swallow 13B (13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf) | Llama 2 (13b) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1モデルでは OASST1, OASST2 を使用 | Swallowプロジェクト | Llama 2 Community License |
LEIA-Swallow-13B (13b) | Llama 2 (13b) | Swallow 13B に対して LEIA で追加学習 | 個人 (山田育矢, 李凌寒) | Llama 2 Community License |
ELYZA-japanese-Llama-2-13b (13b, 13b-instruct, 13b-fast, 13b-fast-instruct) | Llama 2 (13b) | 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット | ELYZA | Llama 2 Community License |
cyberagent/Mistral-Nemo-Japanese-Instruct-2408 | Mistral NeMo (12b) | 不明 | サイバーエージェント | Apache 2.0 |
Llama 3.1 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1, 8B-v0.2, 8B-Instruct-v0.2, 8B-Instruct-v0.3) | Llama 3.1 (8b) | 事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie | Swallowプロジェクト | Llama 3.1 Community License (Instructモデルは Gemma Terms of Use も適用) |
Llama 3 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1) | Llama 3 (8b) | 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 [6:1] | Swallowプロジェクト | Llama 3 Community License |
turing-motors/Llama-3-heron-brain-8B-v0.3 | Llama 3 (8b) | Llama 3 Swallow 8B に対して追加学習(詳細不明) | Turing | Llama 3 Community License |
Llama 3 Youko 8B (8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq) | Llama 3 (8b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 22B トークン) Instruction Tuning[7:1]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, 独自のデータセット DPO: HelpSteer, HelpSteer2, 独自のデータセット | rinna | Llama 3 Community License |
Llama 3 ELYZA JP 8B (8B, 8B-GGUF, 8B-AWQ) | Llama 3 (8b) | 不明 | ELYZA | Llama 3 Community License |
Llama 3 neoAI 8B Chat v0.1 (8B-Chat-v0.1) | Llama 3 (8b) | 不明 | neoAI | Llama 3 Community License |
Llama 3 tedllm (v0) | Llama 3 (8b) | 事前学習: 日本語の一般コーパス | 東京エレクトロン デバイス | Llama 3 Community License |
Swallow 7B (7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf) | Llama 2 (7b) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1モデルでは OASST1, OASST2 を使用 | Swallowプロジェクト | Llama 2 Community License |
LEIA-Swallow-7B (7b) | Llama 2 (7b) | Swallow 7B に対して LEIA で追加学習 | 個人 (山田育矢, 李凌寒) | Llama 2 Community License |
ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct) | Llama 2 (7b) | 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット | ELYZA | Llama 2 Community License |
Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq) | Llama 2 (7b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 40B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Llama 2 Community License |
houou-7b (instruction-7b-v1, instruction-7b-v2, instruction-7b-v3) | Llama 2 (7b) | Youri 7B (base) に対して Instruction Tuning: ichikara-instruction | マネーフォワード | Llama 2 Community License |
Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b) | Llama 2 (7b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 | Stability AI | Llama 2 Community License |
SambaLingo-Japanese (Base, Chat) | Llama 2 (7b) | 事前学習: CulturaX Instruction Tuning: ultrachat_200k DPO: ultrafeedback, cai-conversation-harmless | SambaNova Systems | Llama 2 Community License (?)[9:1] |
blue-lizard (blue-lizard) | Llama 2 (7b) | 不明 | Deepreneur | Llama 2 Community License |
Swallow-MS 7B (7b-v0.1, 7b-instruct-v0.1) | Mistral-7B-v0.1 (7b) | 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, OASST1 | Swallowプロジェクト | Apache 2.0 |
RakutenAI-7B (7B, 7B-instruct, 7B-chat) | Mistral-7B-v0.1 (7b) | 事前学習: 不明 Instruction Tuning: Dolly Dataset, OASST1, (jasterと同様に)言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット | 楽天 | Apache 2.0 |
Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b) | Mistral-7B-v0.1 (7b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset | Stability AI | Apache 2.0 |
ChatNTQ JA 7B (7b-v1.0) | Mistral-7B-v0.1 (7b) | Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning | NTQ Solution | Apache 2.0 |
Shisa Gamma 7B (7b-v1) | Mistral-7B-v0.1 (7b) | Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning | AUGMXNT | Apache 2.0 (?)[9:2] |
Shisa 7B (base-7b-v1, 7b-v1) | Mistral-7B-v0.1 (7b) | 事前学習: shisa-pretrain-en-ja-v1 (8B トークン) Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1 | AUGMXNT | Apache 2.0 (?)[9:3] |
Karasu (7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed) | Mistral-7B-v0.1 (7b) | Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン) Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット | Lightblue | Apache 2.0 (?)[9:4] |
Nekomata 7B (7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf) | Qwen (7b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Tongyi Qianwen LICENSE |
lightblue/japanese-mpt-7b | MPT (7b) | Japanese mC4 | Lightblue | Apache 2.0 |
Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct) | StableLM-3B-4E1T (3b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset | Stability AI | Apache 2.0 |
kotomamba-2.8B-CL | mamba-2.8b-slimpj (2.8b) | 日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |
Gemma 2 Baku 2B (2b, 2b-it) | Gemma 2 (2b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 80B トークン) OPRO: 独自のデータセット [10] | rinna | Gemma Terms of Use |
Japanese Stable LM 2 1.6B (base, instruct) | Stable LM 2 1.6B (1.6b) | 事前学習: Wikipedia, CulturaX Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1 | Stability AI | STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE |
karasu-1.1B | TinyLlama (1.1b) | 事前学習: Japanese OSCAR, Japanese mC4 (計 3B トークン) | Lightblue | Apache 2.0 |
ドメイン特化型
ドメイン | ベースのLLM | 開発元 | ライセンス | |
---|---|---|---|---|
Llama3-Preferred-MedSwallow-70B (70B) | 医療 | Llama 3 (70b) | Preferred Networks | Llama 3 Community License |
AIgroup-CVM-utokyohospital/MedSwallow-70b | 医療 | Llama 2 (70b) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC-SA 4.0 |
nekomata-14b-pfn-qfin (qfin, qfin-inst-merge) | 金融 | Qwen (14b) | Preferred Networks | Tongyi Qianwen LICENSE |
Watashiha-Llama-2-13B-Ogiri-sft (sft, sft-neuron) | 大喜利 | Llama 2 (13b) | わたしは | Llama 2 Community License |
ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct) | コーディング | Code Llama (7b) | ELYZA | Llama 2 Community License |
AIBunCho/japanese-novel-gpt-j-6b | 物語生成 | GPT-J (6b) | 個人 (大曽根宏幸) | CreativeML OpenRAIL-M License |
NovelAI/genji-jp | 物語生成 | GPT-J (6b) | NovelAI | ? |
海外モデルに日本語で事後学習のみ行ったモデル
汎用
ベースのLLM | 学習テキスト | 開発元 | ライセンス / 利用規約 | |
---|---|---|---|---|
AXCXEPT/EZO-Qwen2.5-72B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4 | Qwen2.5 (72b) | Axcxept | Qwen License | |
ao-Karasu (72B) | Qwen1.5 (72b) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本語の公開技術ブログ, ニュース記事, QAサイトの回答, 独自のデータセット | Lightblue | Tongyi Qianwen LICENSE (?)[9:5] |
AXCXEPT/Llama-3.1-70B-EZO-1.1-it | Llama 3.1 (70b) | Axcxept | Llama 3.1 Community License | |
Llama 3 shisa-v1-llama3-70b (70b) | Llama 3 (70b) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 Community License (?)[9:6] |
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese | Llama 2 (70b) | 東京大学医学部附属病院 循環器内科 AIグループ | Llama 2 Community License | |
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1 | Llama 2 (70b) | 同志社大学 メディア情報学研究室 | ? | |
AXCXEPT/EZO-Qwen2.5-32B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-32B-Instruct | Qwen2.5 (32b) | Axcxept | Apache 2.0 | |
Qarasu (14B-chat-plus-unleashed) | Qwen (14b) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット | Lightblue | Tongyi Qianwen LICENSE (?)[9:7] |
Sparticle/llama-2-13b-chat-japanese-lora | Llama 2 (13b) | Sparticle | ? | |
izumi-lab/llama-13b-japanese-lora-v0-1ep | Llama (13b) | 東大 和泉研 | ? | |
AXCXEPT/EZO-Common-9B-gemma-2-it | Gemma 2 (9b) | Axcxept | Gemma Terms of Use | |
AXCXEPT/EZO-Humanities-9B-gemma-2-it | Gemma 2 (9b) | Axcxept | Gemma Terms of Use | |
AXCXEPT/Llama-3.1-8B-EZO-1.1-it | Llama 3.1 (8b) | Axcxept | Llama 3.1 Community License | |
Llama 3 Suzume 8B (8B-japanese, 8B-japanese-gguf) | Llama 3 (8b) | megagonlabs/instruction_ja, ShareGPT, 独自のデータセット | Lightblue | Llama 3 Community License (?)[9:8] |
Llama 3 shisa-v1-llama3-8b (8b) | Llama 3 (8b) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 Community License (?)[9:9] |
AXCXEPT/Llama-3-EZO-8b-Common-it | Llama 3 (8b) | Axcxept | Llama 3 Community License | |
ganchengguang/Yoko-7B-Japanese-v1 | Llama 2 (7b) | 横浜国大 森研 | ? | |
Sparticle/llama-2-7b-chat-japanese-lora | Llama 2 (7b) | Sparticle | ? | |
izumi-lab/llama-7b-japanese-lora-v0-5ep | Llama (7b) | 東大 和泉研 | ? | |
lightblue/jod | Mistral-7B-SlimOrca (7b) | Lightblue | Apache 2.0 | |
NTQAI/chatntq-7b-jpntuned | RWKV-4 World (7b) | NTQ Solution | ? | |
Borea (Jp, Common, Coding) | Phi-3.5 (3.8b) | Axcxept | MIT | |
AXCXEPT/EZO-Llama-3.2-3B-Instruct-dpoE | Llama 3.2 (3b) | Axcxept | Llama 3.2 Community License | |
日本語版 Gemma 2 2B (2b-jpn-it) | Gemma 2 (2b) | Gemma Terms of Use | ||
AXCXEPT/EZO-gemma-2-2b-jpn-it | Gemma 2 (2b) | Axcxept | Gemma Terms of Use | |
AXCXEPT/EZO-Common-T2-2B-gemma-2-it | Gemma 2 (2b) | Axcxept | Gemma Terms of Use |
ドメイン特化型
ドメイン | ベースのLLM | 開発元 | ライセンス | |
---|---|---|---|---|
JMedLoRA (llama2-jmedlora-6.89ep) | 医療 | Llama 2 (70b) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC 4.0 |
複数のLLMをマージして作成されたモデル
マージ元のLLM(太字は日本語LLM) | 開発元 | ライセンス | |
---|---|---|---|
EQUES/MedLLama3-JP-v2 | Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8B | EQUES | Llama 3 Community License |
EvoLLM-JP-A (v1-7B) | Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002 | Sakana AI | Apache 2.0 |
EvoLLM-JP (v1-7B, v1-10B) | Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002 | Sakana AI | MICROSOFT RESEARCH LICENSE |
APIとして提供されているモデル
入出力で扱える トークン数 | 開発元 | プラットフォーム | |
---|---|---|---|
Solar mini chat ja (solar-1-mini-chat-ja) | 32,768 | Upstage | 独自 |
AIのべりすと | 2,400 ~ 8,192 | Bit192 | 独自 |
LHTM-OPT | オルツ | AWS Marketplace | |
tsuzumi (tsuzumi-7b) | NTT | Azure AI Foundry |
入力テキストの処理に主に使うモデル
汎用
アーキテクチャ | 入力で扱えるトークン数 | 学習テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? [11] | |
---|---|---|---|---|---|---|
京大BERT | BERT (base, large) | 512 | 日本語 Wikipedia (約1,800万文) | 京大 言語メディア研究室 | Apache 2.0 | △ |
東北大BERT | BERT (base, large) | 512 | base (v1): 日本語 Wikipedia 約1,700万文 (2.6GB) base (v2) & large: 日本語 Wikipedia 約3,000万文 (4.0GB) base (v3) & large (v2): 日本語 Wikipedia 約3,400万文 (4.9GB) + 日本語 CC-100 約3億9,200万文 (74.3GB) | 東北大 自然言語処理研究グループ | base (v1, v2) & large: CC BY-SA 3.0 base (v3) & large (v2): Apache 2.0 | ◯ (base (v1), base (v1, 文字レベル), base (v2), base (v2, 文字レベル), large, large (文字レベル), base (v3), base (v3, 文字レベル), large (v2), large (v2, 文字レベル)) |
TohokuNLP BERT-alpha 500M | Llama ベースのエンコーダ[12] | 4,096 または 8,192 | llm-jp-corpus-v3 の日本語サブセット | 東北大 自然言語処理研究グループ | Apache 2.0 | ◯ (sq4096-alpha, sq8192-alpha) |
NICT BERT | BERT (base) | 512 | 日本語 Wikipedia | NICT | CC BY 4.0 | △ |
Laboro BERT | BERT (base, large) | 512 | 日本語 Web コーパス (ニュースサイトやブログなど 計4,307のWebサイト、2,605,280ページ (12GB)) | Laboro.AI | CC BY-NC 4.0 | ✕ |
colorfulscoop BERT | BERT (base) | 512 | 日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 | ◯ |
東大BERT | BERT (small) | 512 | 日本語 Wikipedia (約2,000万文 (2.9GB)) | 東大 和泉研 | CC BY-SA 4.0 | ◯ |
chiTra (Sudachi Transformers) | BERT (base) | 512 | 国語研日本語ウェブコーパス (NWJC) (148GB) | NINJAL, ワークス徳島人工知能NLP研 | Apache 2.0 | △ |
ACCMS BERT | BERT (base) | 512 | 日本語 Wikipedia (3.3GB) | 京大 ACCMS | CC BY-SA 4.0 | ◯ |
日立BERT | BERT (base) | 512 | 日本語 Wikipedia + Japanese CC-100 | 日立製作所 | CC BY-NC-SA 4.0 | ◯ [13] |
RetrievaBERT | BERT [14] | 2,048 | Japanese CommonCrawl, RefinedWeb, Chinese Wikipedia, Korean Wikipedia, The Stack | レトリバ | Apache 2.0 | ◯ |
Bandai Namco DistilBERT | DistilBERT | 512 | - (東北大BERT(base) を親モデルとして知識蒸留) | Bandai Namco Research | MIT | ◯ |
Laboro DistilBERT | DistilBERT | 512 | - (Laboro BERT(base) を親モデルとして知識蒸留) | Laboro.AI | CC BY-NC 4.0 | ◯ |
LINE DistilBERT | DistilBERT | 512 | - (LINE社内のBERTを親モデルとして知識蒸留) | LINE | Apache 2.0 | ◯ |
rinna RoBERTa | RoBERTa (base) | 512 | 日本語 Wikipedia + Japanese CC-100 | rinna | MIT | ◯ |
早大RoBERTa | RoBERTa (base, large) | 512 | 日本語 Wikipedia + Japanese CC-100 | 早大 河原研 | CC BY-SA 4.0 | ◯ (base, large, large (seq512)) [15] |
インフォマティクスRoBERTa | RoBERTa (base) | 512 | 日本語 Wikipedia + Web 上の記事 (計25GB) | インフォマティクス | Apache 2.0 | △ |
京大RoBERTa | RoBERTa (base, large) | 512 | 日本語 Wikipedia + Japanese CC-100 | 京大 言語メディア研究室 | CC BY-SA 4.0 | ◯ (base (文字レベル), large (文字レベル)) |
横浜国大RoBERTa | RoBERTa (base) | 512 | 日本語 Wikipedia (3.45GB) | 横浜国大 森研 | Apache 2.0 | ◯ |
Megagon Labs RoBERTa | RoBERTa (base) [16] | 1,282 | Japanese mC4 (約2億文) | Megagon Labs (リクルート) | MIT | ◯ |
ACCMS RoBERTa | RoBERTa (base) | 512 | 日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB) | 京大 ACCMS | CC BY-SA 4.0 | ◯ |
シナモンELECTRA | ELECTRA (small) | 512 | 日本語 Wikipedia | シナモン | Apache 2.0 | ◯ |
Megagon Labs ELECTRA | ELECTRA (base) | 512 | Japanese mC4 (約2億文) | Megagon Labs (リクルート) | MIT | ◯ |
東大ELECTRA | ELECTRA (small, base) | 512 | 日本語 Wikipedia (約2,000万文 (2.9GB)) | 東大 和泉研 | CC BY-SA 4.0 | ◯ (small, base) |
日本語RoFormer | RoFormer (base) | 512 | 日本語 Wikipedia (3.45GB) | 横浜国大 森研 | Apache 2.0 | ◯ |
日本語LUKE | LUKE (base, large) | 512 | 日本語 Wikipedia | Studio Ousia | Apache 2.0 | ◯ (base, large) |
京大DeBERTaV2 | DeBERTaV2 (tiny, base, large) | 512 | 日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR (計171GB) | 京大 言語メディア研究室 | CC BY-SA 4.0 | ◯ (tiny, tiny (文字レベル), base, large) |
京大DeBERTaV3 | DeBERTaV3 (base) | 512 | llm-jp-corpus | 京大 言語メディア研究室 | Apache 2.0 | ◯ |
東大DeBERTaV2 | DeBERTaV2 (small, base) | 512 | 日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR | 東大 和泉研 | CC BY-SA 4.0 | ◯ (small, base) |
GLOBIS DeBERTaV3 | DeBERTaV3 (xsmall, base, large) | 512 | Wikipedia, WikiBooks, 青空文庫, Japanese CC-100, Japanese mC4, Japanese OSCAR | グロービス | CC BY-SA 4.0 | ◯ (xsmall, base, large) |
日本語BigBird | BigBird (base) | 4,096 | 日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR | 早大 河原研 | CC BY-SA 4.0 | ◯ |
日本語LayoutLM | LayoutLM (base) | 512 | 東北大BERT (base, v2) で重みを初期化した上で、日本語 Wikipedia の文章とレイアウトで事前学習 | 日本総合研究所 | CC BY-SA 3.0 | ◯ |
ドメイン特化型
ドメイン | アーキテクチャ | 学習テキスト | 開発元 | ライセンス | HuggingFace ですぐ使える? | |
---|---|---|---|---|---|---|
日本語ブログELECTRA | 口語 | ELECTRA (small) | 日本語ブログコーパス(3億5,400万文) | 北見工大 桝井・プタシンスキ研 | CC BY-SA 4.0 | ◯ |
日本語話し言葉BERT | 話し言葉 | BERT (base) | 東北大BERTに対して日本語話し言葉コーパス(CSJ)を用いて追加学習 (DAPTモデルでは国会議事録データも使用) | レトリバ | Apache 2.0 | ◯ |
AcademicRoBERTa | 学術 | RoBERTa (base) | CiNii の日本語論文 (約628万文) | 愛媛大 人工知能研究室 | Apache 2.0 | ◯ |
local-politics-BERT | 政治 | BERT (base) | Wikipedia, 国会会議録, 地方議会会議録 | 地方議会会議録コーパスプロジェクト | CC BY-SA 4.0 | ◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) [17] |
UBKE-LUKE | 経済 | LUKE (base) | 日本語 Wikipedia, 有価証券報告書, 経済ニュース記事 | ユーザベース | CC BY-NC | ◯ |
日本語金融BERT | 金融 | BERT (small, base) [18] | 日本語 Wikipedia + 日本語金融コーパス (約2,700万文 (5.2GB)) | 東大 和泉研 | CC BY-SA 4.0 | ◯ (small, base) |
日本語金融ELECTRA | 金融 | ELECTRA (small) | 日本語 Wikipedia (約2,000万文 (2.9GB)) + 日本語金融コーパス (約2,700万文 (5.2GB)) | 東大 和泉研 | CC BY-SA 4.0 | ◯ |
日本語ニュースBERT | ビジネス | BERT (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | CC BY 4.0 | △ |
日本語ニュースXLNet | ビジネス | XLNet (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | ? | ※ 非公式の HuggingFace 向けに変換されたモデルが公開されている |
日本語ニュースALBERT | ビジネス | ALBERT (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | ? | △ |
みんぱくBERT | 文化財 | BERT (base) | 東北大BERTに対して国立民族学博物館の文化財データで追加学習 | 兵庫県立大学 大島研 | MIT | ◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token) |
UTH-BERT | 医療 | BERT (base) | 日本語診療記録(約1億2,000万行) | 東大病院 医療AI開発学講座 | CC BY-NC-SA 4.0 | △ |
medBERTjp | 医療 | BERT (base) | 日本語 Wikipedia + 日本語医療コーパス(『今日の診療プレミアム』Web版) | 阪大病院 医療情報学研究室 | CC BY-NC-SA 4.0 | △ |
JMedRoBERTa | 医療 | RoBERTa (base) | 日本語医学論文 (約1,100万文 (1.8GB)) | NII 相澤研 | CC BY-NC-SA 4.0 | ◯ (万病WordPiece, SentencePiece) [19] |
埋め込み (Embeddings) 作成に特化したモデル [20]
Bi-Encoders
Single-representation bi-encoders
Multi-representation bi-encoders
開発元 | ライセンス | |
---|---|---|
JaColBERTv2.5 (JaColBERTv2.4, JaColBERTv2.5) | Answer.AI | MIT |
JaColBERTv2 (JaColBERTv2) | 個人 (Benjamin Clavié) | MIT |
JaColBERT (JaColBERT) | 個人 (Benjamin Clavié) | MIT |
Cross-Encoders
視覚言語モデル (Vision-Language Models)
画像+テキストからのテキスト生成
スクラッチ学習モデル
汎用
アーキテクチャ | 学習画像/テキスト | 開発元 | ライセンス / 利用規約 | |
---|---|---|---|---|
llava-calm2-siglip (llava-calm2-siglip) | LLaVA-1.5 | MS-COCO と VisualGenome から生成された対話データ | サイバーエージェント | Apache 2.0 |
LLM-jp-3 VILA 14B (14b) | LLaVA-1.5 | Japanese image text pairs, LLaVA-Pretrain, Japanese interleaved data, coyo (subset), mmc4-core (subset), llava-instruct-ja, japanese-photos-conv, ja-vg-vqa, synthdog-ja, LLaVA-1.5 instruction data (subset) | 大規模言語モデル研究開発センター | Apache 2.0 & OpenAI Terms of Use |
Heron (blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1) | BLIP-2 または GIT | v1: LLaVA-Instruct-150K-JA または LLaVA-Instruct-620K-JA v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset | Turing | CC BY-NC 4.0 |
Japanese Stable VLM (japanese-stable-vlm) | LLaVA-1.5 | Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset | Stability AI | STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE |
Japanese InstructBLIP Alpha (japanese-instructblip-alpha) | InstructBLIP | Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset | Stability AI | JAPANESE STABLELM RESEARCH LICENSE |
rinna MiniGPT-4 (bilingual-gpt-neox-4b-minigpt4) | MiniGPT-4 | CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset | rinna | MIT |
ドメイン特化型
アーキテクチャ | ドメイン | 開発元 | ライセンス | |
---|---|---|---|---|
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm | LLaVA | 大喜利 | わたしは | Llama 2 Community License |
海外モデルに日本語で追加学習を行ったモデル
ベースのVLM | 学習画像/テキスト | 開発元 | ライセンス | |
---|---|---|---|---|
AXCXEPT/EZO-InternVL2-26B | InternVL2 | - | Axcxept | MIT |
複数のVLM・LLMをマージして作成されたモデル
マージ元のLLM・VLM(太字は日本語LLM) | 開発元 | ライセンス | |
---|---|---|---|
Llama-3-EvoVLM-JP-v2 (v2) | Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, Bunny-v1.1-Llama-3-8B-V | Sakana AI | Llama 3 Community License |
AXCXEPT/Llama-3-EZO-VLM-1 | - (Llama-3-EvoVLM-JP-v2 に対して追加学習) | Axcxept | Llama 3 Community License |
EvoVLM-JP (v1-7B) | Shisa Gamma 7B (v1), LLaVA-1.6-Mistral-7B | Sakana AI | Apache 2.0 |
テキストからの画像生成
汎用
アーキテクチャ | 学習画像/テキスト | 開発元 | ライセンス | |
---|---|---|---|---|
CommonArt β (commonart-beta) | PixArt-Σ | CommonCatalog-cc-by, Megalith-10M, Smithonian Open Access, ArtBench (CC-0 only) | AI Picasso | Apache 2.0 |
EvoSDXL-JP (v1) | Stable Diffusion | - (Japanese Stable Diffusion XL を含む複数の画像生成モデルをマージ) | Sakana AI | Apache 2.0[21] |
Japanese Stable Diffusion XL (japanese-stable-diffusion-xl) | Stable Diffusion | 不明 | Stability AI | STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE |
東北大Stable Diffusion (base, refiner) | Stable Diffusion | WMT2023 Shared Task の日英対訳コーパス、laion2B-multi のキャプション約 1,300 万件 | 東北大 自然言語処理研究グループ | CreativeML OpenRAIL-M License |
rinna Stable Diffusion (japanese-stable-diffusion) | Stable Diffusion | LAION-5B データセットのうちキャプションが日本語のもの(画像約 1 億枚) | rinna | CreativeML OpenRAIL-M License |
ドメイン特化型
アーキテクチャ | ドメイン | 開発元 | ライセンス | |
---|---|---|---|---|
Evo-Nishikie (v1) | Stable Diffusion (ControlNet) | 浮世絵 | Sakana AI | Apache 2.0[21:1] |
Evo-Ukiyoe (v1) | Stable Diffusion | 浮世絵 | Sakana AI | Apache 2.0[21:2] |
その他
アーキテクチャ | 学習画像/テキスト | 開発元 | ライセンス | |
---|---|---|---|---|
LINEヤフーCLIP (clip-japanese-base) | CLIP | CommonCrawl, CC12M, YFCC100M | LINEヤフー | Apache 2.0 |
リクルートCLIP (japanese-clip-vit-b-32-roberta-base) | CLIP | laion2B-multi のキャプション約1億2000万件 | リクルート | CC BY-4.0 |
Japanese Stable CLIP (japanese-stable-clip-vit-l-16) | SigLIP | CC12M のキャプションを日本語に翻訳したもの、STAIR Captions | Stability AI | STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE |
rinna CLIP (japanese-clip-vit-b-16) | CLIP | CC12M のキャプションを日本語に翻訳したもの | rinna | Apache 2.0 |
rinna CLOOB (japanese-cloob-vit-b-16) | CLOOB | CC12M のキャプションを日本語に翻訳したもの | rinna | Apache 2.0 |
博報堂テクノロジーズCLIP (base, deeper, wider) | CLIP | laion2B-multi のキャプション約1億2000万件 | 博報堂テクノロジーズ | CC BY-NC-SA 4.0 |
音声言語モデル (Speech-Language Models)
音声認識
アーキテクチャ | 学習コーパス | 開発元 | ライセンス | |
---|---|---|---|---|
Kotoba-Whisper (v1.0, v1.0-ggml, v1.0-faster, v1.1, bilingual-v1.0, bilingual-v1.0-ggml, bilingual-v1.0-faster, v2.0, v2.0-ggml, v2.0-faster, v2.1, v2.2) | Distil-Whisper | ReazonSpeech (+ Multilingual LibriSpeech) | Kotoba Technologies | Apache 2.0 |
Nue ASR (nue-asr) | Nue ASR (HuBERT + LLM) | ReazonSpeech | rinna | Apache 2.0 |
ReazonSpeech (espnet-v1, espnet-next, espnet-v2, nemo-v2) | ESPnet (Conformer-Transducer) または NeMo (FastConformer-RNNT) | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |
その他
アーキテクチャ | 学習コーパス | 開発元 | ライセンス | |
---|---|---|---|---|
Kotoba-Speech (v0.1) | Transformer | 不明 | Kotoba Technologies | Apache 2.0 |
東大HuBERT (base-jtube) | HuBERT | JTubeSpeech | 東大 猿渡・高道研 | MIT |
rinna HuBERT (base, large) | HuBERT | ReazonSpeech | rinna | Apache 2.0 |
Reazon wav2vec 2.0 (base, large) | wav2vec 2.0 | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |
rinna wav2vec 2.0 (base) | wav2vec 2.0 | ReazonSpeech | rinna | Apache 2.0 |
日本語LLM評価ベンチマーク/データセットまとめ
複合型ベンチマーク
説明 | 開発元 | |
---|---|---|
Nejumi LLMリーダーボード3 | LLM の日本語能力を言語理解能力、応用能力、アライメント(制御性、安全性を含む)の 3 つの観点で評価している。詳しくはこちらの記事を参照 | Weights & Biases |
日本語LLM評価 | 様々な LLM を日本語理解・生成タスク、日本語マルチターン対話タスク、英語理解・生成タスクの 3 種類から総合的に評価している。また、既存の LLM 評価ツールを統合・改修した評価スクリプトである swallow-evaluation を合わせて公開している。 | Swallowプロジェクト |
基本的な自然言語処理タスクの性能を測定するベンチマーク/データセット
説明 | 開発元 | |
---|---|---|
オープン日本語LLMリーダーボード | llm-jp-eval を活用し、16種類のタスクで日本語の大規模言語モデルを評価している。 | LLM-jp, Hugging Face |
llm-jp-eval | 複数のデータセットを横断して日本語 LLM を自動評価するツールである。 対応している全データセット一覧はこちらから確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。 | LLM-jp |
JP Language Model Evaluation Harness | Stability AI による EleutherAI/lm-evaluation-harness のフォーク。複数のデータセットを横断して日本語 LLM を自動評価するツールである。 対応している全データセット一覧はこちらから確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。 rinna による詳細な評価結果まとめがある: [rinna] Benchmark of Stability-AI/lm-evaluation-harness | Stability AI |
JGLUE | GLUE ベンチマークの日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む(JCoLA は東大大関研により作成)。各タスクの詳細はこちらやこちらを参照 | 早大 河原研, ヤフー |
JMMLU | MMLU ベンチマークの日本語版として構築されたベンチマーク。自然科学・人文科学・社会科学の幅広い学術領域から 4 択問題を構成している。元の MMLU を翻訳しただけでなく、日本独自の文化的背景に基づく問題(日本問題)を新たに追加しているのが特徴である。 | 早大 河原研 |
テキスト生成能力を測定するベンチマーク/データセット
説明 | 開発元 | |
---|---|---|
Japanese MT-bench | マルチターン会話能力を問う MT-bench の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。 GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。 | Stability AI |
ELYZA-tasks-100 | 複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。 要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。 | ELYZA |
Preferred Generation Benchmark (pfgen-bench) | 50 問の日本語圏特有の常識問題をもとに、LLMの日本語生成能力を Fluency(流暢さ)、Truthfulness(真実性)、Helpfulness(有用性)の3つの評価軸から計測するベンチマーク。n-gram やルールベースでの指標の計算を行うことにより、LLM-as-a-Judge を行わずに評価を実施しているのが特徴である。 | Preferred Elements (Preferred Networks) |
Rakuda Benchmark | 日本の地理、歴史、政治、社会に関する40問の自由質問に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う。 | YuzuAI |
Japanese Vicuna QA Benchmark | MT-Bench の前身である vicuna-blog-eval の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価(勝率計算)のスクリプトも含まれている。リーダーボードはこちら | 京大 言語メディア研究室 |
Tengu-Bench | 様々なカテゴリから成る 120 問の自由質問が収録されている。質問のカテゴリは以下の通り: 表の読み取り、論理パズル、アイデア生成、Function calling、長い文書要約(千トークン以上)、会話要約、長い文書のClosed QA(千トークン以上)、敬語、プロジェクト作成、数学、翻訳、抽出、倫理的制御、コスト見積、日本、雑談、ダジャレ、フォーマット、建設、ビジネス、法律判断、政治、架空の質問 | Lightblue |
Shaberi | Japanese MT-bench、Rakuda Benchmark、ELYZA-tasks-100、Tengu-Bench の評価をまとめて行うことができるフレームワーク。なお、Shisa.AI によるフォークも存在する | Lightblue |
特定ドメインの性能を測定するベンチマーク/データセット
説明 | 開発元 | |
---|---|---|
Japanese Language Model Financial Evaluation Harness | 金融分野における日本語 LLM のベンチマーク。金融分野における感情分析タスク(chabsa)、証券分析における基礎知識タスク(cma_basics)、公認会計士試験における監査に関するタスク(cpa_audit)、ファイナンシャルプランナー試験の選択肢問題のタスク(fp2)、証券外務員試験の模擬試験タスク(security_sales_1)を含む。詳細はこちらを参照 | Preferred Networks |
pfmt-bench-fin-ja | 金融分野における日本語 LLM の生成能力を測定するためのベンチマーク。 | Preferred Networks |
Stockmark Business Questions | 市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。 | ストックマーク |
JMED-LLM | 日本語医療分野における LLM の評価用データセット。これまでに開発されてきた日本語の医療言語処理タスクを LLM ベンチマーク用にまとめている。 | NAIST ソーシャル・コンピューティング研究室 |
JMedBench | 日本語医療分野の LLM ベンチマーク。選択肢問題、機械翻訳、固有表現抽出、文書分類、文類似度計算の 5 種類、計 20 個のデータセットが収録されている(一部のデータセットは JMMLU の医療分野問題や JMED-LLM から借用されている)。また、JMedBench での評価を簡単に行うためのツール med-eval が開発されている。 | NII 相澤研 |
Japanese Medical Language Model Evaluation Harness | ワンコマンドで実行可能な医療分野に特化したLLMの日英能力評価プログラム。 | 個人 (助田一晟) |
karakuri-bench | 日本語 LLM のカスタマーサポートにおける性能を測定するためのデータセット。 | カラクリ |
事実性・安全性を測定するベンチマーク/データセット
説明 | 開発元 | |
---|---|---|
JTruthfulQA | LLM の事実性を評価するデータセット TruthfulQA の日本語版。迷信などの、一部の人々に信じられているが事実とは言えない事象に関する質問群と、日本固有の知識に関する質問群が、一から収集されている。 | 早大 河原研 |
JCommonsenseMorality | 日本語の常識道徳に関するデータセット。行為を表す文に対して、道徳的に間違っているか許容できるかの 2 値ラベルが割り当てられている。 | 北大 言語メディア学研究室 |
JBBQ | 社会性バイアスQAデータセット BBQ を、日本の文化・慣習を踏まえて翻訳、修正、問題追加を行い作成されたデータセット。 | 東大 谷中研 |
論理推論能力を測定するベンチマーク/データセット
説明 | 開発元 | |
---|---|---|
JFLD (Japanese Formal Logic Deduction) | 日本語 LLM の演繹推論能力を問うデータセット(同著者らが提案している FLD (Formal Logic Deduction) の日本語版)。LLM が持つ知識と切り分けて評価を行うために、反実仮想的なサンプルから構成されているのが特徴である。 | 日立製作所 |
JHumanEval | 英語の指示から Python コードの生成能力を評価するベンチマークである HumanEval の日本語版。日本語版を作成する際には、まず機械翻訳にかけたあと、人手での修正を行っている。 | 日本女子大 倉光研 |
制約付きの生成能力を測定するベンチマーク/データセット
説明 | 開発元 | |
---|---|---|
LCTG Bench | 日本語 LLM の制御性ベンチマーク。出力のフォーマット、文字数、キーワード、NGワードの 4 つの観点から、LLM が制約を守って出力を行えているかを評価する。生成されたテキストの品質も合わせて評価する。 | サイバーエージェント |
埋め込みモデルのベンチマーク/データセット
説明 | 開発元 | |
---|---|---|
JMTEB | MTEBの日本語版として作成されたベンチマーク。 文書クラスタリング、文書分類、文間類似度、文ペアラベル予測、文書抽出の5種類のタスクから構成されている(その後、リランキングタスクが新たに追加)。 | SB Intuitions |
JQaRA | 日本語の文書抽出・リランキング精度評価のためのデータセット。1,667件の質問文それぞれに対し、候補となる100件のドキュメントが割り当てられており、そのうち1件以上が質問文に回答できる内容になっている。質問文は JAQKET を、候補のドキュメントは日本語 Wikipedia を用いている。 | 個人 (舘野祐一) |
JaCWIR | Wikipedia 以外のドメインで文書抽出・リランキングの評価を行えることを目指して作成されたデータセット。5,000件の質問文それぞれに対し、その質問文が作成される元になった 1 件の Webページと、質問文とは関係のない 99 件の Web ページが割り当てられている。 | 個人 (舘野祐一) |
視覚言語モデル (Vision-Language Models) のベンチマーク/データセット
説明 | 開発元 | |
---|---|---|
JMMMU | MMMU ベンチマークの日本語版として構築されたベンチマーク。720 件の MMMU の翻訳版の問題と 600 件の日本文化特有の新規の問題から構成される。 | 東大 相澤研 |
JDocQA | 日本語ドキュメント(パンフレット、スライド、レポート、Web サイト)をもとに構築された、合計 11,600 件の質問から構成される質問応答データセット。解答不能問題を含め、様々な質問形式の質問が収録されている。 | NAIST 渡辺研 |
Heron VLM リーダーボード powered by nejumi@WandB | Japanese-Heron-Bench と LLaVA-Bench-In-the-Wild (Japanese) の評価結果をまとめている。 | Turing, Weights & Biases |
Japanese-Heron-Bench | 21 枚の画像に対して計 102 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。 | Turing |
JA-VLM-Bench-In-the-Wild | Sakana AI が EvoVLM-JP-v1-7B の評価のために独自に用意したデータセット。42 枚の画像に対して計 50 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。 | Sakana AI |
JA-Multi-Image-VQA | 複数の画像に対する日本語での質疑応答能力を評価するデータセット。 | Sakana AI |
LLaVA-Bench-In-the-Wild (Japanese) | LLaVA-Bench-In-the-Wild を DeepL で日本語に訳したもの。24 枚の画像に対して計 60 問の質問が割り当てられている。 | Turing |
LLaVA-Bench (COCO) Japanese | LLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL で日本語に訳したもの。30 枚の画像に対して各 3 種類の質問が割り当てられている。 | Turing |
Japanese Visual Genome VQA dataset | Visual Genome dataset の画像をもとにアノテーションされた質問応答データセット。このデータセットの 500 件を切り出した JA-VG-VQA-500 が VLM の評価ベンチマークとして用いられることもある。 | ヤフー |
各モデル・アーキテクチャの原論文
LLMの学習手法の原論文
PPO (RLHF) | 2017.07.20 | - | Proximal Policy Optimization Algorithms |
Instruction Tuning (Supervised Fine-tuning; SFT) | 2021.09.03 | ICLR 2022 | Finetuned Language Models Are Zero-Shot Learners |
Sparse Upcycling | 2022.12.09 | ICLR 2023 | Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints |
DPO | 2023.05.29 | NeurIPS 2023 | Direct Preference Optimization: Your Language Model is Secretly a Reward Model |
SteerLM | 2023.10.09 | EMNLP 2023 (Findings) | SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF |
ORPO | 2024.03.12 | EMNLP 2024 | ORPO: Monolithic Preference Optimization without Reference Model |
コントリビューター
このプロジェクトに貢献してくれているコントリビューターのみなさんです!
引用
このリポジトリの要約はプレプリントとしても公開されています: Exploring Open Large Language Models for the Japanese Language: A Practical Guide
このリポジトリについて言及する場合は、以下の通り引用してください:
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
一部アーキテクチャの変更を加えている。詳しくは以下を参照: 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 ↩︎
詳細は以下の記事を参照: 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など, 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー ↩︎ ↩︎
ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: PLaMo-13Bを公開しました ↩︎
詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』 ↩︎
通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。 ↩︎
Instruction Tuning を行う前に、Llama 3 Instruct と Llama 3 Base の差分の Chat Vector を加えている。 ↩︎ ↩︎
Instruction Tuning を行った後に、Llama 3 Instruct と Llama 3 Base の差分の Chat Vector を加えている。 ↩︎ ↩︎
ただし、KARAKURI LM を商用利用したい場合は、開発元であるカラクリ株式会社に直接連絡が必要であるとしている。 ↩︎
Instruction Tuning において、GPT-3.5, GPT-4 等の OpenAI のモデルで生成されたデータを使って学習しているため、OpenAI の規約に違反している可能性がある。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
ORPO を行う前に、Gemma 2 Instruct と Gemma 2 Base の差分の Chat Vector を加えている。 ↩︎
○: HuggingFace の Model Hub にモデルがアップロードされており、
AutoModel.from_pretrained()
等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。 ↩︎Llama から Causal Attention を取り除くことにより、エンコーダ型モデルとして利用している。 ↩︎
様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。 ↩︎
ただし、最大系列長が 2048 に拡張されているほか、元の BERT に対して様々なアーキテクチャの変更が施されている。詳しくは HuggingFace リポジトリの README を参照。 ↩︎
nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している ↩︎
ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる ↩︎
それぞれのモデルの詳細は作者らの論文の第4章を参照。なお、SC-2M-wiki モデルは Wikipedia でのみ事前学習されているため、厳密にはドメイン特化型モデルではない。 ↩︎
small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある ↩︎
万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル ↩︎
埋め込みモデルの分類は Dense Text Retrieval based on Pretrained Language Models: A Survey (Zhao+, 2022) を参考に行った。Bi-Encoder は 2つの入力を個別にモデルに入力し、それぞれベクトル化した上で、それらの内積やコサイン類似度を入力の近さとして定式化するアーキテクチャである。それに対し、Cross-Encoder は 2 つの入力を組み合わせたものをモデルに入力し、モデル内部で近さを直接計算するアーキテクチャである。情報抽出の分野では、Cross-Encoder の方が計算コストがかかるが、入力の近さをよりきめ細かくモデルが計算することが期待されるため、抽出結果の順序を再検討するリランカーとして用いられることも多い。なお、Bi-Encoder の中でも、入力を単一のベクトルではなく(トークンごとなどの)複数のベクトルとして表現するタイプのもの(例: ColBERT)があるため、Single-representation bi-encoders と Multi-representation bi-encoders にさらに細分化している。 ↩︎
ただし、研究および教育を目的とした利用を念頭に置くよう呼びかけている。また、マージ元のモデルのいくつかのライセンスは Apache 2.0 ではない点にも注意すること。 ↩︎ ↩︎ ↩︎