Aperçu des grands modèles de langage (LLM) en japonais
Voici une liste des LLMs disponibles au grand public, axés sur l'apprentissage du japonais, ainsi que leurs critères d'évaluation. Cette liste est maintenue par des bénévoles qui collectent des informations à partir de diverses sources telles que des articles académiques et d'autres ressources publiques.
Attention
- Nous ne pouvons garantir l’exactitude ou l’exhaustivité des informations présentées ici.
- Certaines informations sont basées sur des conjectures et peuvent ne pas refléter votre cas d'utilisation spécifique.
- Bien que de nombreux modèles soient publiés sous des licences permissives telles que MIT ou Apache 2.0, certains modèles sont soumis à des conditions plus restrictives, notamment des clauses d'utilisation non commerciale (exemple CC BY-NC-SA 4.0) ou d'autres modalités légales et contractuelles
N'hésitez pas à signaler les erreurs sur la page issues. N'hésitez pas également à contribuer directement avec une pull request.
Table des matières
Modèles IA génératives
Pour les modèles multimodal, voir ci-dessous.
Modèles développés à partir de zéro
D'usage général
Architecture | Longueur Maximale du Contexte | Données d'entraînement | Développeur | Licence / Conditions d'utilisation | |
---|---|---|---|---|---|
Sarashina2-8x70B | Mixtral (8x70b (465b)) | 8,192 | Sparse Upcycling on Sarashina2 (70B) | SB Intuitions | Sarashina Model NonCommercial License |
LLM-jp-3 172B | Llama (172b, 172b-instruct3) | 4,096 | Pre-training: llm-jp-corpus-v3 (2.1T tokens) Instruction Tuning: ichikara-instruction, answer-carefully, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k DPO: synthetic data | Research and Development Center for Large Language Models | Pre-trained model: LLM-jp-3 172B Terms of Use Post-trained model: llm-jp-3-172b-instruct3 Terms of Use |
LLM-jp-3 172B beta2 | Llama (172b-beta2, 172b-beta2-instruct2) | 4,096 | Pre-training: part of llm-jp-corpus-v3 (1.4T tokens) Instruction Tuning: ichikara-instruction, answer-carefully, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k | Research and Development Center for Large Language Models | LLM-jp-3 172B beta2 Terms of Use |
LLM-jp-3 172B beta1 | Llama (172b-beta1, 172b-beta1-instruct) | 4,096 | Pre-training: part of llm-jp-corpus-v3 (0.7T tokens) Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN | Research and Development Center for Large Language Models | LLM-jp-3 172B beta1 Terms of Use |
LLM-jp-3 172B alpha | Llama (172b-alpha1, 172b-alpha1-instruct, 172b-alpha2, 172b-alpha2-instruct) | 4,096 | Pre-training: part of llm-jp-corpus-v3 (alpha1: 0.7T tokens, alpha2: 1.4T tokens) Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN | Research and Development Center for Large Language Models | Apache 2.0 |
Stockmark-100b | Llama (100b, 100b-instruct-v0.1) | 4,096 | Pre-training: RedPajama, Wikipedia en japonais, Japanese mC4, Japanese CommonCrawl, Japanese Patent, Stockmark Web Corpus (910B tokens) Instruction Tuning (LoRA): ichikara-instruction | Stockmark | MIT |
PLaMo-100B-Pretrained | Llama[1] (100b) | 4,096 | Pre-training: Japanese CommonCrawl, RefinedWeb, undisclosed (2.0T tokens) | Preferred Elements (Preferred Networks) | PLaMo Non-Commercial License |
Sarashina2 | Llama (7b, 13b, 70b) | 7b, 13b: 4,096 70b: 8,192 | Pre-training: Japanese Common Crawl, SlimPajama, StarCoder (2.1T tokens) | SB Intuitions | MIT |
Sarashina1 | GPT-NeoX (7b, 13b, 65b) | 2,048 | Pre-training: Japanese Common Crawl (1T tokens) | SB Intuitions | MIT |
Tanuki-8×8B | Tanuki (MoE) (47b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF) | 4,096 | Pre-training: various Web & synthetic datasets(1.7T tokens) SFT, DPO: various synthetic datasets [2] | Matsuo Lab LLM Development Project | Apache 2.0 |
CyberAgentLM3 (CALM3) | Llama (22b-chat) | 16,384 | undisclosed (2.0T tokens) | CyberAgent | Apache 2.0 |
LLM-jp-3 13B | Llama (1.8b, 1.8b-instruct, 3.7b, 3.7b-instruct, 13b, 13b-instruct) | 4,096 | Pre-training: llm-jp-corpus-v3 (2.1T tokens) Instruction Tuning: ichikara-instruction, answer-carefully, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k | Research and Development Center for Large Language Models | Apache 2.0 |
llm-jp-3-3.7b-instruct-EZO | Llama (3.7b-instruct-EZO-Common, 3.7b-instruct-EZO-Humanities) | 4,096 | additionally trained on LLM-jp-3 (3.7B) | Axcxept | Apache 2.0 |
LLM-jp-13B v2.0 | Llama (13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0) | 4,096 | Pre-training: llm-jp-corpus-v2 (260B tokens) Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2 | LLM-jp | Apache 2.0 |
Fugaku-LLM | GPT (13B, 13B-instruct, 13B-instruct-gguf) | 2,048 | Pre-training: undisclosed dataset Instruction Tuning: OASST1, Dolly Dataset, GSM8K | Titech, Tohoku Univ., Fujitsu, RIKEN, Nagoya Univ., CyberAgent, Kotoba Technologies | Fugaku-LLM Terms of Use |
LLM-jp-13B v1.1 | GPT (13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1) | 2,048 | Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction DPO (LoRA): HH RLHF | LLM-jp | Apache 2.0 |
LLM-jp-13B | GPT (1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0) | 2,048 | Pré-entraînement: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (300B tokens) Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1 | LLM-jp | Apache 2.0 |
PLaMo-13B | Llama[3] (13b, 13b-instruct, 13b-instruct-nc) | base: 4,096 instruct, instruct-nc: 8,192 | Pré-entraînement: C4, Project Gutenberg, RedPajama, Japanese Wikipedia, Japanese mC4 (1.5T tokens) Instruction Tuning: Dolly, HH RLHF, OASST1, wikinews (+Alpaca in NC model) | Preferred Networks | Apache 2.0 (CC BY-NC 4.0 as for NC model) |
Stockmark-13b | Llama (13b, 13b-instruct) | 2,048 | Wikipedia en japonais, Japanese CC-100, Japanese mC4, Japanese CommonCrawl, Japanese Patent, Stockmark Web Corpus (220B tokens) Instruction Tuning (LoRA): ichikara-instruction | Stockmark | base: MIT instruct: CC BY-NC-SA 4.0 |
Weblab-10B | GPT-NeoX (10b, 10b-instruction-sft) | 2,048 | Japanese mC4, The Pile (600B tokens) Instruction Tuning: Alpaca, FLAN | Université de Tokyo Matsuo Lab | CC BY‑NC 4.0 |
Tanuki-8B | Tanuki (8b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF) | 4,096 | Pre-training: various Web & synthetic datasets(1.3T tokens) SFT, DPO: various synthetic datasets [2:1] | Matsuo Lab LLM Development Project | Apache 2.0 |
Japanese StableLM Alpha | GPT-NeoX (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2) | 2,048 | Wikipédia, Japanese CC‑100, Japanese mC4, Japanese OSCAR, RedPajama, ensembles de données privés[4] (750B tokens) Instruction Tuning: Dolly, HH‑RLHF, wikinews, Alpaca (discarded in v2) | Stability AI | base: Apache 2.0 instruct (v1): Research license instruct (v2): Apache 2.0 |
CyberAgentLM2 (CALM2) | Llama (7b, 7b-chat, 7b-chat-dpo-experimental) | base: 4,096 chat: 32,768 | Ensembles de données japonais et anglais accessibles au public (détails inconnus) (1.3T tokens) DPO: Chatbot Arena Conversations JA (calm2) Dataset | CyberAgent | Apache 2.0 (CC BY 4.0 as for DPO model) |
OpenCALM | GPT-NeoX (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b)) | 2,048 | Wikipedia en japonais, Japanese mC4, Japanese CC‑100 | CyberAgent | CC BY‑SA 4.0 |
Stormy | GPT-NeoX (7b(6.8b)) | 2,048 | OpenCALM fine-tuned sur llm-japanese-dataset v0 sans âches de traduction | Université de Tokyo Izumi Lab | CC BY‑SA 4.0 |
rinna GPT (En-Ja Bilingual) | GPT-NeoX (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo) | 8k model: 8,192 others: 2,048 | Wikipedia, Japanese CC‑100, Japanese C4, RedPajama, The Pile (524B tokens) Instruction Tuning: HH‑RLHF, FLAN PPO: HH‑RLHF par apprentissage par renforcement 8k: entrainé sur du long texte | rinna | MIT |
japanese-large-lm | GPT-NeoX (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft) | 2,048 | Wikipedia en japonais, Japanese CC‑100, Japanese C4, Japanese OSCAR et ensembles de données privés (650GB) Instruction Tuning: OASST1 | LINE | Apache 2.0 |
rinna GPT (Japanese only) | GPT / GPT-NeoX (xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo) | ≤ 2,048 | Wikipédia en japonais, Japanese CC‑100 (1b et plus modèles à ajouter Japanese mC4) Instruction Tuning: HH‑RLHF, FLAN, SHP PPO: HH‑RLHF par apprentissage par renforcement | rinna | MIT |
RetrievaT5 | T5 (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b)) | Wikipédia en japonais, Japanese mC4 | Retrieva | CC BY‑SA 4.0 | |
Spiral-RetNet-3b-base | RetNet (3b) | 2,048 | Wikipedia, Japanese CC-100, CulturaX | Spiral.AI | MIT |
kotomamba-2.8B | Mamba (2.8B-v1.0) | 2,048 | Wikipedia en japonais, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |
ABEJA GPT | GPT / GPT-NeoX (large, neox-2.7b) | Japanese Wikipedia, Japanese CC‑100, Japanese OSCAR | ABEJA | MIT | |
WasedaGPT | GPT (small, xl(1.5b)) | Wikipédia en japonais, Japanese CC‑100 | Université de Waseda Kawahara Lab | CC BY‑SA 4.0 | |
StockmarkGPT | GPT-NeoX (1.4b) | Wikipédia en japonais (0.88B tokens), Japanese CC‑100 (10.5B tokens), ensembles de données privés (8.6B tokens) | Stockmark | MIT | |
YellowbackGPT | GPT-NeoX (1.3b) | Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR | Yellowback | Apache 2.0 | |
Sarashina2.1-1B | Llama (1b) | 8,192 | Japanese and English data on the web (10T tokens) | SB Intuitions | Sarashina Model NonCommercial License |
colorfulscoop GPT | GPT (small) | Wikipédia en japonais | Colorful Scoop | CC BY‑SA 3.0 | |
TitechGPT | GPT (medium, medium-reversed) [5] | Wikipédia en japonais, Japanese CC‑100 | Titech Okazaki Lab | CC BY‑SA 4.0 | |
KyotoUniversityGPT | GPT (small, medium, large) | Wikipédia en japonais (3.2GB), Japanese CC‑100 (85GB), Japanese OSCAR (54GB) | Université de Kyoto Laboratoire de traitement des langues et des médias | CC BY‑SA 4.0 | |
JapaneseBART | BART (base, large) | Wikipédia en japonais (18M sentences) | Université de Kyoto Laboratoire de traitement des langues et des médias | CC BY‑SA 4.0 | |
Megagon Labs T5 | T5 (base) | Japanese mC4 (782 GB), Wikipédia en japonais 40b (2 GB) | Megagon Labs (Recruit Co.,Ltd.) | Apache 2.0 |
Spécifique à un domaine
Domaine | Architecture | Données d'entraînement | Développeur | Licence | |
---|---|---|---|---|---|
Japanese Dialog Transformer | Dialogue | Transformer | Pairs de réponses venant de Twitter | NTT | License en évaluaiton |
Japanese News BART | Affaires | BART (base) | Articles de l'actualité économique en japonais (21M articles) | Stockmark | MIT |
AcademicBART | Science | BART (base) | CiNii Japanese Papers | Université d'Ehime AI Lab | Apache 2.0 |
Modèles développés à partir d'LLM non-japonais (avec un apprentissage en continue en japonais)
D'usage général
Base du Model | Données d'entraînement | Développeur | Licence / Conditions d'utilisation | |
---|---|---|---|---|
Llama 3.1 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1, 70B-Instruct-v0.3) | Llama 3.1 (70b) | Pre-training: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie | Swallow Project | Llama 3.1 Community License (Gemma Terms of Use is also applied to the Instruct model) |
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407 | Llama 3.1 (70b) | undisclosed | CyberAgent | Llama 3.1 Community License |
Llama 3 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1) | Llama 3 (70b) | Pre-training: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 [6] | Swallow Project | Llama 3 Community License |
turing-motors/Llama-3-heron-brain-70B-v0.3 | Llama 3 (70b) | additionally trained on Llama 3 Swallow 70B (details undisclosed) | Turing | Llama 3 Community License |
Llama 3 Youko 70B (70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq) | Llama 3 (70b) | Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (5B tokens) Instruction Tuning: undisclosed datasetト[7] | rinna | Llama 3 Community License |
Swallow 70B (70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf) | Llama 2 (70b) | Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1: OASST1, OASST2 | Swallow Project | Llama 2 Community License |
KARAKURI LM (70b-v0.1, 70b-chat-v0.1) | Llama 2 (70b) | Pre-training: mC4, CC100, OSCAR, RedPajama, undisclosed dataset (16B tokens) SteerLM: OASST2, undisclosed dataset | KARAKURI | Llama 2 Community License[8] |
Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b) | Llama 2 (70b) | Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 | Stability AI | Llama 2 Community License |
Swallow-MX 8x7B (8x7b-NVE-v0.1) | Mixtral-8x7B-Instruct-v0.1 (46.7b) | Pre-training: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault | Swallow Project | Apache 2.0 |
KARAKURI LM 8x7B Instruct v0.1 (8x7b-instruct-v0.1) | Mixtral-8x7B-Instruct-v0.1 (46.7b) | trained Swallow-MX 8x7B on the following datasets: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, undisclosed dataset | KARAKURI | Apache 2.0 (?)[9] |
KARAKURI LM 8x7B Chat v0.1 (8x7b-chat-v0.1) | Mixtral-8x7B-Instruct-v0.1 (46.7b) | trained Swallow-MX 8x7B on OASST2, HelpSteer, and undisclosed datasets using SteerLM | KARAKURI | Apache 2.0 |
ABEJA-Mixtral-8x7B-japanese (8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged) | Mixtral-8x7B-Instruct-v0.1 (46.7b) *Le modèle sans "Instruct" dans son nom est basé sur Mixtral-8x7B-v0.1 | Pre-training: Japanese CC, Redpajama, undisclosed dataset (450B tokens) | ABEJA | Apache 2.0 |
Nekomata 14B (14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf) | Qwen (14b) | Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (66B tokens) Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset | rinna | Tongyi Qianwen LICENSE |
Swallow 13B (13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf) | Llama 2 (13b) | Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1: OASST1, OASST2 | Swallow Project | Llama 2 Community License |
LEIA-Swallow-13B (13b) | Llama 2 (13b) | additionally trained Swallow 13B using LEIA | Individual (Ikuya Yamada, Ryokan Ri) | Llama 2 Community License |
ELYZA-japanese-Llama-2-13b (13b, 13b-instruct, 13b-fast, 13b-fast-instruct) | Llama 2 (13b) | Pre-training: Japanese Wikipedia, Japanese OSCAR, and other crawled data (18B tokens) Instruction Tuning: undisclosed dataset | ELYZA | Llama 2 Community License |
cyberagent/Mistral-Nemo-Japanese-Instruct-2408 | Mistral NeMo (12b) | undisclosed | CyberAgent | Apache 2.0 |
Llama 3.1 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1, 8B-v0.2, 8B-Instruct-v0.2, 8B-Instruct-v0.3) | Llama 3.1 (8b) | Pre-training: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie | Swallow Project | Llama 3.1 Community License (Gemma Terms of Use is also applied to the Instruct model) |
Llama 3 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1) | Llama 3 (8b) | Pre-training: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 [6:1] | Swallow Project | Llama 3 Community License |
turing-motors/Llama-3-heron-brain-8B-v0.3 | Llama 3 (8b) | additionally trained on Llama 3 Swallow 8B (details undisclosed) | Turing | Llama 3 Community License |
Llama 3 Youko 8B (8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq) | Llama 3 (8b) | Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (22B tokens) Instruction Tuning[7:1]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, undisclosed dataset DPO: HelpSteer, HelpSteer2, undisclosed dataset | rinna | Llama 3 Community License |
Llama 3 ELYZA JP 8B (8B, 8B-GGUF, 8B-AWQ) | Llama 3 (8b) | undisclosed | ELYZA | Llama 3 Community License |
Llama 3 neoAI 8B Chat v0.1 (8B-Chat-v0.1) | Llama 3 (8b) | undisclosed | neoAI | Llama 3 Community License |
Llama 3 tedllm (v0) | Llama 3 (8b) | Pre-training: Japanese generic corpus | Tokyo Electron Device | Llama 3 Community License |
Swallow 7B (7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf) | Llama 2 (7b) | Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1: OASST1, OASST2 | Swallow Project | Llama 2 Community License |
LEIA-Swallow-7B (7b) | Llama 2 (7b) | additionally trained Swallow 7B using LEIA | Individual (Ikuya Yamada, Ryokan Ri) | Llama 2 Community License |
ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct) | Llama 2 (7b) | Pre-training: Japanese Wikipedia, Japanese OSCAR, and other crawled data (18B tokens) Instruction Tuning: undisclosed dataset | ELYZA | Llama 2 Community License |
Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq) | Llama 2 (7b) | Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (40B tokens) Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset | rinna | Llama 2 Community License |
houou-7b (instruction-7b-v1, instruction-7b-v2, instruction-7b-v3) | Llama 2 (7b) | Instruction-tuned Youri 7B (base) on ichikara-instruction | MoneyForward | Llama 2 Community License |
Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b) | Llama 2 (7b) | Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 | Stability AI | Llama 2 Community License |
SambaLingo-Japanese (Base, Chat) | Llama 2 (7b) | Pre-training: CulturaX Instruction Tuning: ultrachat_200k DPO: ultrafeedback, cai-conversation-harmless | SambaNova Systems | Llama 2 Community License (?)[9:1] |
blue-lizard (blue-lizard) | Llama 2 (7b) | undisclosed | Deepreneur | Llama 2 Community License |
Swallow-MS 7B (7b-v0.1, 7b-instruct-v0.1) | Mistral-7B-v0.1 (7b) | Pre-training: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, OASST1 | Swallow Project | Apache 2.0 |
RakutenAI-7B (7B, 7B-instruct, 7B-chat) | Mistral-7B-v0.1 (7b) | Pre-training: undisclosed Instruction Tuning: Dolly Dataset, OASST1, datasets converted from the train split of NLU datasets (like jaster), undisclosed dataset | Rakuten | Apache 2.0 |
Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b) | Mistral-7B-v0.1 (7b) | Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, wikinews subset of llm-japanese-dataset | Stability AI | Apache 2.0 |
ChatNTQ JA 7B (7b-v1.0) | Mistral-7B-v0.1 (7b) | Instruction-tuned Japanese Stable LM Gamma 7B (base) on their own datasets | NTQ Solution | Apache 2.0 |
Shisa Gamma 7B (7b-v1) | Mistral-7B-v0.1 (7b) | Instruction-tuned Japanese Stable LM Gamma 7B (base) on ultra-orca-boros-en-ja | AUGMXNT | Apache 2.0 (?)[9:2] |
Shisa 7B (base-7b-v1, 7b-v1) | Mistral-7B-v0.1 (7b) | Pre-training: shisa-pretrain-en-ja-v1 (8B tokens) Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1 | AUGMXNT | Apache 2.0 |
Karasu (7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed) | Mistral-7B-v0.1 (7b) | Additionally trained Shisa 7B (base) on Aozora Bunko, Japanese Law Precedent Dataset, Japanese Wikipedia, Japanese domain webscrapes from the Japanese subset of CulturaX, UltraChat 200k (7B tokens) Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, undisclosed dataset | Lightblue | Apache 2.0 (?)[9:3] |
Nekomata 7B (7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf) | Qwen (7b) | Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (66B tokens) Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset | rinna | Tongyi Qianwen LICENSE |
lightblue/japanese-mpt-7b | MPT (7b) | Japanese mC4 | Lightblue | Apache 2.0 (?)[9:4] |
Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct) | StableLM-3B-4E1T (3b) | Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, wikinews subset of llm-japanese-dataset | Stability AI | Apache 2.0 |
kotomamba-2.8B-CL | mamba-2.8b-slimpj (2.8b) | Japanese Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |
Gemma 2 Baku 2B (2b, 2b-it) | Gemma 2 (2b) | Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (80B tokens) OPRO: undisclosed dataset [10] | rinna | Gemma Terms of Use |
Japanese Stable LM 2 1.6B (base, instruct) | Stable LM 2 1.6B (1.6b) | Pre-training: Wikipedia, CulturaX Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1 | Stability AI | STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE |
karasu-1.1B | TinyLlama (1.1b) | Pre-training: Japanese OSCAR, Japanese mC4 (3B tokens) | Lightblue | Apache 2.0 |
Spécifique à un domaine
Domaine | Base du Model | Développeur | Licence | |
---|---|---|---|---|
Llama3-Preferred-MedSwallow-70B (70B) | Médecine | Llama 3 (70b) | Preferred Networks | Llama 3 Community License |
AIgroup-CVM-utokyohospital/MedSwallow-70b | Médecine | Llama 2 (70b) | Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire | CC BY-NC-SA 4.0 |
nekomata-14b-pfn-qfin (qfin, qfin-inst-merge) | Finance | Qwen (14b) | Preferred Networks | Tongyi Qianwen LICENSE |
Watashiha-Llama-2-13B-Ogiri-sft (sft, sft-neuron) | Oogiri | Llama 2 (13b) | Watashiha | Llama 2 Community License |
ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct) | Codage | Code Llama (7b) | ELYZA | Llama 2 Community License |
AIBunCho/japanese-novel-gpt-j-6b | Génération de récits | GPT-J (6b) | Individuel (Hiroyuki Osone) | CreativeML OpenRAIL-M License |
NovelAI/genji-jp | Génération de récits | GPT-J (6b) | NovelAI | ? |
Modèles développés à partir d'LLM non-japonais (avec un post-entraînement en japonais)
D'usage général
Base du Model | Données d'entraînement | Développeur | Licence / Conditions d'utilisation | |
---|---|---|---|---|
AXCXEPT/EZO-Qwen2.5-72B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4 | Qwen2.5 (72b) | Axcxept | Qwen License | |
ao-Karasu (72B) | Qwen1.5 (72b) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, Japanese technical blogs, News stories, QA site answers, undisclosed dataset | Lightblue | Tongyi Qianwen LICENSE (?)[9:5] |
AXCXEPT/Llama-3.1-70B-EZO-1.1-it | Llama 3.1 (70b) | Axcxept | Llama 3.1 Community License | |
Llama 3 shisa-v1-llama3-70b (70b) | Llama 3 (70b) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 Community License (?)[9:6] |
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese | Llama 2 (70b) | Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire | Llama 2 Community License | |
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1 | Llama 2 (70b) | Université de Doshisha Media Informatics Lab | ? | |
AXCXEPT/EZO-Qwen2.5-32B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-32B-Instruct | Qwen2.5 (32b) | Axcxept | Apache 2.0 | |
Qarasu (14B-chat-plus-unleashed) | Qwen (14b) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, undisclosed dataset | Lightblue | Tongyi Qianwen LICENSE (?)[9:7] |
Sparticle/llama-2-13b-chat-japanese-lora | Llama 2 (13b) | Sparticle | ? | |
izumi-lab/llama-13b-japanese-lora-v0-1ep | Llama (13b) | Université de Tokyo Izumi Lab | ? | |
AXCXEPT/EZO-Common-9B-gemma-2-it | Gemma 2 (9b) | Axcxept | Gemma Terms of Use | |
AXCXEPT/EZO-Humanities-9B-gemma-2-it | Gemma 2 (9b) | Axcxept | Gemma Terms of Use | |
AXCXEPT/Llama-3.1-8B-EZO-1.1-it | Llama 3.1 (8b) | Axcxept | Llama 3.1 Community License | |
Llama 3 Suzume 8B (8B-japanese, 8B-japanese-gguf) | Llama 3 (8b) | megagonlabs/instruction_ja, ShareGPT, undisclosed dataset | Lightblue | Llama 3 Community License (?)[9:8] |
Llama 3 shisa-v1-llama3-8b (8b) | Llama 3 (8b) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 Community License (?)[9:9] |
AXCXEPT/Llama-3-EZO-8b-Common-it | Llama 3 (8b) | Axcxept | Llama 3 Community License | |
ganchengguang/Yoko-7B-Japanese-v1 | Llama 2 (7b) | Université nationale de Yokohama Mori Lab | ? | |
Sparticle/llama-2-7b-chat-japanese-lora | Llama 2 (7b) | Sparticle | ? | |
izumi-lab/llama-7b-japanese-lora-v0-5ep | Llama (7b) | Université de Tokyo Izumi Lab | ? | |
lightblue/jod | Mistral-7B-SlimOrca (7b) | Lightblue | Apache 2.0 | |
NTQAI/chatntq-7b-jpntuned | RWKV-4 World (7b) | NTQ Solution | ? | |
Borea (Jp, Common, Coding) | Phi-3.5 (3.8b) | Axcxept | MIT | |
AXCXEPT/EZO-Llama-3.2-3B-Instruct-dpoE | Llama 3.2 (3b) | Axcxept | Llama 3.2 Community License | |
Gemma-2-JPN (2b-jpn-it) | Gemma 2 (2b) | Gemma Terms of Use | ||
AXCXEPT/EZO-gemma-2-2b-jpn-it | Gemma 2 (2b) | Axcxept | Gemma Terms of Use | |
AXCXEPT/EZO-Common-T2-2B-gemma-2-it | Gemma 2 (2b) | Axcxept | Gemma Terms of Use |
Spécifique à un domaine
Domaine | Base du Model | Développeur | Licence | |
---|---|---|---|---|
JMedLoRA (llama2-jmedlora-6.89ep) | Médecine | Llama 2 (70b) | Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire | CC BY-NC 4.0 |
Modèles fusionnés
Modèles originaux (LLMs japonais en gras) | Développeur | Licence | |
---|---|---|---|
EQUES/MedLLama3-JP-v2 | Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8B | EQUES | Llama 3 Community License |
EvoLLM-JP-A (v1-7B) | Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002 | Sakana AI | Apache 2.0 |
EvoLLM-JP (v1-7B, v1-10B) | Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002 | Sakana AI | MICROSOFT RESEARCH LICENSE |
Modèles basés sur des API
Longueur Maximale du Contexte | Développeur | Plateforme | |
---|---|---|---|
Solar mini chat ja (solar-1-mini-chat-ja) | 32,768 | Upstage | self-owned |
AI Novelist | 2,400 ~ 8,192 | Bit192 | self-owned |
LHTM-OPT | alt Inc. | AWS Marketplace | |
tsuzumi (tsuzumi-7b) | NTT | Azure AI Foundry |
Modèles encodeur
D'usage général
Architecture | Longueur d'entrée maximale | Données d'entraînement | Développeur | Licence | HuggingFace? [11] | |
---|---|---|---|---|---|---|
KyotoUniBERT | BERT (base, large) | 512 | Wikipédia en japonais (18M articles) | Université de Kyoto Laboratoire de traitement des langues et des médias | Apache 2.0 | △ |
TohokuUniversityBERT | BERT (base, large) | 512 | base (v1): Wikipédia en japonais (17M articles / 2.6GB) base (v2) & large: Wikipédia en japonais 4.0GB base (v3) & large (v2): Wikipédia en japonais (4.9GB), Japanese CC‑100 (74.3GB) | Université de Tohoku - Groupe TAL | base (v1, v2) & large: CC BY‑SA 3.0 base (v3) & large (v2): Apache 2.0 | ◯ (base (v1), base (v1, char-level), base (v2), base (v2, char-level), large, large (char-level), base (v3), base (v3, char-level), large (v2), large (v2, char-level)) |
TohokuNLP BERT-alpha 500M | Llama-based encoder[12] | 4,096 or 8,192 | Japanese subset of llm-jp-corpus-v3 | Tohoku University NLP Group | Apache 2.0 | ◯ (sq4096-alpha, sq8192-alpha) |
NICT BERT | BERT (base) | 512 | Wikipédia en japonais | NICT | CC BY 4.0 | △ |
Laboro BERT | BERT (base, large) | 512 | Corpus web en japonais (Actualités, blogs, etc) (12GB) | Laboro.AI | CC BY‑NC 4.0 | ✕ |
colorfulscoop BERT | BERT (base) | 512 | Wikipédia en japonais | Colorful Scoop | CC BY‑SA 3.0 | ◯ |
UniversityOfTokyoBERT | BERT (small) | 512 | Wikipédia en japonais (2.9GB) | Université de Tokyo Izumi Lab | CC BY‑SA 4.0 | ◯ |
chiTra (Sudachi Transformers) | BERT (base) | 512 | NINJAL Web Japanese Corpus (148GB) | NINJAL, WAP Tokushima - Laboratoire IA et TAL | Apache 2.0 | △ |
ACCMS BERT | BERT (base) | 512 | Wikipédia en japonais (3.3GB) | Université de Kyoto ACCMS | CC BY‑SA 4.0 | ◯ |
HitachiBERT | BERT (base) | 512 | Wikipédia en japonais, Japanese CC‑100 | Hitachi | CC BY‑NC‑SA 4.0 | ◯[13] |
RetrievaBERT | BERT [14] | 2,048 | Japanese CommonCrawl, RefinedWeb, Chinese Wikipedia, Korean Wikipedia, The Stack | Retrieva | Apache 2.0 | ◯ |
Bandai Namco DistilBERT | DistilBERT | 512 | (Distillation de BERT (base) de l'Université du Tohoku) | Bandai Namco Research | MIT | ◯ |
Laboro DistilBERT | DistilBERT | 512 | (Distillation of Laboro BERT(base)) | Laboro.AI | CC BY‑NC 4.0 | ◯ |
LINE DistilBERT | DistilBERT | 512 | (Distillation de LINE en interne BERT model) | LINE | Apache 2.0 | ◯ |
rinna RoBERTa | RoBERTa (base) | 512 | Wikipédia en japonais, Japanese CC‑100 | rinna | MIT | ◯ |
WasedaRoBERTa | RoBERTa (base, large) | 512 | Wikipédia en japonais, Japanese CC‑100 | Waseda Kawahara Lab | CC BY‑SA 4.0 | ◯ (base, large, large (seq512))[15] |
InformatixRoBERTa | RoBERTa (base) | 512 | Wikipédia en japonais, Web Articles (25GB) | Informatix | Apache 2.0 | △ |
KyotoUniversityRoBERTa | RoBERTa (base, large) | 512 | Wikipédia en japonais, Japanese CC‑100 | Université de Kyoto Laboratoire de traitement des langues et des médias | CC BY‑SA 4.0 | ◯ (base (char-level), large (char-level)) |
YokohamaNationalRoBERTa | RoBERTa (base) | 512 | Wikipédia en japonais (3.45GB) | Université nationale de Yokohama - Mori Lab | Apache 2.0 | ◯ |
Megagon Labs RoBERTa | RoBERTa (base)[16] | 1,282 | Japanese mC4 (200M sentences) | Megagon Labs (Recruit Co.,Ltd.) | MIT | ◯ |
ACCMS RoBERTa | RoBERTa (base) | 512 | Wikipédia en japonais (3.3GB) + Japanese CC‑100 (70GB) | Université de Kyoto ACCMS | CC BY‑SA 4.0 | ◯ |
CinnamonELECTRA | ELECTRA (small) | 512 | Wikipédia en japonais | Cinnamon | Apache 2.0 | ◯ |
Megagon Labs ELECTRA | ELECTRA (base) | 512 | Japanese mC4 (200M sentences) | Megagon Labs (Recruit Co.,Ltd.) | MIT | ◯ |
UniversityOfTokyoELECTRA | ELECTRA (small, base) | 512 | Wikipédia en japonais (2.9GB) | Université de Tokyo Izumi Lab | CC BY‑SA 4.0 | ◯ (small, base) |
JapaneseRoFormer | RoFormer (base) | 512 | Wikipédia en japonais (3.45GB) | Université nationale de Yokohama - Mori Lab | Apache 2.0 | ◯ |
JapaneseLUKE | LUKE (base, large) | 512 | Wikipédia en japonais | Studio Ousia | Apache 2.0 | ◯ (base, large) |
KyotoUniversityDeBERTaV2 | DeBERTaV2 (tiny, base, large) | 512 | Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR (171GB) | Université de Kyoto - Laboratoire du traitement des langues et médias | CC BY‑SA 4.0 | ◯ (tiny, tiny (char-level), base, large) |
KyotoUniversityDeBERTaV3 | DeBERTaV3 (base) | 512 | llm-jp-corpus | Kyoto University Language Media Processing Lab | Apache 2.0 | ◯ |
UniversityOfTokyoDeBERTaV2 | DeBERTaV2 (small, base) | 512 | Wikipédia en japonais, Japanese Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR | University of Tokyo Izumi Lab | CC BY-SA 4.0 | ◯ (small, base) |
GLOBIS DeBERTaV3 | DeBERTaV3 (xsmall, base, large) | 512 | Wikipedia, WikiBooks, Aozora Bunko, Japanese CC-100, Japanese mC4, Japanese OSCAR | GLOBIS | CC BY-SA 4.0 | ◯ (xsmall, base, large) |
JapaneseBigBird | BigBird (base) | 4,096 | Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR | Waseda Kawahara Lab | CC BY‑SA 4.0 | ◯ |
JapaneseLayoutLM | LayoutLM (base) | 512 | Pre-trained on Japanese Wikipedia, initialized with TohokuUniversityBERT | The Japan Research Institute, Limited | CC BY-SA 3.0 | ◯ |
Spécifique à un domaine
Domaine | Architecture | Données d'entraînement | Développeur | Licence | HuggingFace? | |
---|---|---|---|---|---|---|
JapaneseBlogELECTRA | Langue familière | ELECTRA (small) | Corpus de blogs en japonais (354M sentences) | Université de technologie de Kitami - Laboratoire de Masui-Ptaszynski | CC BY‑SA 4.0 | ◯ |
JapaneseSpokenLanguageBERT | Langue parlée | BERT (base) | Formation supplémentaire pour TohokuUniversityBERT en utilisant le Corpus of Spontaneous Japanese (CSJ) (Dans le modèle DAPT, le compte rendu de la diète est également utilisé) | Retrieva | Apache 2.0 | ◯ |
AcademicRoBERTa | Science | RoBERTa (base) | CiNii Japanese Papers (6.3M sentences) | Université d'Ehime Laboratoire IA | Apache 2.0 | ◯ |
local-politics-BERT | Politique | BERT (base) | Procès-verbaux de la Diète nationale, Procès-verbaux de l'Assemblée locale | Projet de Corpus des Procès-Verbaux des Assemblées Locales Japonaises | CC BY-SA 4.0 | ◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) [17] |
UBKE-LUKE | Économie | LUKE (base) | Wikipédia en japonais, Rapports financiers, Articles de nouvelles économiques | Uzabase | CC BY-NC | ◯ |
JapaneseFinancialBERT | Finance | BERT (small, base)[18] | Wikipédia en japonais, Japanese Financial Corpus (27M sentences/5.2GB) | Université de Tokyo Izumi Lab | CC BY‑SA 4.0 | ◯ (small, base) |
JapaneseFinancialELECTRA | Finance | ELECTRA (small) | Wikipédia en japonais (20M sentences/2.9GB), Japanese Financial Corpus (27M sentences/5.2GB) | Université de Tokyo Izumi Lab | CC BY‑SA 4.0 | ◯ |
JapaneseNewsBERT | Affaires | BERT (base) | Articles sur l'économie en japonais(3M articles) | Stockmark | CC BY 4.0 | △ |
JapaneseNewsXLNet | Affaires | XLNet (base) | Articles sur l'économie en japonais (3M articles) | Stockmark | ? | ◯ ※ Version non officielle |
JapaneseNewsALBERT | Affaires | ALBERT (base) | Articles sur l'économie en japonais (3M articles) | Stockmark | ? | △ |
MinpakuBERT | Patrimoine culturel | BERT (base) | Formation supplémentaire avec les données du patrimoine culturel du Musée national d'ethnologie sur Tohoku University BERT | Université de Hyogo Ohshima Lab | MIT | ◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token) |
UTH-BERT | Médecine | BERT (base) | Dossiers médicaux en japonais (120M lignes) | Université de Tokyo Hôpital Cours de développement en IA pour la médecine | CC BY‑NC‑SA 4.0 | △ |
medBERTjp | Médecine | BERT (base) | Wikipédia en japonais, Corpus médical en japonais ("今日の診療プレミアム/Today's Care Premium" Web Version) | Université d'Osaka Hôpital Laboratoire d'information médicale | CC BY‑NC‑SA 4.0 | △ |
JMedRoBERTa | Médecine | RoBERTa (base) | Japanese Medical Papers (11M sentences/1.8GB) | NII Aizawa Lab | CC BY‑NC‑SA 4.0 | ◯ (ManbyoWordPiece, SentencePiece)[19] |
Plongement lexical par mots et par documents [20]
Bi-Encoders
Single-representation bi-encoders
Multi-representation bi-encoders
Développeur | Licence | |
---|---|---|
JaColBERTv2.5 (JaColBERTv2.4, JaColBERTv2.5) | Answer.AI | MIT |
JaColBERTv2 (JaColBERTv2) | Individuel (Benjamin Clavié) | MIT |
JaColBERT (JaColBERT) | Individuel (Benjamin Clavié) | MIT |
Cross-Encoders
Modèles Vision-Language
Text+Image vers Text
Modèles développés à partir de zéro
D'usage général
Architecture | Données d'entraînement | Développeur | License / Terms of Use | |
---|---|---|---|---|
llava-calm2-siglip (llava-calm2-siglip) | LLaVA-1.5 | coversational data generated from MS-COCO and VisualGenome | CyberAgent | Apache 2.0 |
LLM-jp-3 VILA 14B (14b) | LLaVA-1.5 | Japanese image text pairs, LLaVA-Pretrain, Japanese interleaved data, coyo (subset), mmc4-core (subset), llava-instruct-ja, japanese-photos-conv, ja-vg-vqa, synthdog-ja, LLaVA-1.5 instruction data (subset) | Research and Development Center for Large Language Models | Apache 2.0 & OpenAI Terms of Use |
Heron (blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1) | BLIP-2 / GIT | v1: LLaVA-Instruct-150K-JA or LLaVA-Instruct-620K-JA v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset | Turing | CC BY-NC 4.0 |
Japanese Stable VLM (japanese-stable-vlm) | LLaVA-1.5 | Japanese CC12M, STAIR Captions, jeu de données Japanese Visual Genome VQA | Stability AI | STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE |
Japanese InstructBLIP Alpha (japanese-instructblip-alpha) | InstructBLIP | Japanese CC12M, STAIR Captions, jeu de données Japanese Visual Genome VQA | Stability AI | JAPANESE STABLELM RESEARCH LICENSE |
rinna MiniGPT-4 (bilingual-gpt-neox-4b-minigpt4) | MiniGPT-4 | CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset | rinna | MIT |
Spécifique à un domaine
Architecture | Domaine | Développeur | Licence | |
---|---|---|---|---|
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm | LLaVA | Oogiri | Watashiha | Llama 2 Community License |
Modèles développés à partir d'VLM non-japonais
Base du Model | Données d'entraînement | Développeur | Licence | |
---|---|---|---|---|
AXCXEPT/EZO-InternVL2-26B | InternVL2 | - | Axcxept | MIT |
Modèles fusionnés
Modèles originaux (LLMs japonais en gras) | Développeur | Licence | |
---|---|---|---|
Llama-3-EvoVLM-JP-v2 (v2) | Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, Bunny-v1.1-Llama-3-8B-V | Sakana AI | Llama 3 Community License |
AXCXEPT/Llama-3-EZO-VLM-1 | (trained from Llama-3-EvoVLM-JP-v2) | Axcxept | Llama 3 Community License |
EvoVLM-JP (v1-7B) | Shisa Gamma 7B (v1), LLaVA-1.6-Mistral-7B | Sakana AI | Apache 2.0 |
Text vers Image
D'usage général
Architecture | Training Data | Développeur | License | |
---|---|---|---|---|
CommonArt β (commonart-beta) | PixArt-Σ | CommonCatalog-cc-by, Megalith-10M, Smithonian Open Access, ArtBench (CC-0 only) | AI Picasso | Apache 2.0 |
EvoSDXL-JP (v1) | Stable Diffusion | - (merged from several diffusion models, including Japanese Stable Diffusion XL) | Sakana AI | Apache 2.0[21] |
Japanese Stable Diffusion XL (japanese-stable-diffusion-xl) | Stable Diffusion | Inconnu | Stability AI | STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE |
TohokuUniversity Stable Diffusion (base, refiner) | Stable Diffusion | Corpus parallèle anglais-japonais de la tâche partagée WMT2023, environ 13 millions de légendes de laion2B-multi | Université de Tohoku - Groupe TAL | CreativeML OpenRAIL-M License |
rinna Stable Diffusion (japanese-stable-diffusion) | Stable Diffusion | LAION-5B Japanese Subset (100M images) | rinna | CreativeML OpenRAIL-M License |
Spécifique à un domaine
Architecture | Domaine | Développeur | Licence | |
---|---|---|---|---|
Evo-Nishikie (v1) | Stable Diffusion (ControlNet) | Ukiyo-e | Sakana AI | Apache 2.0[21:1] |
Evo-Ukiyoe (v1) | Stable Diffusion | Ukiyo-e | Sakana AI | Apache 2.0[21:2] |
Autres
Architecture | Données d'entraînement | Développeur | Licence | |
---|---|---|---|---|
LY CLIP (clip-japanese-base) | CLIP | CommonCrawl, CC12M, YFCC100M | LY Corp. | Apache 2.0 |
Recruit CLIP (japanese-clip-vit-b-32-roberta-base) | CLIP | environ 120 millions de légendes de laion2B-multi | Recruit Co.,Ltd. | CC BY-4.0 |
Japanese Stable CLIP (japanese-stable-clip-vit-l-16) | SigLIP | CC12M traduit en japonais, STAIR Captions | Stability AI | STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE |
rinna CLIP (japanese-clip-vit-b-16) | CLIP | CC12M traduit en japonais | rinna | Apache 2.0 |
rinna CLOOB (japanese-cloob-vit-b-16) | CLOOB | CC12M traduit en japonais | rinna | Apache 2.0 |
HAKUHODO Technologies CLIP (base, deeper, wider) | CLIP | about 120 million captions from laion2B-multi | HAKUHODO Technologies | CC BY-NC-SA 4.0 |
Modèles Speech-Language
Reconnaissance automatique de la parole
Architecture | Données d'entraînement | Développeur | Licence | |
---|---|---|---|---|
Kotoba-Whisper (v1.0, v1.0-ggml, v1.0-faster, v1.1, bilingual-v1.0, bilingual-v1.0-ggml, bilingual-v1.0-faster, v2.0, v2.0-ggml, v2.0-faster, v2.1, v2.2) | Distil-Whisper | ReazonSpeech | Kotoba Technologies | Apache 2.0 |
Nue ASR (nue-asr) | Nue ASR (HuBERT + LLM) | ReazonSpeech | rinna | Apache 2.0 |
ReazonSpeech (espnet-v1, espnet-next, espnet-v2, nemo-v2) | ESPnet (Conformer-Transducer) / NeMo (FastConformer-RNNT) | ReazonSpeech | Reazon Holdings | Apache 2.0 |
Autres
Architecture | Données d'entraînement | Développeur | Licence | |
---|---|---|---|---|
Kotoba-Speech (v0.1) | Transformer | undisclosed | Kotoba Technologies | Apache 2.0 |
UniversityOfTokyoHuBERT (base-jtube) | HuBERT | JTubeSpeech | University of Tokyo Saruwatari & Takamichi Lab | MIT |
rinna HuBERT (base, large) | HuBERT | ReazonSpeech | rinna | Apache 2.0 |
Reazon wav2vec 2.0 (base, large) | wav2vec 2.0 | ReazonSpeech | Reazon Holdings | Apache 2.0 |
rinna wav2vec 2.0 (base) | wav2vec 2.0 | ReazonSpeech | rinna | Apache 2.0 |
Standard d'évaluation pour les LLM en japonais
Benchmarks hybrides
Description | Développeur | |
---|---|---|
Nejumi LLM Leaderboard3 | Évalue les capacités linguistiques japonaises des LLM sous trois angles : compétence en compréhension linguistique, aptitude à l'application, et alignement (incluant le contrôle et la sécurité). Pour plus de détails, voir cet article. | Weights & Biases |
Japanese LLM Evaluation | Réalise une évaluation complète de divers LLM basés sur trois types de tâches : compréhension et génération du japonais, dialogues japonais multi-tours, et compréhension et génération en anglais. Publie également swallow-evaluation, un script d'évaluation qui intègre et améliore les outils existants d'évaluation des LLM. | Swallow Project |
Référence traditionnelle basé sur des tâches de Compréhension du langage naturel (NLU)
Description | Développeur | |
---|---|---|
Open Japanese LLM Leaderboard | Évalue les modèles de langage japonais dans 16 tâches différentes en utilisant llm-jp-eval. | LLM-jp, Hugging Face |
llm-jp-eval | Un outil qui évalue automatiquement les LLM japonais à travers plusieurs jeux de données. La liste complète des jeux de données pris en charge peut être trouvée ici (qui comprend également des tâches telles que JNLI et JCommonsenseQA de JGLUE). | LLM-jp |
JP Language Model Evaluation Harness | Un fork par Stability AI de EleutherAI/lm-evaluation-harness. Il s'agit d'un outil pour évaluer automatiquement les LLM japonais à travers plusieurs jeux de données. La liste complète des jeux de données pris en charge peut être trouvée ici (qui comprend également des tâches telles que JNLI et JCommonsenseQA de JGLUE). Il y a un résumé détaillé des résultats de l'évaluation par rinna : [rinna] Benchmark de Stability-AI/lm-evaluation-harness | Stability AI |
JGLUE | Version japonais de GLUE référence suite, avec les tâches MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, et JCommonsenseQA. JCoLA vient du laboratoire d'Oseki de l'université de Tokyo. Voir ici and here (ja only) pour plus d'informations sur chaque tâches. | Université de Waseda Laboratoire Kawahara et Yahoo |
JMMLU | Un benchmark construit comme une version japonaise du MMLU Benchmark, consistant en des questions à choix multiples de divers domaines académiques, y compris les sciences naturelles, les humanités et les sciences sociales. En plus de la traduction du MMLU original, il contient de nouveaux problèmes basés sur le contexte culturel unique du Japon (problèmes spécifiques au Japon). | Université de Waseda Laboratoire Kawahara |
Standard des tâches génératives ouvertes
Description | Développeur | |
---|---|---|
Japanese MT-bench | Version japonaise du MT-bench qui interroge sur la capacité à converser en plusieurs tournures. Il inclut 80 questions, 10 de chacune des 8 catégories : écriture, jeu de rôle, raisonnement, maths, codage, extraction, STEM, sciences humaines. Certaines questions ont été modifiées pour s'adapter à la culture japonaise lors de la création de la version japonaise. Il comprend également un script qui réalise une évaluation absolue en 10 niveaux par GPT-4. | Stability AI |
ELYZA-tasks-100 | Classement basé sur les réponses des modèles avec 100 tâches complexes et diverses, y compris les tâches testant la synthèse, la correction, l'abstraction, l'induction et d'autres compétences. Utilise des humains pour noter les réponses du modèle, puis classe les modèles en fonction de leurs scores moyens. | ELYZA |
Preferred Generation Benchmark (pfgen-bench) | Un banc d'essai pour mesurer la capacité des LLMs à générer du texte en japonais basé sur 50 questions de bon sens uniques au contexte japonais. Il évalue selon trois axes : fluidité, véracité et utilité. L'évaluation est réalisée sans utiliser LLM-as-a-Judge en calculant des métriques basées sur des n-grammes ou des règles. | Preferred Elements (Preferred Networks) |
Rakuda Benchmark | Classement basé sur les réponses des modèles avec 40 questions ouvertes la géographie, l'histoire, la politique, et la société japonaise. Utilise GPT-4 pour évaluer les résultats du modèle par paires, puis classe les modèles en ajustant le maximum de vraisemblance sur le modèle de probabilité d'Elo/Bradley-Terry avec les préférences de GPT-4. | YuzuAI |
Japanese Vicuna QA Benchmark | Il s'agit de la version japonaise de vicuna-blog-eval, qui est le précurseur de MT-Bench. Il comprend 80 questions sur la connaissance générale, le jeu de rôle, le bon sens, l'estimation de Fermi, la pensée contrefactuelle, le codage, les mathématiques, et l'écriture. Il comprend également un script pour une évaluation automatique par GPT-4 (calcul du taux de victoire). Le tableau de classement peut être trouvé ici. | Université de Kyoto Laboratoire de traitement des langues et des médias |
Tengu-Bench | Comprend 120 questions ouvertes de diverses catégories. Catégories de questions : interprétation des tableaux, puzzles logiques, génération d'idées, appel de fonctions, résumé de longs documents (plus de mille jetons), résumé de conversations, questions fermées sur des longs documents (plus de mille jetons), honorifiques, création de projet, mathématiques, traduction, extraction, contrôle éthique, estimation des coûts, Japon, bavardage, calembours, formatage, construction, affaires, jugement juridique, politique, questions hypothétiques. | Lightblue |
Shaberi | Un cadre qui peut évaluer collectivement le Japanese MT-bench, le Rakuda Benchmark, le ELYZA-tasks-100, et le Tengu-Bench. Il existe également un fork de Shisa.AI. | Lightblue |
Benchmarks pour mesurer la performance dans des domaines spécifiques
Description | Développeur | |
---|---|---|
Japanese Language Model Financial Evaluation Harness | Un benchmark pour les LLM japonais dans le secteur financier. Il comprend des tâches telles que l'analyse des sentiments dans la finance (chabsa), des tâches de connaissances de base en analyse de titres (cma_basics), des tâches relatives aux audits dans les examens de comptable public certifié (cpa_audit), des tâches à questions à choix multiple dans les examens de planificateur financier (fp2), et des tâches d'examen blanc pour les examens de vendeurs de titres (security_sales_1). Pour plus de détails, veuillez consulter ici. | Preferred Networks |
pfmt-bench-fin-ja | Un benchmark pour mesurer les capacités de génération des LLM japonais dans le domaine financier. | Preferred Networks |
Stockmark Business Questions | La collection comprend 50 questions qui approfondissent les connaissances sur des sujets tels que les tendances du marché, l'actualité, les problèmes sociaux et les tendances commerciales. | Stockmark |
JMED-LLM | Un ensemble de données pour évaluer les LLM dans le domaine médical japonais. Il compile des tâches de traitement du langage médical japonais développées précédemment pour le benchmarking des LLM. | NAIST Social Computing Lab. |
JMedBench | Un benchmark pour les LLM dans le domaine médical japonais. Il comprend 20 ensembles de données dans 5 types de tâches : questions-réponses à choix multiple, traduction automatique, reconnaissance d'entités nommées, classification de documents, et similarité textuelle sémantique (certains ensembles de données sont empruntés à JMMLU et JMED-LLM). Un outil appelé med-eval est développé pour faciliter l'évaluation sur JMedBench. | NII Aizawa Lab |
Japanese Medical Language Model Evaluation Harness | Un benchmark pour évaluer les LLM japonais dans le domaine médical en japonais et en anglais, exécutable par une seule commande. | Individuel (Issey Sukeda) |
karakuri-bench | Un ensemble de données pour mesurer la performance des LLM japonais dans le support client. | KARAKURI |
Benchmarks pour mesurer la factualité et la sécurité
Description | Développeur | |
---|---|---|
JTruthfulQA | La version japonaise du dataset pour évaluer la factualité des LLM TruthfulQA. Il comprend des questions sur les superstitions et d'autres croyances tenues par certaines personnes qui ne sont pas factuelles, ainsi que des questions sur les connaissances spécifiques au Japon, le tout collecté à partir de zéro. | Waseda University Kawahara Lab |
JCommonsenseMorality | Un dataset sur la moralité de sens commun japonaise. Les phrases décrivant des actions sont étiquetées avec des valeurs binaires indiquant si elles sont moralement répréhensibles ou acceptables. | Hokkaido University Language Media Lab |
JBBQ | La version japonaise du dataset de questions-réponses sur les biais sociaux BBQ, développée par la traduction, la révision et l'ajout de questions basées sur la culture et les coutumes japonaises. | University of Tokyo Yanaka Lab |
Benchmarks pour mesurer les capacités de raisonnement logique
Description | Développeur | |
---|---|---|
JFLD (Japanese Formal Logic Deduction) | Un dataset pour évaluer les capacités de raisonnement déductif des LLM japonais (la version japonaise de la FLD (Formal Logic Deduction) proposée par les mêmes auteurs). Il se caractérise par le fait qu'il est composé d'exemples contrefactuels pour évaluer indépendamment des connaissances que possède le LLM. | Hitachi |
JHumanEval | Une version japonaise du benchmark HumanEval, qui évalue la capacité à générer du code Python à partir d'instructions en anglais. En créant la version japonaise, le texte a d'abord été traduit automatiquement, puis corrigé manuellement. | Université des Femmes du Japon - Laboratoire Kuramitsu |
Benchmarks pour la génération de texte contrôlée
Description | Développeur | |
---|---|---|
LCTG Bench | Un benchmark pour la contrôlabilité des LLM japonais. Il évalue si les LLM peuvent adhérer à des contraintes sur quatre aspects : le format de sortie, le nombre de caractères, les mots-clés et les mots interdits. La qualité du texte généré est également évaluée. | CyberAgent |
Benchmarks pour modèles d'embeddings
Description | Développeur | |
---|---|---|
JMTEB | Un benchmark développé comme la version japonaise de MTEB. Il se compose de tâches telles que le regroupement de documents, la classification de textes, la similarité de phrases, la prédiction d'étiquetage de paires de phrases et l'extraction de texte (une tâche de reclassement a été récemment ajoutée). | SB Intuitions |
JQaRA | Un ensemble de données pour évaluer l'extraction de documents japonais et la précision du reclassement. Chacune des 1,667 questions est attribuée à 100 documents candidats, dont au moins un peut répondre à la question. Les questions sont tirées de JAQKET, et les documents candidats proviennent de Wikipédia japonais. | Individuel (Yuichi Tateno) |
JaCWIR | Un ensemble de données créé pour évaluer l'extraction de documents et le reclassement dans des domaines autres que Wikipédia. Chacune des 5,000 questions est attribuée à une page Web servant de source pour la question et à 99 pages Web sans rapport. | Individuel (Yuichi Tateno) |
Benchmarks pour modèles vision-langage
Description | Développeur | |
---|---|---|
JMMMU | Un benchmark construit comme la version japonaise du MMMU Benchmark. Il se compose de 720 problèmes traduits du MMMU et de 600 nouveaux problèmes uniques à la culture japonaise. | University of Tokyo Aizawa Lab |
JDocQA | Un jeu de données de questions-réponses basé sur des documents japonais (brochures, diapositives, rapports, sites web), comprenant un total de 11 600 questions. Il inclut divers formats de questions, y compris des questions non répondables. | NAIST Watanabe Lab |
Heron VLM Leaderboard powered by Nejumi/WandB | Résume les résultats d'évaluation de Japanese-Heron-Bench et LLaVA-Bench-In-the-Wild (Japanese). | Turing, Weights & Biases |
Japanese-Heron-Bench | 21 images se voient attribuer un total de 102 questions. Il est caractérisé par des paires image-question qui nécessitent une connaissance liée au Japon. | Turing |
JA-VLM-Bench-In-the-Wild | Un jeu de données préparé indépendamment par Sakana AI pour évaluer EvoVLM-JP-v1-7B. Il se compose de 50 questions attribuées à 42 images. Il se caractérise par des images et des questions qui exigent une connaissance du Japon. | Sakana AI |
JA-Multi-Image-VQA | Un jeu de données pour évaluer la capacité de question-réponse en japonais pour plusieurs images. | Sakana AI |
LLaVA-Bench-In-the-Wild (Japanese) | Ceci est la version japonaise de LLaVA-Bench-In-the-Wild, traduite à l'aide de DeepL. Il se compose de 60 questions attribuées à 24 images. | Turing |
LLaVA-Bench (COCO) Japonais | Il s'agit de la version japonaise, traduite par DeepL, du jeu de données LLaVA-Bench (COCO) utilisé pour évaluer LLaVA. Il se compose de 30 images, chacune avec 3 types de questions qui leur sont attribuées. | Turing |
Japanese Visual Genome VQA dataset | Un jeu de données de questions-réponses annotées basé sur des images du Visual Genome dataset. Un sous-ensemble de ce jeu de données, JA-VG-VQA-500, composé de 500 questions, est parfois utilisé comme benchmark pour évaluer les VLMs. | Yahoo |
Références pour les modèles et les architectures
Références pour les méthodes d'entraînement
PPO (RLHF) | 2017.07.20 | - | Proximal Policy Optimization Algorithms |
Instruction Tuning (Supervised Fine-tuning; SFT) | 2021.09.03 | ICLR 2022 | Finetuned Language Models Are Zero-Shot Learners |
Sparse Upcycling | 2022.12.09 | ICLR 2023 | Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints |
DPO | 2023.05.29 | NeurIPS 2023 | Direct Preference Optimization: Your Language Model is Secretly a Reward Model |
SteerLM | 2023.10.09 | EMNLP 2023 (Findings) | SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF |
ORPO | 2024.03.12 | EMNLP 2024 | ORPO: Monolithic Preference Optimization without Reference Model |
Nos contributeurs
Nous aimons les contributeurs ! N'hésitez pas à contribuer à ce projet.
Citation
La synthèse de ce répertoire est également publiée sous forme de prépublication: Exploring Open Large Language Models for the Japanese Language: A Practical Guide
Lorsque vous référencez ce répertoire, veuillez le citer comme suit:
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
Quelques modifications architecturales ont été apportées. Pour plus de détails, référez-vous à : 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 ↩︎
Référez-vous aux articles suivants: 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など, 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー ↩︎ ↩︎
Certaines améliorations de performances ont été apportées au modèle Llama original. Voir ici pour plus détails. ↩︎
Les détails n'ont pas été rendus publics, mais l'ensemble de données privé comprend des jeux de données de l'équipe japonaise du projet EleutherAI Polyglot et des membres de Stable Community Japan. ↩︎
Ce projet a mené des recherches d'évaluation sur l'utilisation de la génération de droite à gauche au lieu de la génération habituelle de gauche à droite, en publiant des modèles de gauche à droite et de droite à gauche. ↩︎
Avant de procéder à l'ajustement des instructions, un vecteur de chat entre Llama 3 Instruct et Llama 3 Base est ajouté. ↩︎ ↩︎
Après avoir effectué un ajustement des instructions, un vecteur de chat entre Llama 3 Instruct et Llama 3 Base est ajouté. ↩︎ ↩︎
Cependant, si une utilisation commerciale de KARAKURI LM est souhaitée, un contact direct avec le développeur, KARAKURI Inc., est requis. ↩︎
Dans l'ajustement des instructions, comme il utilise des données générées par les modèles d'OpenAI, tels que GPT-3.5, GPT-4, etc. pour l'entraînement, il se peut qu'il viole les termes d'OpenAI. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Avant de procéder à l'ajustement des instructions, un vecteur de chat entre Gemma 2 Instruct et Gemma 2 Base est ajouté. ↩︎
○: Le modèle se trouve sur le Model Hub d'HuggingFace et peut être chargé avec la commande
AutoModel.from_pretrained()
. △: Le modèle ne se trouve pas sur le Model Hub mais peut être chargé manuellement avec la bibliothèque de transformateurs HuggingFace. ✕: Le modèle ne se charge pas avec HuggingFace. ↩︎En supprimant l'attention causale de Llama, il est utilisé comme un modèle de type encodeur. ↩︎
Ce projet a mené des recherches d'évaluation sur l'analyse morphologique avant la tokenisation et a publié son modèle le plus performant, qui utilisait Juman++ et BPE. ↩︎
Cependant, la longueur de séquence maximale a été étendue à 2048, et diverses modifications architecturales ont été apportées par rapport au BERT d'origine. Voir le README du dépôt HuggingFace pour plus de détails. ↩︎
nlp-waseda/roberta-base-japanese et nlp-waseda/roberta-large-japanese entrainé avec une longueur de context 128 token, mais nlp-waseda/roberta-large-japanese-seq512 étendu la longueur du contexte à 512. ↩︎
Étendu la longueur du contexte de 128 à 512. ↩︎
Pour les détails de chaque modèle, veuillez vous référer au Chapitre 4 de l'article des auteurs. Notez que le modèle SC-2M-wiki n'est strictement pas un modèle spécifique à un domaine car il est pré-entraîné uniquement sur Wikipédia. ↩︎
Le modèle "Small" s'entraîne sur Wikipédia japonais et le Corpus financier japonais simultanément, tandis que le modèle "Base" prend le TohokuUniversityBERT et dispense un apprentissage supplémentaire sur le Corpus financier japonais. ↩︎
ManbyoWordPiece lance une étape de prétokenization en utilisant MeCab (IPA+Manbyo dictionaries), puis utilise WordPiece pour la tokenization sous-mots, pendant que le modèle SentencePiece segmente le texte directement en utilisant un modèle unigram. ↩︎
La classification des modèles d'intégration a été référencée à partir de Dense Text Retrieval based on Pretrained Language Models: A Survey (Zhao+, 2022). L'architecture Bi-Encoder insère deux entrées distinctes dans le modèle et vectorise chacune d'elles, en utilisant leur produit scalaire ou la similarité cosinus comme mesure de leur proximité. En revanche, l'architecture Cross-Encoder insère les entrées combinées dans le modèle pour calculer directement leur proximité en interne. Bien que les Cross-Encoders entraînent des coûts de calcul plus élevés, ils sont souvent utilisés comme rerankers dans l'extraction d'informations en raison de leur capacité à calculer plus précisément la proximité des entrées. Parmi les Bi-Encoders, il existe des types (par exemple, ColBERT) qui représentent l'entrée en tant que multiples vecteurs (comme un par token) plutôt qu'un seul vecteur, d'où une classification supplémentaire en bi-encodeurs à représentation unique et bi-encodeurs à représentation multiple. ↩︎
Cependant, il appelle à la réflexion pour l'utilisation dans la recherche et l'éducation. De plus, soyez conscient que certaines des licences pour les modèles sources ne sont pas Apache 2.0. ↩︎ ↩︎ ↩︎