Aperçu des grands modèles de langage (LLM) en japonais

[ English | Français | 日本語 ]

📖 Veuillez consulter la version Web plus lisible
Le contenu de ce README est disponible dans un format plus lisible sur llm-jp.github.io/awesome-japanese-llm. Nous recommandons de consulter la version Web pour éviter les problèmes d'affichage des tableaux et de mise en page.

LLMs en japonais et en non-japonais par taille de paramètres au fil du temps

Evolution du nombre de paramètres des LLMs en japonais et en non-japonais. Pour des informations sur le modèle japonais, nous nous référons à cet article, et pour le modèle non-japonais, nous nous référons au tableau des modèles sur LifeArchitect.ai (notez cependant que certains modèles ont été omis en raison de l'espace limité sur le graphique. De plus, le nombre de paramètres pour le modèle non-japonais inclut des valeurs estimées). Veuillez nous informer de toute correction ou ajout nécessaire.

Avis de mise à jour de la figure

La figure ci-dessus est basée sur des données jusqu'à la fin de 2024 et n'a pas été mise à jour depuis 2025. Ceci est dû au fait que le développement récent des LLM s'est déplacé de l'augmentation du nombre de paramètres vers la concurrence par l'amélioration des méthodes d'entraînement et des jeux de données. Veuillez vous référer aux tableaux ci-dessous pour les informations les plus récentes sur les modèles.

Voici une liste des LLMs disponibles au grand public, axés sur l'apprentissage du japonais, ainsi que leurs critères d'évaluation. Cette liste est maintenue par des bénévoles qui collectent des informations à partir de diverses sources telles que des articles académiques et d'autres ressources publiques.

Attention

Nous ne pouvons garantir l’exactitude ou l’exhaustivité des informations présentées ici.
Certaines informations sont basées sur des conjectures et peuvent ne pas refléter votre cas d'utilisation spécifique.
Bien que de nombreux modèles soient publiés sous des licences permissives telles que MIT ou Apache 2.0, certains modèles sont soumis à des conditions plus restrictives, notamment des clauses d'utilisation non commerciale (exemple CC BY-NC-SA 4.0) ou d'autres modalités légales et contractuelles

N'hésitez pas à signaler les erreurs sur la page issues. N'hésitez pas également à contribuer directement avec une pull request.

Table des matières

Modèles IA génératives

Pour les modèles multimodal, voir ci-dessous.

Modèles développés à partir de zéro

D'usage général

	Année de sortie	Architecture	Longueur Maximale du Contexte	Données d'entraînement	Développeur	Licence / Conditions d'utilisation
Sarashina2-8x70B	2024	MoE (8x70b (465b))	8,192	Sparse Upcycling on Sarashina2 (70B)	SB Intuitions	Sarashina Model NonCommercial License
LLM-jp-3 172B	2024	Llama (172b, 172b-instruct2, 172b-instruct3)	4,096	Pre-training: llm-jp-corpus-v3 (2.1T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k DPO (instruct3 only): aya-ja-evol-inst, ac-self-inst	Research and Development Center for Large Language Models	Pre-trained model: LLM-jp-3 172B Terms of Use Post-trained model: llm-jp-3-172b-instruct3 Terms of Use
LLM-jp-3 172B beta2	2024	Llama (172b-beta2, 172b-beta2-instruct2)	4,096	Pre-training: part of llm-jp-corpus-v3 (1.4T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k	Research and Development Center for Large Language Models	LLM-jp-3 172B beta2 Terms of Use
LLM-jp-3 172B beta1	2024	Llama (172b-beta1, 172b-beta1-instruct)	4,096	Pre-training: part of llm-jp-corpus-v3 (0.7T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN	Research and Development Center for Large Language Models	LLM-jp-3 172B beta1 Terms of Use
LLM-jp-3 172B alpha	2024	Llama (172b-alpha1, 172b-alpha1-instruct, 172b-alpha2, 172b-alpha2-instruct)	4,096	Pre-training: part of llm-jp-corpus-v3 (alpha1: 0.7T tokens, alpha2: 1.4T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN	Research and Development Center for Large Language Models	Apache 2.0
Stockmark-2-100B-Instruct-beta	2025	Llama (100B-Instruct-beta, 100B-Instruct-beta-AWQ)	4,096	Pre-training: 1.5T tokens Instruction Tuning DPO	Stockmark	MIT
Stockmark-100b	2024	Llama (100b, 100b-instruct-v0.1)	4,096	Pre-training: RedPajama, Wikipedia en japonais, Japanese mC4, Japanese CommonCrawl, Japanese Patent, Stockmark Web Corpus (910B tokens) Instruction Tuning (LoRA): ichikara-instruction	Stockmark	MIT
PLaMo-100B-Pretrained	2024	Llama^[1] (100b)	4,096	Pre-training: Japanese CommonCrawl, RefinedWeb, undisclosed (2.0T tokens)	Preferred Elements (Preferred Networks)	PLaMo Non-Commercial License
LLM-jp-3.1	2025	Llama/MoE (8x13b-instruct4, 13b-instruct4, 1.8b-instruct4)	4,096	Pré-entraînement: llm-jp-corpus-v3 (2.5T jetons) Pré-entraînement continu: paires instruction-réponse (90B jetons) SFT + DPO	Research and Development Center for Large Language Models	Apache 2.0
LLM-jp-3 MoE	2025	MoE (8x1.8b (9.3b), 8x1.8b (9.3b)-instruct2, 8x1.8b (9.3b)-instruct3, 8x13b (73b), 8x13b (73b)-instruct2, 8x13b (73b)-instruct3)	4,096	Drop-Upcycling on LLM-jp-3 (1.8b, 13b)	Research and Development Center for Large Language Models	Apache 2.0
Sarashina2	2024	Llama (7b, 13b, 70b)	7b, 13b: 4,096 70b: 8,192	Pre-training: Japanese Common Crawl, SlimPajama, StarCoder (2.1T tokens)	SB Intuitions	MIT
Sarashina1	2024	GPT-NeoX (7b, 13b, 65b)	2,048	Pre-training: Japanese Common Crawl (1T tokens)	SB Intuitions	MIT
Tanuki-8×8B	2024	MoE (47b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)	4,096	Pre-training: various Web & synthetic datasets（1.7T tokens） SFT, DPO: various synthetic datasets ^[2]	Matsuo Lab LLM Development Project	Apache 2.0
CyberAgentLM3 (CALM3)	2024	Llama (22b-chat, 22b-chat-selfimprove-experimental)	16,384	undisclosed (2.0T tokens)	CyberAgent	Apache 2.0
LLM-jp-3 13B instruct3	2025	Llama (150m, 150m-instruct2, 150m-instruct3, 440m, 440m-instruct2, 440m-instruct3, 980m, 980m-instruct2, 980m-instruct3, 1.8b-instrcut2, 1.8b-instruct3, 3.7b-instruct2, 3.7b-instruct3, 7.2b-instruct2, 7.2b-instruct3, 13b-instruct2, 13b-instruct3)	4,096	Pre-training: llm-jp-corpus-v3 (2.1T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, Synthetic-JP-EN-Coding-Dataset-567k DPO (instruct3 only): aya-ja-evol-inst, ac-self-inst	Research and Development Center for Large Language Models	Apache 2.0
LLM-jp-3 13B	2024	Llama (1.8b, 1.8b-instruct, 3.7b, 3.7b-instruct, 7.2b, 7.2b-instruct, 13b, 13b-instruct)	4,096	Pre-training: llm-jp-corpus-v3 (2.1T tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k	Research and Development Center for Large Language Models	Apache 2.0
llm-jp-3-3.7b-instruct-EZO	2024	Llama (3.7b-instruct-EZO-Common, 3.7b-instruct-EZO-Humanities)	4,096	additionally trained on LLM-jp-3 (3.7B)	Axcxept	Apache 2.0
LLM-jp-13B v2.0	2024	Llama (13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)	4,096	Pre-training: llm-jp-corpus-v2 (260B tokens) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2	LLM-jp	Apache 2.0
Fugaku-LLM	2024	GPT (13B, 13B-instruct, 13B-instruct-gguf)	2,048	Pre-training: undisclosed dataset Instruction Tuning: OASST1, Dolly Dataset, GSM8K	Titech, Tohoku Univ., Fujitsu, RIKEN, Nagoya Univ., CyberAgent, Kotoba Technologies	Fugaku-LLM Terms of Use
LLM-jp-13B v1.1	2024	GPT (13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)	2,048	Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction DPO (LoRA): HH RLHF	LLM-jp	Apache 2.0
LLM-jp-13B	2023	GPT (1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)	2,048	Pré-entraînement: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (300B tokens) Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1	LLM-jp	Apache 2.0
PLaMo-13B	2023	Llama^[3] (13b, 13b-instruct, 13b-instruct-nc)	base: 4,096 instruct, instruct-nc: 8,192	Pré-entraînement: C4, Project Gutenberg, RedPajama, Japanese Wikipedia, Japanese mC4 (1.5T tokens) Instruction Tuning: Dolly, HH RLHF, OASST1, wikinews (+Alpaca in NC model)	Preferred Networks	Apache 2.0 (CC BY-NC 4.0 as for NC model)
Stockmark-13b	2023	Llama (13b, 13b-instruct)	2,048	Wikipedia en japonais, Japanese CC-100, Japanese mC4, Japanese CommonCrawl, Japanese Patent, Stockmark Web Corpus (220B tokens) Instruction Tuning (LoRA): ichikara-instruction	Stockmark	base: MIT instruct: CC BY-NC-SA 4.0
Weblab-10B	2023	GPT-NeoX (10b, 10b-instruction-sft)	2,048	Japanese mC4, The Pile (600B tokens) Instruction Tuning: Alpaca, FLAN	Université de Tokyo Matsuo Lab	CC BY‑NC 4.0
PLaMo 2.1 8B	2025	hybrid architecture like Samba (8b-cpt)	32,768	Détails d'entraînement non divulgués	Preferred Networks	PLaMo community license
PLaMo 2 8B	2025	hybrid architecture like Samba (8b)		mainly Japanese and English data (6T tokens)	Preferred Networks	PLaMo community license
Tanuki-8B	2024	Tanuki (8b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)	4,096	Pre-training: various Web & synthetic datasets（1.3T tokens） SFT, DPO: various synthetic datasets ^[2:1]	Matsuo Lab LLM Development Project	Apache 2.0
Japanese StableLM Alpha	2023	GPT-NeoX (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)	2,048	Wikipédia, Japanese CC‑100, Japanese mC4, Japanese OSCAR, RedPajama, ensembles de données privés^[4] (750B tokens) Instruction Tuning: Dolly, HH‑RLHF, wikinews, Alpaca (discarded in v2)	Stability AI	base: Apache 2.0 instruct (v1): Research license instruct (v2): Apache 2.0
CyberAgentLM2 (CALM2)	2023	Llama (7b, 7b-chat, 7b-chat-dpo-experimental)	base: 4,096 chat: 32,768	Ensembles de données japonais et anglais accessibles au public (détails inconnus) (1.3T tokens) DPO: Chatbot Arena Conversations JA (calm2) Dataset	CyberAgent	Apache 2.0 (CC BY 4.0 as for DPO model)
OpenCALM	2023	GPT-NeoX (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))	2,048	Wikipedia en japonais, Japanese mC4, Japanese CC‑100	CyberAgent	CC BY‑SA 4.0
Stormy	2023	GPT-NeoX (7b(6.8b))	2,048	OpenCALM fine-tuned sur llm-japanese-dataset v0 sans âches de traduction	Université de Tokyo Izumi Lab	CC BY‑SA 4.0
rinna GPT (En-Ja Bilingual)	2023	GPT-NeoX (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)	8k model: 8,192 others: 2,048	Wikipedia, Japanese CC‑100, Japanese C4, RedPajama, The Pile (524B tokens) Instruction Tuning: HH‑RLHF, FLAN PPO: HH‑RLHF par apprentissage par renforcement 8k: entrainé sur du long texte	rinna	MIT
japanese-large-lm	2023	GPT-NeoX (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)	2,048	Wikipedia en japonais, Japanese CC‑100, Japanese C4, Japanese OSCAR et ensembles de données privés (650GB) Instruction Tuning: OASST1	LINE	Apache 2.0
rinna GPT (Japanese only)	2023	GPT / GPT-NeoX (xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)	≤ 2,048	Wikipédia en japonais, Japanese CC‑100 (1b et plus modèles à ajouter Japanese mC4) Instruction Tuning: HH‑RLHF, FLAN, SHP PPO: HH‑RLHF par apprentissage par renforcement	rinna	MIT
Sarashina2.2	2025	Llama (0.5b, 0.5b-instruct-v0.1, 1b, 1b-instruct-v0.1, 3b, 3b-instruct-v0.1)	8,192		SB Intuitions	MIT
RetrievaT5	2023	T5 (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))		Wikipédia en japonais, Japanese mC4	Retrieva	CC BY‑SA 4.0
Spiral-RetNet-3b-base	2024	RetNet (3b)	2,048	Wikipedia, Japanese CC-100, CulturaX	Spiral.AI	MIT
kotomamba-2.8B	2024	Mamba (2.8B-v1.0)	2,048	Wikipedia en japonais, Swallow Corpus, SlimPajama	Kotoba Technologies	Apache 2.0
ABEJA GPT	2022	GPT / GPT-NeoX (large, neox-2.7b)		Japanese Wikipedia, Japanese CC‑100, Japanese OSCAR	ABEJA	MIT
PLaMo 2.1 2B	2025	Causal decoder-only transformer (2b-cpt)	32,768	Détails d'entraînement non divulgués	Preferred Networks	PLaMo community license
Rakuten AI 2.0 mini	2025	Mistral (mini(1.5b), mini(1.5b)-instruct)	131,072		Rakuten	Apache 2.0
WasedaGPT	2022	GPT (small, xl(1.5b))		Wikipédia en japonais, Japanese CC‑100	Université de Waseda Kawahara Lab	CC BY‑SA 4.0
StockmarkGPT	2023	GPT-NeoX (1.4b)		Wikipédia en japonais (0.88B tokens), Japanese CC‑100 (10.5B tokens), ensembles de données privés (8.6B tokens)	Stockmark	MIT
YellowbackGPT	2021	GPT-NeoX (1.3b)		Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR	Yellowback	Apache 2.0
PLaMo 2 1B	2025	hybrid architecture like Samba (1b)		mainly Japanese and English data (4T tokens)	Preferred Elements (Preferred Networks)	Apache 2.0
Sarashina2.1-1B	2024	Llama (1b)	8,192	Japanese and English data on the web (10T tokens)	SB Intuitions	Sarashina Model NonCommercial License
colorfulscoop GPT	2021	GPT (small)		Wikipédia en japonais	Colorful Scoop	CC BY‑SA 3.0
TitechGPT	2023	GPT (medium, medium-reversed) ^[5]		Wikipédia en japonais, Japanese CC‑100	Titech Okazaki Lab	CC BY‑SA 4.0
KyotoUniversityGPT	2022	GPT (small, medium, large)		Wikipédia en japonais (3.2GB), Japanese CC‑100 (85GB), Japanese OSCAR (54GB)	Université de Kyoto Laboratoire de traitement des langues et des médias	CC BY‑SA 4.0
JapaneseBART	2023	BART (base, large)		Wikipédia en japonais (18M sentences)	Université de Kyoto Laboratoire de traitement des langues et des médias	CC BY‑SA 4.0
Megagon Labs T5	2021	T5 (base)		Japanese mC4 (782 GB), Wikipédia en japonais 40b (2 GB)	Megagon Labs (Recruit Co.,Ltd.)	Apache 2.0

Spécifique à un domaine

	Domaine	Architecture	Données d'entraînement	Développeur	Licence
SIP-med-LLM/SIP-jmed-llm-2-8x13b-OP-instruct	Médical	MoE	Pré-entraîné sur un corpus médical (44,2 milliards de tokens) ajouté à LLM-jp-3 MoE (8x13b), suivi d'un ajustement fin par instructions	Groupe de recherche du Programme stratégique d'innovation (SIP), Projet de phase 3 « Utilisation de l'IA générative dans la construction de systèmes de santé intégrés », Thème 1 « Développement et implémentation sociale d'un LLM médical ouvert, sûr et fiable »	Apache 2.0
Japanese Dialog Transformer	Dialogue	Transformer	Pairs de réponses venant de Twitter	NTT	Licence en évaluation
Japanese News BART	Affaires	BART (base)	Articles de l'actualité économique en japonais (21M articles)	Stockmark	MIT
AcademicBART	Science	BART (base)	Articles japonais de CiNii	Laboratoire d'IA de l'Université d'Ehime	Apache 2.0

Modèles développés à partir d'LLM non-japonais (avec un apprentissage en continue en japonais)

D'usage général

	Année de publication	Base du Model	Données d'entraînement	Développeur	Licence / Conditions d'utilisation
Llama 3.3 Swallow 70B (70B-v0.4, 70B-Instruct-v0.4)	2025	Llama 3.3 (70b)	Pre-training: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1, Swallow-Code-v0.3-Instruct-style	Swallow Project	Llama 3.3 Community License & Gemma Terms of Use
Llama 3.1 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1, 70B-Instruct-v0.3)	2024	Llama 3.1 (70b)	Pre-training: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie	Swallow Project	Llama 3.1 Community License (Gemma Terms of Use is also applied to the Instruct model)
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407	2024	Llama 3.1 (70b)	undisclosed	CyberAgent	Llama 3.1 Community License
Llama 3 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1)	2024	Llama 3 (70b)	Pre-training: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 ^[6]	Swallow Project	Llama 3 Community License
turing-motors/Llama-3-heron-brain-70B-v0.3	2024	Llama 3 (70b)	additionally trained on Llama 3 Swallow 70B (details undisclosed)	Turing	Llama 3 Community License
Llama 3 Youko 70B (70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq)	2024	Llama 3 (70b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (5B tokens) Instruction Tuning: undisclosed datasetト^[7]	rinna	Llama 3 Community License
Swallow 70B (70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf)	2023	Llama 2 (70b)	Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1: OASST1, OASST2	Swallow Project	Llama 2 Community License
KARAKURI LM (70b-v0.1, 70b-chat-v0.1)	2024	Llama 2 (70b)	Pre-training: mC4, CC100, OSCAR, RedPajama, undisclosed dataset (16B tokens) SteerLM: OASST2, undisclosed dataset	KARAKURI	Llama 2 Community License^[8]
Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b)	2023	Llama 2 (70b)	Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1	Stability AI	Llama 2 Community License
Swallow-MX 8x7B (8x7b-NVE-v0.1)	2024	Mixtral-8x7B-Instruct-v0.1 (46.7b)	Pre-training: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault	Swallow Project	Apache 2.0
KARAKURI LM 8x7B Instruct v0.1 (8x7b-instruct-v0.1)	2024	Mixtral-8x7B-Instruct-v0.1 (46.7b)	trained Swallow-MX 8x7B on the following datasets: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, undisclosed dataset	KARAKURI	Apache 2.0 (?)^[9]
KARAKURI LM 8x7B Chat v0.1 (8x7b-chat-v0.1)	2024	Mixtral-8x7B-Instruct-v0.1 (46.7b)	trained Swallow-MX 8x7B on OASST2, HelpSteer, and undisclosed datasets using SteerLM	KARAKURI	Apache 2.0
ABEJA-Mixtral-8x7B-japanese (8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged)	2024	Mixtral-8x7B-Instruct-v0.1 (46.7b) *Le modèle sans "Instruct" dans son nom est basé sur Mixtral-8x7B-v0.1	Pre-training: Japanese CC, Redpajama, undisclosed dataset （450B tokens）	ABEJA	Apache 2.0
ELYZA-Thinking-1.0-Qwen-32B (32B)	2025	Qwen 2.5 (32b)	Pre-training + SFT (Reasoning)	ELYZA	Apache 2.0
ELYZA-Shortcut-1.0-Qwen-32B (32B)	2025	Qwen 2.5 (32b)	Pre-training + SFT	ELYZA	Apache 2.0
ABEJA-Qwen2.5-32b-Japanese-v1.0 (v1.0)	2025	Qwen2.5-32B-Instruct (32b)	Pré-entraînement continu + SFT + DPO : ~20 000 jeux de données synthétiques et annotés humainement (spécialisés pour l'extraction et le raisonnement)	ABEJA	Apache 2.0
Qwen2.5 Bakeneko 32B (qwen2.5-bakeneko-32b, qwen2.5-bakeneko-32b-instruct, deepseek-r1-distill-qwen2.5-bakeneko-32b, qwq-bakeneko-32b, qwen2.5-bakeneko-32b-instruct-v2)	2025	Qwen 2.5 (32b)		rinna	Apache 2.0
ABEJA-QwQ32b-Reasoning-Japanese-v1.0 (v1.0)	2025	Qwen 2.5 (32b)	ABEJA-Qwen2.5-32b-Japanese-v0.1 + Chat Vector (from QwQ 32b) + continual pre-training	ABEJA	Apache 2.0
ABEJA-Qwen2.5-32b-Japanese-v0.1 (32b-Japanese-v0.1)	2025	Qwen 2.5 (32b)	Pre-training: Common Crawl, Cosmopedia, undisclosed dataset （100B tokens） + Chat Vector	ABEJA	Apache 2.0
Gemma-2-Llama Swallow 27B (27b-pt-v0.1, 27b-it-v0.1)	2025	Gemma 2 (27b)	Pre-training: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1	Swallow Project	Llama 3.3 Community License & Gemma Terms of Use
Nekomata 14B (14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)	2023	Qwen (14b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (66B tokens) Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset	rinna	Tongyi Qianwen LICENSE
Swallow 13B (13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf)	2023	Llama 2 (13b)	Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1: OASST1, OASST2	Swallow Project	Llama 2 Community License
LEIA-Swallow-13B (13b)	2024	Llama 2 (13b)	additionally trained Swallow 13B using LEIA	Individual (Ikuya Yamada, Ryokan Ri)	Llama 2 Community License
ELYZA-japanese-Llama-2-13b (13b, 13b-instruct, 13b-fast, 13b-fast-instruct)	2023	Llama 2 (13b)	Pre-training: Japanese Wikipedia, Japanese OSCAR, and other crawled data (18B tokens) Instruction Tuning: undisclosed dataset	ELYZA	Llama 2 Community License
cyberagent/Mistral-Nemo-Japanese-Instruct-2408	2024	Mistral NeMo (12b)	undisclosed	CyberAgent	Apache 2.0
Gemma-2-Llama Swallow 9B (9b-pt-v0.1, 9b-it-v0.1)	2025	Gemma 2 (9b)	Pre-training: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1	Swallow Project	Llama 3.3 Community License & Gemma Terms of Use
Llama 3.1 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1, 8B-v0.2, 8B-Instruct-v0.2, 8B-Instruct-v0.3, 8B-Instruct-v0.5)	2025	Llama 3.1 (8b)	Pre-training: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie, Gemma-3-LMSYS-Chat-1M-Synth	Swallow Project	Llama 3.1 Community License (Gemma Terms of Use is also applied to the Instruct model)
Llama 3 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1)	2023	Llama 3 (8b)	Pre-training: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 ^[6:1]	Swallow Project	Llama 3 Community License
turing-motors/Llama-3-heron-brain-8B-v0.3	2024	Llama 3 (8b)	additionally trained on Llama 3 Swallow 8B (details undisclosed)	Turing	Llama 3 Community License
Llama 3 Youko 8B (8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq)	2024	Llama 3 (8b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (22B tokens) Instruction Tuning^[7:1]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, undisclosed dataset DPO: HelpSteer, HelpSteer2, undisclosed dataset	rinna	Llama 3 Community License
Llama 3 ELYZA JP 8B (8B, 8B-GGUF, 8B-AWQ)	2024	Llama 3 (8b)	undisclosed	ELYZA	Llama 3 Community License
Llama 3 neoAI 8B Chat v0.1 (8B-Chat-v0.1)	2024	Llama 3 (8b)	undisclosed	neoAI	Llama 3 Community License
Llama 3 tedllm (v0)	2024	Llama 3 (8b)	Pre-training: Japanese generic corpus	Tokyo Electron Device	Llama 3 Community License
ELYZA-Shortcut-1.0-Qwen-7B (7B)	2025	Qwen 2.5 (7b)	Pre-training + SFT	ELYZA	Apache 2.0
Swallow 7B (7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)	2023	Llama 2 (7b)	Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1: OASST1, OASST2	Swallow Project	Llama 2 Community License
LEIA-Swallow-7B (7b)	2024	Llama 2 (7b)	additionally trained Swallow 7B using LEIA	Individual (Ikuya Yamada, Ryokan Ri)	Llama 2 Community License
ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct)	2023	Llama 2 (7b)	Pre-training: Japanese Wikipedia, Japanese OSCAR, and other crawled data (18B tokens) Instruction Tuning: undisclosed dataset	ELYZA	Llama 2 Community License
Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)	2023	Llama 2 (7b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (40B tokens) Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset	rinna	Llama 2 Community License
houou-7b (instruction-7b-v1, instruction-7b-v2, instruction-7b-v3)	2023	Llama 2 (7b)	Instruction-tuned Youri 7B (base) on ichikara-instruction	MoneyForward	Llama 2 Community License
Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)	2023	Llama 2 (7b)	Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1	Stability AI	Llama 2 Community License
SambaLingo-Japanese (Base, Chat)	2024	Llama 2 (7b)	Pre-training: CulturaX Instruction Tuning: ultrachat_200k DPO: ultrafeedback, cai-conversation-harmless	SambaNova Systems	Llama 2 Community License (?)^[9:1]
blue-lizard (blue-lizard)	2024	Llama 2 (7b)	undisclosed	Deepreneur	Llama 2 Community License
Swallow-MS 7B (7b-v0.1, 7b-instruct-v0.1)	2024	Mistral-7B-v0.1 (7b)	Pre-training: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, OASST1	Swallow Project	Apache 2.0
Rakuten AI 2.0 (8x7B, 8x7B-instruct)	2025	Mistral-7B-v0.1 (7b)		Rakuten	Apache 2.0
RakutenAI-7B (7B, 7B-instruct, 7B-chat)	2024	Mistral-7B-v0.1 (7b)	Pre-training: undisclosed Instruction Tuning: Dolly Dataset, OASST1, datasets converted from the train split of NLU datasets (like jaster), undisclosed dataset	Rakuten	Apache 2.0
Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b)	2023	Mistral-7B-v0.1 (7b)	Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, wikinews subset of llm-japanese-dataset	Stability AI	Apache 2.0
ChatNTQ JA 7B (7b-v1.0)	2024	Mistral-7B-v0.1 (7b)	Instruction-tuned Japanese Stable LM Gamma 7B (base) on their own datasets	NTQ Solution	Apache 2.0
Shisa Gamma 7B (7b-v1)	2023	Mistral-7B-v0.1 (7b)	Instruction-tuned Japanese Stable LM Gamma 7B (base) on ultra-orca-boros-en-ja	AUGMXNT	Apache 2.0 (?)^[9:2]
Shisa 7B (base-7b-v1, 7b-v1)	2023	Mistral-7B-v0.1 (7b)	Pre-training: shisa-pretrain-en-ja-v1 (8B tokens) Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1	AUGMXNT	Apache 2.0
Karasu (7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)	2024	Mistral-7B-v0.1 (7b)	Additionally trained Shisa 7B (base) on Aozora Bunko, Japanese Law Precedent Dataset, Japanese Wikipedia, Japanese domain webscrapes from the Japanese subset of CulturaX, UltraChat 200k (7B tokens) Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, undisclosed dataset	Lightblue	Apache 2.0 (?)^[9:3]
Nekomata 7B (7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)	2023	Qwen (7b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (66B tokens) Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset	rinna	Tongyi Qianwen LICENSE
lightblue/japanese-mpt-7b	2023	MPT (7b)	Japanese mC4	Lightblue	Apache 2.0 (?)^[9:4]
Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct)	2024	StableLM-3B-4E1T (3b)	Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3) (100B tokens) Instruction Tuning: Dolly Dataset, HH RLHF, wikinews subset of llm-japanese-dataset	Stability AI	Apache 2.0
kotomamba-2.8B-CL	2024	mamba-2.8b-slimpj (2.8b)	Japanese Wikipedia, Swallow Corpus, SlimPajama	Kotoba Technologies	Apache 2.0
Gemma-2-Llama Swallow 2B (2b-pt-v0.1, 2b-it-v0.1)	2025	Gemma 2 (2b)	Pre-training: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1	Swallow Project	Llama 3.3 Community License & Gemma Terms of Use
Gemma 2 Baku 2B (2b, 2b-it)	2024	Gemma 2 (2b)	Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset (80B tokens) OPRO: undisclosed dataset ^[10]	rinna	Gemma Terms of Use
Japanese Stable LM 2 1.6B (base, instruct)	2024	Stable LM 2 1.6B (1.6b)	Pre-training: Wikipedia, CulturaX Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1	Stability AI	STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE
TinySwallow-1.5B (1.5B, 1.5B-Instruct, 1.5B-Instruct-q4f32_1-MLC, 1.5B-Insturct-GGUF)	2025	Qwen2.5 (1.5b)	Pre-training: trained using the TAID method (with Qwen2.5 (32b) as the teacher model) Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, swallow-magpie-ultra-v0.1, swallow-gemma-magpie-v0.1	Sakana AI, Swallow Project	Apache 2.0
karasu-1.1B	2023	TinyLlama (1.1b)	Pre-training: Japanese OSCAR, Japanese mC4 (3B tokens)	Lightblue	Apache 2.0

Spécifique à un domaine

	Domaine	Base du Model	Développeur	Licence
pfnet/Preferred-MedLLM-Qwen-72B	Médecine	Qwen2.5 (72b)	Preferred Networks	Qwen LICENSE
Llama3-Preferred-MedSwallow-70B (70B)	Médecine	Llama 3 (70b)	Preferred Networks	Llama 3 Community License
AIgroup-CVM-utokyohospital/MedSwallow-70b	Médecine	Llama 2 (70b)	Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire	CC BY-NC-SA 4.0
nekomata-14b-pfn-qfin (qfin, qfin-inst-merge)	Finance	Qwen (14b)	Preferred Networks	Tongyi Qianwen LICENSE
Watashiha-Llama-2-13B-Ogiri-sft (sft, sft-neuron)	Oogiri	Llama 2 (13b)	Watashiha	Llama 2 Community License
Karamaru (Karamaru-v1)	Edo-period Japanese	Llama 3 (8b)	Sakana AI	Llama 3 Community License
Llama 3.1 Future Code Ja 8B	Codage	Llama 3.1 (8b)	Future Corp.	Llama 3.1 Community License
JPharmatron (7B-base, 7B)	Pharmaceutique	Qwen2.5 (7b)	EQUES Inc.	CC BY-SA 4.0
ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct)	Codage	Code Llama (7b)	ELYZA	Llama 2 Community License
AIBunCho/japanese-novel-gpt-j-6b	Génération de récits	GPT-J (6b)	Individuel (Hiroyuki Osone)	CreativeML OpenRAIL-M License
NovelAI/genji-jp	Génération de récits	GPT-J (6b)	NovelAI	？

Modèles développés à partir d'LLM non-japonais (avec un post-entraînement en japonais)

D'usage général

	Base du Model	Données d'entraînement	Développeur	Licence / Conditions d'utilisation
Llama 3.1 Shisa V2 405B (405b)	Llama 3.1 (405b)	Jeux de données japonais de haute qualité avec SFT/DPO	Shisa.AI	Llama 3.1 Community License
AXCXEPT/EZO-Qwen2.5-72B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4	Qwen2.5 (72b)		Axcxept	Qwen License
ao-Karasu (72B)	Qwen1.5 (72b)	ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, Japanese technical blogs, News stories, QA site answers, undisclosed dataset	Lightblue	Tongyi Qianwen LICENSE (?)^[9:5]
shisa-ai/shisa-v2-llama3.3-70b	Llama 3.3 (70b)		Shisa.AI	Llama 3.3 Community License
AXCXEPT/Llama-3.1-70B-EZO-1.1-it	Llama 3.1 (70b)		Axcxept	Llama 3.1 Community License
Llama 3 shisa-v1-llama3-70b (70b)	Llama 3 (70b)	ultra-orca-boros-en-ja-v1	Shisa.AI	Llama 3 Community License (?)^[9:6]
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese	Llama 2 (70b)		Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire	Llama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1	Llama 2 (70b)		Université de Doshisha Media Informatics Lab	？
cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese	DeepSeek-R1-Distill-Qwen (32b)		CyberAgent	MIT
karakuri-ai/karakuri-lm-32b-thinking-2501-exp	QwQ (32b)		KARAKURI	Apache 2.0
shisa-ai/shisa-v2-qwen2.5-32b	Qwen2.5 (32b)		Shisa.AI	Apache 2.0
AXCXEPT/EZO-Qwen2.5-32B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-32B-Instruct	Qwen2.5 (32b)		Axcxept	Apache 2.0
cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese	DeepSeek-R1-Distill-Qwen (14b)		CyberAgent	MIT
shisa-ai/shisa-v2-unphi4-14b	Phi-4 (14b)		Shisa.AI	MIT
EZO-Phi-4 (phi-4-open-R1-Distill-EZOv1, phi-4-deepseek-R1K-RL-EZO)	Phi-4 (14b)		Axcxept	MIT
Qarasu (14B-chat-plus-unleashed)	Qwen (14b)	ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, undisclosed dataset	Lightblue	Tongyi Qianwen LICENSE (?)^[9:7]
Sparticle/llama-2-13b-chat-japanese-lora	Llama 2 (13b)		Sparticle	？
izumi-lab/llama-13b-japanese-lora-v0-1ep	Llama (13b)		Université de Tokyo Izumi Lab	？
shisa-ai/shisa-v2-mistral-nemo-12b	Mistral NeMo (12b)		Shisa.AI	Apache 2.0
AXCXEPT/EZO-Common-9B-gemma-2-it	Gemma 2 (9b)		Axcxept	Gemma Terms of Use
AXCXEPT/EZO-Humanities-9B-gemma-2-it	Gemma 2 (9b)		Axcxept	Gemma Terms of Use
AXCXEPT/Qwen3-EZO-8B-beta	Qwen3 (8b)	Raisonnement haute performance avec la technique Deep-Think	Axcxept	Apache 2.0
shisa-ai/shisa-v2-llama3.1-8b	Llama 3.1 (8b)		Shisa.AI	Llama 3.1 Community License
AXCXEPT/Llama-3.1-8B-EZO-1.1-it	Llama 3.1 (8b)		Axcxept	Llama 3.1 Community License
Llama 3 Suzume 8B (8B-japanese, 8B-japanese-gguf)	Llama 3 (8b)	megagonlabs/instruction_ja, ShareGPT, undisclosed dataset	Lightblue	Llama 3 Community License (?)^[9:8]
Llama 3 shisa-v1-llama3-8b (8b)	Llama 3 (8b)	ultra-orca-boros-en-ja-v1	Shisa.AI	Llama 3 Community License (?)^[9:9]
AXCXEPT/Llama-3-EZO-8b-Common-it	Llama 3 (8b)		Axcxept	Llama 3 Community License
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese	DeepSeek-R1-Distill-Qwen (7b)		Lightblue	Apache 2.0
ABEJA-Qwen2.5-7b-Japanese-v0.1 (v0.1)	Qwen 2.5 (7b)		ABEJA	Apache 2.0
shisa-ai/shisa-v2-qwen2.5-7b	Qwen 2.5 (7b)		Shisa.AI	Apache 2.0
Karasu DPO (7B)	Qwen 2.5 (7b)		Lightblue	Apache 2.0
ganchengguang/Yoko-7B-Japanese-v1	Llama 2 (7b)		Université nationale de Yokohama Mori Lab	？
Sparticle/llama-2-7b-chat-japanese-lora	Llama 2 (7b)		Sparticle	？
izumi-lab/llama-7b-japanese-lora-v0-5ep	Llama (7b)		Université de Tokyo Izumi Lab	？
lightblue/jod	Mistral-7B-SlimOrca (7b)		Lightblue	Apache 2.0
NTQAI/chatntq-7b-jpntuned	RWKV-4 World (7b)		NTQ Solution	？
Borea (Jp, Common, Coding)	Phi-3.5 (3.8b)		Axcxept	MIT
AXCXEPT/EZO-Llama-3.2-3B-Instruct-dpoE	Llama 3.2 (3b)		Axcxept	Llama 3.2 Community License
Gemma-2-JPN (2b-jpn-it)	Gemma 2 (2b)		Google	Gemma Terms of Use
AXCXEPT/EZO-gemma-2-2b-jpn-it	Gemma 2 (2b)		Axcxept	Gemma Terms of Use
AXCXEPT/EZO-Common-T2-2B-gemma-2-it	Gemma 2 (2b)		Axcxept	Gemma Terms of Use

Spécifique à un domaine

	Domaine	Base du Model	Développeur	Licence
JMedLoRA (llama2-jmedlora-6.89ep)	Médecine	Llama 2 (70b)	Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaire	CC BY-NC 4.0

Modèles fusionnés

	Modèles originaux (LLMs japonais en gras)	Développeur	Licence
EQUES/MedLLama3-JP-v2	Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8B	EQUES	Llama 3 Community License
EvoLLM-JP-A (v1-7B)	Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002	Sakana AI	Apache 2.0
EvoLLM-JP (v1-7B, v1-10B)	Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002	Sakana AI	MICROSOFT RESEARCH LICENSE

Modèles basés sur des API

	Longueur Maximale du Contexte	Développeur	Plateforme
PLaMo API	32,768	Preferred Networks	self-owned
Solar mini chat ja (solar-mini-ja-250123, solar-mini-ja-240612)	32,768	Upstage	self-owned
AI Novelist	2,400 ~ 8,192	Bit192	self-owned
LHTM-OPT		alt Inc.	AWS Marketplace
tsuzumi (tsuzumi-7b)		NTT	Azure AI Foundry

Modèles encodeur

D'usage général

	Architecture	Longueur d'entrée maximale	Données d'entraînement	Développeur	Licence	HuggingFace? ^[11]
ModernBERT-Ja	ModernBERT	8,192	Japanese and English corpora	SB Intuitions	MIT	◯ (30m, 70m, 130m, 310m)
llm-jp-modernbert	ModernBERT	8,192	Japanese subset of llm-jp-corpus-v4 (0.69T tokens)	Research and Development Center for Large Language Models	Apache 2.0	◯
KyotoUniBERT	BERT (base, large)	512	Wikipédia en japonais (18M articles)	Université de Kyoto Laboratoire de traitement des langues et des médias	Apache 2.0	△
TohokuUniversityBERT	BERT (base, large)	512	base (v1): Wikipédia en japonais (17M articles / 2.6GB) base (v2) & large: Wikipédia en japonais 4.0GB base (v3) & large (v2): Wikipédia en japonais (4.9GB), Japanese CC‑100 (74.3GB)	Université de Tohoku - Groupe TAL	base (v1, v2) & large: CC BY‑SA 3.0 base (v3) & large (v2): Apache 2.0	◯ (base (v1), base (v1, char-level), base (v2), base (v2, char-level), large, large (char-level), base (v3), base (v3, char-level), large (v2), large (v2, char-level))
TohokuNLP BERT-alpha 500M	Llama-based encoder^[12]	4,096 or 8,192	Japanese subset of llm-jp-corpus-v3	Tohoku University NLP Group	Apache 2.0	◯ (sq4096-alpha, sq8192-alpha)
NICT BERT	BERT (base)	512	Wikipédia en japonais	NICT	CC BY 4.0	△
Laboro BERT	BERT (base, large)	512	Corpus web en japonais (Actualités, blogs, etc) (12GB)	Laboro.AI	CC BY‑NC 4.0	✕
colorfulscoop BERT	BERT (base)	512	Wikipédia en japonais	Colorful Scoop	CC BY‑SA 3.0	◯
UniversityOfTokyoBERT	BERT (small)	512	Wikipédia en japonais (2.9GB)	Université de Tokyo Izumi Lab	CC BY‑SA 4.0	◯
chiTra (Sudachi Transformers)	BERT (base)	512	NINJAL Web Japanese Corpus (148GB)	NINJAL, WAP Tokushima - Laboratoire IA et TAL	Apache 2.0	△
ACCMS BERT	BERT (base)	512	Wikipédia en japonais (3.3GB)	Université de Kyoto ACCMS	CC BY‑SA 4.0	◯
HitachiBERT	BERT (base)	512	Wikipédia en japonais, Japanese CC‑100	Hitachi	CC BY‑NC‑SA 4.0	◯^[13]
RetrievaBERT	BERT ^[14]	2,048	Japanese CommonCrawl, RefinedWeb, Chinese Wikipedia, Korean Wikipedia, The Stack	Retrieva	Apache 2.0	◯
Bandai Namco DistilBERT	DistilBERT	512	(Distillation de BERT (base) de l'Université du Tohoku)	Bandai Namco Research	MIT	◯
Laboro DistilBERT	DistilBERT	512	(Distillation of Laboro BERT(base))	Laboro.AI	CC BY‑NC 4.0	◯
LINE DistilBERT	DistilBERT	512	(Distillation de LINE en interne BERT model)	LINE	Apache 2.0	◯
rinna RoBERTa	RoBERTa (base)	512	Wikipédia en japonais, Japanese CC‑100	rinna	MIT	◯
WasedaRoBERTa	RoBERTa (base, large)	512	Wikipédia en japonais, Japanese CC‑100	Waseda Kawahara Lab	CC BY‑SA 4.0	◯ (base, large, large (seq512))^[15]
InformatixRoBERTa	RoBERTa (base)	512	Wikipédia en japonais, Web Articles (25GB)	Informatix	Apache 2.0	△
KyotoUniversityRoBERTa	RoBERTa (base, large)	512	Wikipédia en japonais, Japanese CC‑100	Université de Kyoto Laboratoire de traitement des langues et des médias	CC BY‑SA 4.0	◯ (base (char-level), large (char-level))
YokohamaNationalRoBERTa	RoBERTa (base)	512	Wikipédia en japonais (3.45GB)	Université nationale de Yokohama - Mori Lab	Apache 2.0	◯
Megagon Labs RoBERTa	RoBERTa (base)^[16]	1,282	Japanese mC4 (200M sentences)	Megagon Labs (Recruit Co.,Ltd.)	MIT	◯
ACCMS RoBERTa	RoBERTa (base)	512	Wikipédia en japonais (3.3GB) + Japanese CC‑100 (70GB)	Université de Kyoto ACCMS	CC BY‑SA 4.0	◯
CinnamonELECTRA	ELECTRA (small)	512	Wikipédia en japonais	Cinnamon	Apache 2.0	◯
Megagon Labs ELECTRA	ELECTRA (base)	512	Japanese mC4 (200M sentences)	Megagon Labs (Recruit Co.,Ltd.)	MIT	◯
UniversityOfTokyoELECTRA	ELECTRA (small, base)	512	Wikipédia en japonais (2.9GB)	Université de Tokyo Izumi Lab	CC BY‑SA 4.0	◯ (small, base)
JapaneseRoFormer	RoFormer (base)	512	Wikipédia en japonais (3.45GB)	Université nationale de Yokohama - Mori Lab	Apache 2.0	◯
JapaneseLUKE	LUKE (base, large)	512	Wikipédia en japonais	Studio Ousia	Apache 2.0	◯ (base, large)
KyotoUniversityDeBERTaV2	DeBERTaV2 (tiny, base, large)	512	Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR (171GB)	Université de Kyoto - Laboratoire du traitement des langues et médias	CC BY‑SA 4.0	◯ (tiny, tiny (char-level), base, large)
KyotoUniversityDeBERTaV3	DeBERTaV3 (base)	512	llm-jp-corpus	Kyoto University Language Media Processing Lab	Apache 2.0	◯
UniversityOfTokyoDeBERTaV2	DeBERTaV2 (small, base)	512	Wikipédia en japonais, Japanese Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR	University of Tokyo Izumi Lab	CC BY-SA 4.0	◯ (small, base)
GLOBIS DeBERTaV3	DeBERTaV3 (xsmall, base, large)	512	Wikipedia, WikiBooks, Aozora Bunko, Japanese CC-100, Japanese mC4, Japanese OSCAR	GLOBIS	CC BY-SA 4.0	◯ (xsmall, base, large)
JapaneseBigBird	BigBird (base)	4,096	Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR	Waseda Kawahara Lab	CC BY‑SA 4.0	◯
JapaneseLayoutLM	LayoutLM (base)	512	Pre-trained on Japanese Wikipedia, initialized with TohokuUniversityBERT	The Japan Research Institute, Limited	CC BY-SA 3.0	◯

Spécifique à un domaine

	Domaine	Architecture	Données d'entraînement	Développeur	Licence	HuggingFace?
JapaneseBlogELECTRA	Langue familière	ELECTRA (small)	Corpus de blogs en japonais (354M sentences)	Université de technologie de Kitami - Laboratoire de Masui-Ptaszynski	CC BY‑SA 4.0	◯
JapaneseSpokenLanguageBERT	Langue parlée	BERT (base)	Formation supplémentaire pour TohokuUniversityBERT en utilisant le Corpus of Spontaneous Japanese (CSJ) (Dans le modèle DAPT, le compte rendu de la diète est également utilisé)	Retrieva	Apache 2.0	◯
AcademicRoBERTa	Science	RoBERTa (base)	CiNii Japanese Papers (6.3M sentences)	Université d'Ehime Laboratoire IA	Apache 2.0	◯
local-politics-BERT	Politique	BERT (base)	Procès-verbaux de la Diète nationale, Procès-verbaux de l'Assemblée locale	Projet de Corpus des Procès-Verbaux des Assemblées Locales Japonaises	CC BY-SA 4.0	◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) ^[17]
UBKE-LUKE	Économie	LUKE (base)	Wikipédia en japonais, Rapports financiers, Articles de nouvelles économiques	Uzabase	CC BY-NC	◯
JapaneseFinancialBERT	Finance	BERT (small, base)^[18]	Wikipédia en japonais, Japanese Financial Corpus (27M sentences/5.2GB)	Université de Tokyo Izumi Lab	CC BY‑SA 4.0	◯ (small, base)
JapaneseFinancialELECTRA	Finance	ELECTRA (small)	Wikipédia en japonais (20M sentences/2.9GB), Japanese Financial Corpus (27M sentences/5.2GB)	Université de Tokyo Izumi Lab	CC BY‑SA 4.0	◯
JapaneseNewsBERT	Affaires	BERT (base)	Articles sur l'économie en japonais(3M articles)	Stockmark	CC BY 4.0	△
JapaneseNewsXLNet	Affaires	XLNet (base)	Articles sur l'économie en japonais (3M articles)	Stockmark	？	◯ ※ Version non officielle
JapaneseNewsALBERT	Affaires	ALBERT (base)	Articles sur l'économie en japonais (3M articles)	Stockmark	？	△
MinpakuBERT	Patrimoine culturel	BERT (base)	Formation supplémentaire avec les données du patrimoine culturel du Musée national d'ethnologie sur Tohoku University BERT	Université de Hyogo Ohshima Lab	MIT	◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token)
JPharmaBERT	Pharmacie	BERT (base, large)	Documents pharmaceutiques en japonais (2B tokens) + Résumés PubMed en anglais (8B tokens) + Données pharmaceutiques multilingues (1.2B tokens)	EQUES	Inconnue	◯ (base, large)
UTH-BERT	Médecine	BERT (base)	Dossiers médicaux en japonais (120M lignes)	Université de Tokyo Hôpital Cours de développement en IA pour la médecine	CC BY‑NC‑SA 4.0	△
medBERTjp	Médecine	BERT (base)	Wikipédia en japonais, Corpus médical en japonais ("今日の診療プレミアム/Today's Care Premium" Web Version)	Université d'Osaka Hôpital Laboratoire d'information médicale	CC BY‑NC‑SA 4.0	△
JMedRoBERTa	Médecine	RoBERTa (base)	Japanese Medical Papers (11M sentences/1.8GB)	NII Aizawa Lab	CC BY‑NC‑SA 4.0	◯ (ManbyoWordPiece, SentencePiece)^[19]

Plongement lexical par mots et par documents ^[20]

Bi-Encoders

Single-representation bi-encoders

	Longueur Maximale du Contexte	Développeur	Licence
Ruri-v3 (v3-30m, v3-70m, v3-130m, v3-310m)	8,192	Nagoya University Sasano Group	Apache 2.0
PLaMo-Embedding-1B (1b)	4,096	Preferred Networks	Apache 2.0
sbintuitions/sarashina-embedding-v1-1b	8,192	SB Intuitions	Sarashina Model NonCommercial License
AMBER (base, large)	512	Retrieva	Apache 2.0
RoSEtta (base-ja)	1,024	PKSHA Technology	Apache 2.0
GLuCoSE v2 (base-ja-v2)	512	PKSHA Technology	Apache 2.0
Ruri (small, base, large, small-v2, base-v2, large-v2)	512	Nagoya University Sasano Group	Apache 2.0
Japanese SimCSE (unsup-simcse-ja-base, unsup-simcse-ja-large, sup-simcse-ja-base, sup-simcse-ja-large)	512	Nagoya University Sasano Group	CC BY-SA 4.0
GLuCoSE (base-ja)	512	PKSHA Technology	Apache 2.0
colorfulscoop/sbert-base-ja		Colorful Scoop	CC BY‑SA 4.0
MU-Kindai/SBERT-JSNLI-base MU-Kindai/SBERT-JSNLI-large		Université de Kindai	？
MU-Kindai/Japanese-SimCSE-BERT-base-unsup MU-Kindai/Japanese-SimCSE-BERT-large-unsup MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup MU-Kindai/Japanese-SimCSE-BERT-base-sup MU-Kindai/Japanese-SimCSE-BERT-large-sup		Université de Kindai	MIT
pkshatech/simcse-ja-bert-base-clcmlp		PKSHA Technology	CC BY‑SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base MU-Kindai/Japanese-MixCSE-BERT-large		Université de Kindai	MIT
MU-Kindai/Japanese-DiffCSE-BERT-base		Université de Kindai	MIT
bclavie/fio-base-japanese-v0.1		Individuel (Benjamin Clavié)
cl-nagoya/shioriha-large-pt		Université de Nagoya - Sasano Group

Multi-representation bi-encoders

	Développeur	Licence
JaColBERTv2.5 (JaColBERTv2.4, JaColBERTv2.5)	Answer.AI	MIT
JaColBERTv2 (JaColBERTv2)	Individuel (Benjamin Clavié)	MIT
JaColBERT (JaColBERT)	Individuel (Benjamin Clavié)	MIT

Cross-Encoders

	Développeur	Licence
Ruri-v3 Reranker (310m)	Nagoya University Sasano Group	Apache 2.0
Ruri-Reranker (stage1-small, stage1-base, stage1-large, small, base, large)	Nagoya University Sasano Group	Apache 2.0
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1 hotchpotch/japanese-reranker-cross-encoder-small-v1 hotchpotch/japanese-reranker-cross-encoder-base-v1 hotchpotch/japanese-reranker-cross-encoder-large-v1 hotchpotch/japanese-bge-reranker-v2-m3-v1	Individuel (Yuichi Tateno)	MIT

Modèles Vision-Language

Text+Image vers Text

Modèles développés à partir de zéro

D'usage général

	Année	Architecture	Données d'entraînement	Développeur	License / Terms of Use
Stockmark-2-VL-100B-beta (100B-beta)	2025	LLaVA-OneVision	Entraînement en 3 étapes: pré-entraînement d'alignement, expansion des légendes, affinement d'instruction et de raisonnement Données synthétiques: Générées à partir de Qwen2.5-VL-72B	Stockmark	Qwen License
KARAKURI VL (32b-instruct-2507, 32b-thinking-2507-exp)	2025	Vision-Langage (basé sur Qwen2.5-VL-32B)	Jeu de données personnalisé spécialisé pour l'utilisation d'ordinateurs japonais: enregistrements d'opérations informatiques japonaises, Q&A d'images de documents japonais, interprétation d'informations visuelles, OCR japonais, compréhension d'organigrammes Entraînement en 3 étapes: Supervised Fine-Tuning (SFT) + fusion de modèles + apprentissage par renforcement *le modèle thinking montre explicitement le processus de raisonnement en utilisant l'approche Chain of Thought (CoT)	KARAKURI	Apache 2.0
Heron-NVILA (1B, 2B, 15B, 33B)	2025	NVILA	Entraînement en 3 étapes: Alignement (558k paires image-texte japonaises + 595k LLaVA-Pretrain), Pré-entraînement (MOMIJI 13M, paires image-texte japonaises 6M, données entrelacées japonaises 2M, coyo-700m 6M, mmc4-core 4M, Wikipedia-ja, LLaVA-Pretrain-JA, STAIR captions), Affinement supervisé (LLaVA-instruct-v1.5-en, LLaVA-instruct-ja, conversation photos japonaises, conversation JA-VG-VQA, SynthDog-ja, AI2D, SynthDog-en, Sherlock)	Turing	Apache 2.0 & OpenAI Terms of Use
Sarashina2-Vision (8b, 14b)	2025	Sarashina2 + Qwen2-VL + 2-layer MLP	Entraînement en 3 étapes: Échauffement du projecteur (LLaVA-Pretrain 78M tokens anglais), Pré-entraînement de l'encodeur de vision (CC3M, CC12M, llm-jp-japanese-image-text-pairs, jeu de données OCR interne, jeu de données synthétiques de légendes de graphiques internes 3.8B japonais + 7.7B tokens anglais), Ajustement d'instructions visuelles (Japanese Visual Genome VQA, OCR-VQA, TextVQA, PlotQA, CLEVR traduit, DOCCI traduit, jeux de données internes 2.5B japonais + 1.0B tokens anglais)	SB Intuitions	MIT
Asagi (2B, 4B, 8B, 14B)	2025	LLaVA	Images de sites web japonais nouvellement explorées, jeux de données japonais existants, traductions japonaises de jeux de données anglais ~20M échantillons (synthèse de données utilisant le VLM anglais Phi-3.5-vision-instruct et le LLM japonais CALM3-22B-Chat)	University of Tokyo Machine Intelligence Lab.	Apache 2.0
llava-calm2-siglip (llava-calm2-siglip)	2024	LLaVA	coversational data generated from MS-COCO and VisualGenome	CyberAgent	Apache 2.0
LLM-jp-3 VILA 14B (14b)	2024	LLaVA	Japanese image text pairs, LLaVA-Pretrain, Japanese interleaved data, coyo (subset), mmc4-core (subset), llava-instruct-ja, japanese-photos-conv, ja-vg-vqa, synthdog-ja, LLaVA-1.5 instruction data (subset)	Research and Development Center for Large Language Models	Apache 2.0 & OpenAI Terms of Use
Heron (blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1)	2023	BLIP-2 / GIT	v1: LLaVA-Instruct-150K-JA or LLaVA-Instruct-620K-JA v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset	Turing	CC BY-NC 4.0
Japanese Stable VLM (japanese-stable-vlm)	2023	LLaVA	Japanese CC12M, STAIR Captions, jeu de données Japanese Visual Genome VQA	Stability AI	STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha (japanese-instructblip-alpha)	2023	InstructBLIP	Japanese CC12M, STAIR Captions, jeu de données Japanese Visual Genome VQA	Stability AI	JAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4 (bilingual-gpt-neox-4b-minigpt4)	2023	MiniGPT-4	CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset	rinna	MIT

Spécifique à un domaine

	Architecture	Domaine	Développeur	Licence
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm	LLaVA	Oogiri	Watashiha	Llama 2 Community License

Modèles développés à partir d'VLM non-japonais

	Base du Model	Données d'entraînement	Développeur	Licence
AXCXEPT/EZO-InternVL2-26B	InternVL2	-	Axcxept	MIT

Modèles fusionnés

	Modèles originaux (LLMs japonais en gras)	Développeur	Licence
Llama-3-EvoVLM-JP-v2 (v2)	Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, Bunny-v1.1-Llama-3-8B-V	Sakana AI	Llama 3 Community License
AXCXEPT/Llama-3-EZO-VLM-1	(trained from Llama-3-EvoVLM-JP-v2)	Axcxept	Llama 3 Community License
EvoVLM-JP (v1-7B)	Shisa Gamma 7B (v1), LLaVA-1.6-Mistral-7B	Sakana AI	Apache 2.0

Text vers Image

D'usage général

	Architecture	Training Data	Développeur	License
CommonArt β (commonart-beta)	PixArt-Σ	CommonCatalog-cc-by, Megalith-10M, Smithonian Open Access, ArtBench (CC-0 only)	AI Picasso	Apache 2.0
EvoSDXL-JP (v1)	Stable Diffusion	- (merged from several diffusion models, including Japanese Stable Diffusion XL)	Sakana AI	Apache 2.0^[21]
Japanese Stable Diffusion XL (japanese-stable-diffusion-xl)	Stable Diffusion	Inconnu	Stability AI	STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
TohokuUniversity Stable Diffusion (base, refiner)	Stable Diffusion	Corpus parallèle anglais-japonais de la tâche partagée WMT2023, environ 13 millions de légendes de laion2B-multi	Université de Tohoku - Groupe TAL	CreativeML OpenRAIL-M License
rinna Stable Diffusion (japanese-stable-diffusion)	Stable Diffusion	LAION-5B Japanese Subset (100M images)	rinna	CreativeML OpenRAIL-M License

Spécifique à un domaine

	Architecture	Domaine	Développeur	Licence
Evo-Nishikie (v1)	Stable Diffusion (ControlNet)	Ukiyo-e	Sakana AI	Apache 2.0^[21:1]
Evo-Ukiyoe (v1)	Stable Diffusion	Ukiyo-e	Sakana AI	Apache 2.0^[21:2]

Text vers Vidéo

	Architecture	Training Data	Développeur	License
AIdeaLab VideoJP (AIdeaLab-VideoJP)	CogVideoX	Pixabay, FineVideo	AIdeaLab	Apache 2.0

Autres

	Architecture	Données d'entraînement	Développeur	Licence
llm-jp-clip (llm-jp-clip-vit-base-patch16, llm-jp-clip-vit-large-patch14)	CLIP	Traduction d'environ 1,5 milliard de sous-titres à partir du sous-ensemble anglais de ReLAION-5B	Research and Development Center for Large Language Models	Apache 2.0
LY CLIP (clip-japanese-base)	CLIP	CommonCrawl, CC12M, YFCC100M	LY Corp.	Apache 2.0
Recruit CLIP (japanese-clip-vit-b-32-roberta-base)	CLIP	environ 120 millions de légendes de laion2B-multi	Recruit Co.,Ltd.	CC BY-4.0
Japanese Stable CLIP (japanese-stable-clip-vit-l-16)	SigLIP	CC12M traduit en japonais, STAIR Captions	Stability AI	STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP (japanese-clip-vit-b-16)	CLIP	CC12M traduit en japonais	rinna	Apache 2.0
rinna CLOOB (japanese-cloob-vit-b-16)	CLOOB	CC12M traduit en japonais	rinna	Apache 2.0
HAKUHODO Technologies CLIP (base, deeper, wider)	CLIP	about 120 million captions from laion2B-multi	HAKUHODO Technologies	CC BY-NC-SA 4.0

Modèles Speech-Language

Reconnaissance automatique de la parole

	Architecture	Données d'entraînement	Développeur	Licence
Kotoba-Whisper (v1.0, v1.0-ggml, v1.0-faster, v1.1, bilingual-v1.0, bilingual-v1.0-ggml, bilingual-v1.0-faster, v2.0, v2.0-ggml, v2.0-faster, v2.1, v2.2)	Distil-Whisper	ReazonSpeech	Kotoba Technologies	Apache 2.0
Nue ASR (nue-asr)	Nue ASR (HuBERT + LLM)	ReazonSpeech	rinna	Apache 2.0
ReazonSpeech (espnet-v1, espnet-next, espnet-v2, nemo-v2)	ESPnet (Conformer-Transducer) / NeMo (FastConformer-RNNT)	ReazonSpeech	Reazon Holdings	Apache 2.0

Autres

	Architecture	Données d'entraînement	Développeur	Licence
J-Moshi (j-moshi, j-moshi-ext)	Modèle de base de texte et de parole basé sur Transformer (Moshi)	Corpus de dialogues de parole (J-CHAT, Japanese Callhome, CSJ, corpus de dialogues d'agence de voyages, corpus de dialogues de chat propriétaire, corpus de dialogues de consultation propriétaire), corpus de dialogues textuels (Japanese PersonaChat, Japanese EmpatheticDialogues, corpus de dialogues quotidiens japonais, RealPersonaChat)	Nagoya University Higashinaka Lab	CC BY-NC 4.0
Kotoba-Speech (v0.1)	Transformer	undisclosed	Kotoba Technologies	Apache 2.0
Kushinada (base, large)	HuBERT	60k hours of audio extracted from large-scale Japanese TV broadcast audio data	Intelligent Media Processing Research Team, AIST	Apache 2.0
UniversityOfTokyoHuBERT (base-jtube)	HuBERT	JTubeSpeech	University of Tokyo Saruwatari & Takamichi Lab	MIT
rinna HuBERT (base, large)	HuBERT	ReazonSpeech	rinna	Apache 2.0
Izanami (base, large)	wav2vec 2.0	60k hours of audio extracted from large-scale Japanese TV broadcast audio data	Intelligent Media Processing Research Team, AIST	Apache 2.0
Reazon wav2vec 2.0 (base, large)	wav2vec 2.0	ReazonSpeech	Reazon Holdings	Apache 2.0
rinna wav2vec 2.0 (base)	wav2vec 2.0	ReazonSpeech	rinna	Apache 2.0

Modèles Musique-Langage

Conversion Musique-Texte

	Architecture	Données d'entraînement	Développeur	Licence
Japanese MULAN (japanese-mulan-base)	MULAN (AST + GLuCoSE)	~20k paires musique-texte internes	LY Corporation	Apache 2.0

Standard d'évaluation pour les LLM en japonais

Benchmarks hybrides

	Description	Développeur
Nejumi LLM Leaderboard3	Évalue les capacités linguistiques japonaises des LLM sous trois angles : compétence en compréhension linguistique, aptitude à l'application, et alignement (incluant le contrôle et la sécurité). Pour plus de détails, voir cet article.	Weights & Biases
Swallow LLM Leaderboard v2	Réalise une évaluation complète de divers LLM basés sur trois types de tâches : compréhension et génération du japonais, dialogues japonais multi-tours, et compréhension et génération en anglais. La v2 prend en charge les modèles axés sur le raisonnement en adoptant l'inférence zéro-shot et l'incitation par chaîne de pensée, évaluant sur des benchmarks plus difficiles (12 tâches au total : 6 japonaises, 6 anglaises). Publie également swallow-evaluation, un script d'évaluation qui intègre et améliore les outils existants d'évaluation des LLM, ainsi que le nouveau swallow-evaluation-instruct pour les modèles de type raisonnement.	Swallow Project

Référence traditionnelle basé sur des tâches de Compréhension du langage naturel (NLU)

	Description	Développeur
Open Japanese LLM Leaderboard	Évalue les modèles de langage japonais dans 16 tâches différentes en utilisant llm-jp-eval.	LLM-jp, Hugging Face
llm-jp-eval	Un outil qui évalue automatiquement les LLM japonais à travers plusieurs jeux de données. La liste complète des jeux de données pris en charge peut être trouvée ici (qui comprend également des tâches telles que JNLI et JCommonsenseQA de JGLUE).	LLM-jp
JP Language Model Evaluation Harness	Un fork par Stability AI de EleutherAI/lm-evaluation-harness. Il s'agit d'un outil pour évaluer automatiquement les LLM japonais à travers plusieurs jeux de données. La liste complète des jeux de données pris en charge peut être trouvée ici (qui comprend également des tâches telles que JNLI et JCommonsenseQA de JGLUE). Il y a un résumé détaillé des résultats de l'évaluation par rinna : [rinna] Benchmark de Stability-AI/lm-evaluation-harness	Stability AI
JGLUE	Version japonais de GLUE référence suite, avec les tâches MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, et JCommonsenseQA. JCoLA vient du laboratoire d'Oseki de l'université de Tokyo. Voir ici and here (ja only) pour plus d'informations sur chaque tâches.	Université de Waseda Laboratoire Kawahara et Yahoo
JMMLU	Un benchmark construit comme une version japonaise du MMLU Benchmark, consistant en des questions à choix multiples de divers domaines académiques, y compris les sciences naturelles, les humanités et les sciences sociales. En plus de la traduction du MMLU original, il contient de nouveaux problèmes basés sur le contexte culturel unique du Japon (problèmes spécifiques au Japon).	Université de Waseda Laboratoire Kawahara

Standard des tâches génératives ouvertes

	Description	Développeur
Japanese MT-bench	Version japonaise du MT-bench qui interroge sur la capacité à converser en plusieurs tournures. Il inclut 80 questions, 10 de chacune des 8 catégories : écriture, jeu de rôle, raisonnement, maths, codage, extraction, STEM, sciences humaines. Certaines questions ont été modifiées pour s'adapter à la culture japonaise lors de la création de la version japonaise. Il comprend également un script qui réalise une évaluation absolue en 10 niveaux par GPT-4.	Stability AI
ELYZA-tasks-100	Classement basé sur les réponses des modèles avec 100 tâches complexes et diverses, y compris les tâches testant la synthèse, la correction, l'abstraction, l'induction et d'autres compétences. Utilise des humains pour noter les réponses du modèle, puis classe les modèles en fonction de leurs scores moyens.	ELYZA
Preferred Generation Benchmark (pfgen-bench)	Un banc d'essai pour mesurer la capacité des LLMs à générer du texte en japonais basé sur 50 questions de bon sens uniques au contexte japonais. Il évalue selon trois axes : fluidité, véracité et utilité. L'évaluation est réalisée sans utiliser LLM-as-a-Judge en calculant des métriques basées sur des n-grammes ou des règles.	Preferred Elements (Preferred Networks)
Rakuda Benchmark	Classement basé sur les réponses des modèles avec 40 questions ouvertes la géographie, l'histoire, la politique, et la société japonaise. Utilise GPT-4 pour évaluer les résultats du modèle par paires, puis classe les modèles en ajustant le maximum de vraisemblance sur le modèle de probabilité d'Elo/Bradley-Terry avec les préférences de GPT-4.	YuzuAI
Japanese Vicuna QA Benchmark	Il s'agit de la version japonaise de vicuna-blog-eval, qui est le précurseur de MT-Bench. Il comprend 80 questions sur la connaissance générale, le jeu de rôle, le bon sens, l'estimation de Fermi, la pensée contrefactuelle, le codage, les mathématiques, et l'écriture. Il comprend également un script pour une évaluation automatique par GPT-4 (calcul du taux de victoire). Le tableau de classement peut être trouvé ici.	Université de Kyoto Laboratoire de traitement des langues et des médias
Tengu-Bench	Comprend 120 questions ouvertes de diverses catégories. Catégories de questions : interprétation des tableaux, puzzles logiques, génération d'idées, appel de fonctions, résumé de longs documents (plus de mille jetons), résumé de conversations, questions fermées sur des longs documents (plus de mille jetons), honorifiques, création de projet, mathématiques, traduction, extraction, contrôle éthique, estimation des coûts, Japon, bavardage, calembours, formatage, construction, affaires, jugement juridique, politique, questions hypothétiques.	Lightblue
Shaberi	Un cadre qui peut évaluer collectivement le Japanese MT-bench, le Rakuda Benchmark, le ELYZA-tasks-100, et le Tengu-Bench. Il existe également un fork de Shisa.AI.	Lightblue

Benchmarks pour mesurer la performance dans des domaines spécifiques

	Description	Développeur
Japanese Language Model Financial Evaluation Harness	Un benchmark pour les LLM japonais dans le secteur financier. Il comprend des tâches telles que l'analyse des sentiments dans la finance (chabsa), des tâches de connaissances de base en analyse de titres (cma_basics), des tâches relatives aux audits dans les examens de comptable public certifié (cpa_audit), des tâches à questions à choix multiple dans les examens de planificateur financier (fp2), et des tâches d'examen blanc pour les examens de vendeurs de titres (security_sales_1). Pour plus de détails, veuillez consulter ici.	Preferred Networks
pfmt-bench-fin-ja	Un benchmark pour mesurer les capacités de génération des LLM japonais dans le domaine financier.	Preferred Networks
Stockmark Business Questions	La collection comprend 50 questions qui approfondissent les connaissances sur des sujets tels que les tendances du marché, l'actualité, les problèmes sociaux et les tendances commerciales.	Stockmark
JMED-LLM	Un ensemble de données pour évaluer les LLM dans le domaine médical japonais. Il compile des tâches de traitement du langage médical japonais développées précédemment pour le benchmarking des LLM.	NAIST Social Computing Lab.
JMedBench	Un benchmark pour les LLM dans le domaine médical japonais. Il comprend 20 ensembles de données dans 5 types de tâches : questions-réponses à choix multiple, traduction automatique, reconnaissance d'entités nommées, classification de documents, et similarité textuelle sémantique (certains ensembles de données sont empruntés à JMMLU et JMED-LLM). Un outil appelé med-eval est développé pour faciliter l'évaluation sur JMedBench.	NII Aizawa Lab
Japanese Medical Language Model Evaluation Harness	Un benchmark pour évaluer les LLM japonais dans le domaine médical en japonais et en anglais, exécutable par une seule commande.	Individuel (Issey Sukeda)
YakugakuQA	Un jeu de données d'évaluation du domaine pharmaceutique japonais basé sur les examens nationaux de licence de pharmacien. Teste les connaissances pharmaceutiques factuelles.	EQUES Inc.
NayoseQA	Un jeu de données d'évaluation du domaine pharmaceutique japonais pour la normalisation terminologique multilingue. Teste la compréhension des synonymes et des termes techniques.	EQUES Inc.
SogoCheck	Une nouvelle tâche conçue pour évaluer le raisonnement de cohérence entre des déclarations appariées. Une tâche de raisonnement difficile où même GPT-4o performe mal.	EQUES Inc.
karakuri-bench	Un ensemble de données pour mesurer la performance des LLM japonais dans le support client.	KARAKURI

Benchmarks pour mesurer la factualité et la sécurité

	Description	Développeur
JTruthfulQA	La version japonaise du dataset pour évaluer la factualité des LLM TruthfulQA. Il comprend des questions sur les superstitions et d'autres croyances tenues par certaines personnes qui ne sont pas factuelles, ainsi que des questions sur les connaissances spécifiques au Japon, le tout collecté à partir de zéro.	Waseda University Kawahara Lab
JCommonsenseMorality	Un dataset sur la moralité de sens commun japonaise. Les phrases décrivant des actions sont étiquetées avec des valeurs binaires indiquant si elles sont moralement répréhensibles ou acceptables.	Hokkaido University Language Media Lab
JBBQ	La version japonaise du dataset de questions-réponses sur les biais sociaux BBQ, développée par la traduction, la révision et l'ajout de questions basées sur la culture et les coutumes japonaises.	University of Tokyo Yanaka Lab

Benchmarks pour mesurer les capacités de raisonnement logique

	Description	Développeur
JFLD (Japanese Formal Logic Deduction)	Un dataset pour évaluer les capacités de raisonnement déductif des LLM japonais (la version japonaise de la FLD (Formal Logic Deduction) proposée par les mêmes auteurs). Il se caractérise par le fait qu'il est composé d'exemples contrefactuels pour évaluer indépendamment des connaissances que possède le LLM.	Hitachi
JHumanEval	Une version japonaise du benchmark HumanEval, qui évalue la capacité à générer du code Python à partir d'instructions en anglais. En créant la version japonaise, le texte a d'abord été traduit automatiquement, puis corrigé manuellement.	Université des Femmes du Japon - Laboratoire Kuramitsu
JMultiPL-E	Un dataset pour évaluer les capacités de génération de code dans 17 langages de programmation (C++, C#, Go, Java, JavaScript, PHP, Ruby, Rust, Scala, Swift, TypeScript, etc.) basé sur OpenAI HumanEval. Mesure les performances de compréhension et de génération de code multilingue.	Université de Tohoku - Groupe de Recherche en Traitement du Langage Naturel

Benchmarks pour la génération de texte contrôlée

	Description	Développeur
LCTG Bench	Un benchmark pour la contrôlabilité des LLM japonais. Il évalue si les LLM peuvent adhérer à des contraintes sur quatre aspects : le format de sortie, le nombre de caractères, les mots-clés et les mots interdits. La qualité du texte généré est également évaluée.	CyberAgent

Benchmarks pour modèles d'embeddings

	Description	Développeur
JMTEB	Un benchmark développé comme la version japonaise de MTEB. Il se compose de tâches telles que le regroupement de documents, la classification de textes, la similarité de phrases, la prédiction d'étiquetage de paires de phrases et l'extraction de texte (une tâche de reclassement a été récemment ajoutée).	SB Intuitions
JQaRA	Un ensemble de données pour évaluer l'extraction de documents japonais et la précision du reclassement. Chacune des 1,667 questions est attribuée à 100 documents candidats, dont au moins un peut répondre à la question. Les questions sont tirées de JAQKET, et les documents candidats proviennent de Wikipédia japonais.	Individuel (Yuichi Tateno)
JaCWIR	Un ensemble de données créé pour évaluer l'extraction de documents et le reclassement dans des domaines autres que Wikipédia. Chacune des 5,000 questions est attribuée à une page Web servant de source pour la question et à 99 pages Web sans rapport.	Individuel (Yuichi Tateno)

Benchmarks pour modèles vision-langage

	Description	Développeur
llm-jp-eval-mm	Un outil pour évaluer la performance des VLMs japonais sur plusieurs tâches de référence	Research and Development Center for Large Language Models
BusinessSlideVQA	Un jeu de données de questions-réponses avec 220 questions sur des images complexes de diapositives d'affaires japonaises, conçu pour évaluer les capacités de compréhension de documents.	Stockmark
JMMMU	Un benchmark construit comme la version japonaise du MMMU Benchmark. Il se compose de 720 problèmes traduits du MMMU et de 600 nouveaux problèmes uniques à la culture japonaise.	University of Tokyo Aizawa Lab
JDocQA	Un jeu de données de questions-réponses basé sur des documents japonais (brochures, diapositives, rapports, sites web), comprenant un total de 11 600 questions. Il inclut divers formats de questions, y compris des questions non répondables.	NAIST Watanabe Lab
Heron VLM Leaderboard powered by Nejumi/WandB	Résume les résultats d'évaluation de Japanese-Heron-Bench et LLaVA-Bench-In-the-Wild (Japanese).	Turing, Weights & Biases
Japanese-Heron-Bench	21 images se voient attribuer un total de 102 questions. Il est caractérisé par des paires image-question qui nécessitent une connaissance liée au Japon.	Turing
JA-VLM-Bench-In-the-Wild	Un jeu de données préparé indépendamment par Sakana AI pour évaluer EvoVLM-JP-v1-7B. Il se compose de 50 questions attribuées à 42 images. Il se caractérise par des images et des questions qui exigent une connaissance du Japon.	Sakana AI
JA-Multi-Image-VQA	Un jeu de données pour évaluer la capacité de question-réponse en japonais pour plusieurs images.	Sakana AI
LLaVA-Bench-In-the-Wild (Japanese)	Ceci est la version japonaise de LLaVA-Bench-In-the-Wild, traduite à l'aide de DeepL. Il se compose de 60 questions attribuées à 24 images.	Turing
LLaVA-Bench (COCO) Japonais	Il s'agit de la version japonaise, traduite par DeepL, du jeu de données LLaVA-Bench (COCO) utilisé pour évaluer LLaVA. Il se compose de 30 images, chacune avec 3 types de questions qui leur sont attribuées.	Turing
Japanese Visual Genome VQA dataset	Un jeu de données de questions-réponses annotées basé sur des images du Visual Genome dataset. Un sous-ensemble de ce jeu de données, JA-VG-VQA-500, composé de 500 questions, est parfois utilisé comme benchmark pour évaluer les VLMs.	Yahoo

Références pour les modèles et les architectures


Transformer	2017.06.12	NIPS(NeurIPS) 2017	Attention Is All You Need
GPT	2018.06.11	-	Improving Language Understanding by Generative Pre-Training
BERT	2018.10.11	NAACL 2019	BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
GPT-2	2019.02.14	-	Language Models are Unsupervised Multitask Learners
XLNet	2019.06.19	NeurIPS 2019	XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa	2019.07.26	-	RoBERTa: A Robustly Optimized BERT Pretraining Approach
Sentence-BERT	2019.08.27	EMNLP-IJCNLP 2019	Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
ALBERT	2019.09.26	ICLR 2020	ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
DistilBERT	2019.10.02	EMC2 Workshop at NeurIPS 2019	DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
T5	2019.10.23	JMLR 2020	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
BART	2019.10.29	ACL 2020	BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
LayoutLM	2019.12.31	KDD 2020	LayoutLM: Pre-training of Text and Layout for Document Image Understanding
ELECTRA	2020.03.23	ICLR 2020	ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
ColBERT	2020.04.27	SIGIR 2020	ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
Conformer	2020.05.16	INTERSPEECH 2020	Conformer: Convolution-augmented Transformer for Speech Recognition
GPT-3	2020.05.28	NeurIPS 2020	Language Models are Few-Shot Learners
DeBERTa	2020.06.05	ICLR 2021	DeBERTa: Decoding-enhanced BERT with Disentangled Attention
wav2vec 2.0	2020.06.20	NeurIPS 2020	wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
BigBird	2020.07.28	NeurIPS 2020	Big Bird: Transformers for Longer Sequences
LUKE	2020.10.02	EMNLP 2020	LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
CLIP	2021.02.26	ICML 2021	Learning Transferable Visual Models From Natural Language Supervision
SimCSE	2021.04.18	EMNLP 2021	SimCSE: Simple Contrastive Learning of Sentence Embeddings
RoFormer	2021.04.20	-	RoFormer: Enhanced Transformer with Rotary Position Embedding
HuBERT	2021.06.14	TASLP 2021	HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
CLOOB	2021.10.21	NeurIPS 2022	CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
DeBERTaV3	2021.11.18	ICLR 2023	DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing
ColBERTv2	2021.12.02	NAACL 2022	ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction
Stable Diffusion	2021.12.20	CVPR 2022	High-Resolution Image Synthesis With Latent Diffusion Models
BLIP	2022.01.28	ICML 2022	BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
MixCSE	2022.02.22	AAAI 2022	Unsupervised Sentence Representation via Contrastive Learning with Mixing Negatives
InstructGPT	2022.03.04	NeurIPS 2022	Training language models to follow instructions with human feedback
GPT-NeoX	2022.04.14	BigScience Research Workshop at ACL 2022	GPT-NeoX-20B: An Open-Source Autoregressive Language Model
DiffCSE	2022.04.21	NAACL 2022	DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings
GIT	2022.05.27	TMLR 2022	GIT: A Generative Image-to-text Transformer for Vision and Language
CogVideo	2022.05.29	ICLR 2023	CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
MuLan	2022.08.26	ISMIR 2022	MuLan: A Joint Embedding of Music Audio and Natural Language
Whisper	2022.12.06	ICML 2023	Robust Speech Recognition via Large-Scale Weak Supervision
BLIP-2	2023.01.30	ICML 2023	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
ControlNet	2023.02.10	ICCV 2023	Adding Conditional Control to Text-to-Image Diffusion Models
Llama	2023.02.27	-	LLaMA: Open and Efficient Foundation Language Models
GPT-4	2023.03.15	-	GPT-4 Technical Report
SigLIP	2023.03.27	ICCV 2023	Sigmoid Loss for Language Image Pre-Training
LLaVA	2023.04.17	NeurIPS 2023	Visual Instruction Tuning
MiniGPT-4	2023.04.20	-	MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
Fast Conformer	2023.05.08	ASRU 2023	Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition
InstructBLIP	2023.05.11	NeurIPS 2023	InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
RWKV	2023.05.22	EMNLP 2023 (Findings)	RWKV: Reinventing RNNs for the Transformer Era
RetNet	2023.07.17	-	Retentive Network: A Successor to Transformer for Large Language Models
Llama 2	2023.07.18	-	Llama 2: Open Foundation and Fine-Tuned Chat Models
Code Llama	2023.08.24	-	Code Llama: Open Foundation Models for Code
Qwen	2023.09.28	-	Qwen Technical Report
PixArt-α	2023.09.30	ICLR 2024	PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
LLaVA-1.5	2023.10.05	CVPR 2024	Improved Baselines with Visual Instruction Tuning
Mistral 7B	2023.10.10	-	Mistral 7B
Distil-Whisper	2023.11.01	-	Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
Mamba	2023.12.01	COLM 2024	Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Nue ASR	2023.12.06	ACL 2024 (Findings)	Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition
InternVL	2023.12.21	CVPR 2024	InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
TinyLlama	2024.01.04	-	TinyLlama: An Open-Source Small Language Model
Mixtral	2024.01.08	-	Mixtral of Experts
PIXART-δ	2024.01.10	-	PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
LEIA	2024.02.18	ACL 2024 (Findings)	LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation
PixArt-Σ	2024.03.07	-	PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
Gemma	2024.03.13	-	Gemma: Open Models Based on Gemini Research and Technology
EvoLLM-JP, EvoVLM-JP	2024.03.19	-	Evolutionary Optimization of Model Merging Recipes
RakutenAI-7B	2024.03.21	-	RakutenAI-7B: Extending Large Language Models for Japanese
rinna GPT, rinna RoBERTa, Nekomata, Youri, etc.	2024.04.02	LREC-COLING 2024	Release of Pre-Trained Models for the Japanese Language
SambaLingo-Japanese	2024.04.08	-	SambaLingo: Teaching Large Language Models New Languages
Heron	2024.04.11	-	Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese
Stockmark-13b	2024.04.12	PACLIC 38 (2024)	Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain
Phi-3	2024.04.22	-	Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
InternVL 1.5	2024.04.25	-	How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
Swallow	2024.04.27	COLM 2024	Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities
Samba	2024.06.11	ICLR 2025	Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
LLM-jp-13B	2024.07.04	-	LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs
Qwen2	2024.07.15	-	Qwen2 Technical Report
Llama 3.1	2024.07.23	-	The Llama 3 Herd of Models
Gemma 2	2024.07.31	-	Gemma 2: Improving Open Language Models at a Practical Size
CogVideoX	2024.08.12	-	CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
Moshi	2024.09.17	-	Moshi: a speech-text foundation model for real-time dialogue
PLaMo-100B	2024.10.10	-	PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency
Phi-4	2024.12.12	-	Phi-4 Technical Report
ModernBERT	2024.12.18	-	Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference
NVILA	2024.12.05	CVPR 2025	NVILA: Efficient Frontier Visual Language Models
Qwen2.5	2024.12.19	-	Qwen2.5 Technical Report
DeepSeek-R1	2025.01.22	-	DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Références pour les méthodes d'entraînement


PPO (RLHF)	2017.07.20	-	Proximal Policy Optimization Algorithms
Instruction Tuning (Supervised Fine-tuning; SFT)	2021.09.03	ICLR 2022	Finetuned Language Models Are Zero-Shot Learners
Sparse Upcycling	2022.12.09	ICLR 2023	Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints
DPO	2023.05.29	NeurIPS 2023	Direct Preference Optimization: Your Language Model is Secretly a Reward Model
SteerLM	2023.10.09	EMNLP 2023 (Findings)	SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF
ORPO	2024.03.12	EMNLP 2024	ORPO: Monolithic Preference Optimization without Reference Model
TAID	2025.01.28	ICLR 2025	TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models
Drop-Upcycling	2025.02.26	ICLR 2025	Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Nos contributeurs

Nous aimons les contributeurs ! N'hésitez pas à contribuer à ce projet.

Citation

La synthèse de ce répertoire est également publiée sous forme de prépublication: Exploring Open Large Language Models for the Japanese Language: A Practical Guide

Lorsque vous référencez ce répertoire, veuillez le citer comme suit:

@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}

Quelques modifications architecturales ont été apportées. Pour plus de détails, référez-vous à : 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 ↩︎
Référez-vous aux articles suivants: 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など, 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー ↩︎ ↩︎
Certaines améliorations de performances ont été apportées au modèle Llama original. Voir ici pour plus détails. ↩︎
Les détails n'ont pas été rendus publics, mais l'ensemble de données privé comprend des jeux de données de l'équipe japonaise du projet EleutherAI Polyglot et des membres de Stable Community Japan. ↩︎
Ce projet a mené des recherches d'évaluation sur l'utilisation de la génération de droite à gauche au lieu de la génération habituelle de gauche à droite, en publiant des modèles de gauche à droite et de droite à gauche. ↩︎
Avant de procéder à l'ajustement des instructions, un vecteur de chat entre Llama 3 Instruct et Llama 3 Base est ajouté. ↩︎ ↩︎
Après avoir effectué un ajustement des instructions, un vecteur de chat entre Llama 3 Instruct et Llama 3 Base est ajouté. ↩︎ ↩︎
Cependant, si une utilisation commerciale de KARAKURI LM est souhaitée, un contact direct avec le développeur, KARAKURI Inc., est requis. ↩︎
Dans l'ajustement des instructions, comme il utilise des données générées par les modèles d'OpenAI, tels que GPT-3.5, GPT-4, etc. pour l'entraînement, il se peut qu'il viole les termes d'OpenAI. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Avant de procéder à l'ajustement des instructions, un vecteur de chat entre Gemma 2 Instruct et Gemma 2 Base est ajouté. ↩︎
○: Le modèle se trouve sur le Model Hub d'HuggingFace et peut être chargé avec la commande AutoModel.from_pretrained() . △: Le modèle ne se trouve pas sur le Model Hub mais peut être chargé manuellement avec la bibliothèque de transformateurs HuggingFace. ✕: Le modèle ne se charge pas avec HuggingFace. ↩︎
En supprimant l'attention causale de Llama, il est utilisé comme un modèle de type encodeur. ↩︎
Ce projet a mené des recherches d'évaluation sur l'analyse morphologique avant la tokenisation et a publié son modèle le plus performant, qui utilisait Juman++ et BPE. ↩︎
Cependant, la longueur de séquence maximale a été étendue à 2048, et diverses modifications architecturales ont été apportées par rapport au BERT d'origine. Voir le README du dépôt HuggingFace pour plus de détails. ↩︎
nlp-waseda/roberta-base-japanese et nlp-waseda/roberta-large-japanese entrainé avec une longueur de context 128 token, mais nlp-waseda/roberta-large-japanese-seq512 étendu la longueur du contexte à 512. ↩︎
Étendu la longueur du contexte de 128 à 512. ↩︎
Pour les détails de chaque modèle, veuillez vous référer au Chapitre 4 de l'article des auteurs. Notez que le modèle SC-2M-wiki n'est strictement pas un modèle spécifique à un domaine car il est pré-entraîné uniquement sur Wikipédia. ↩︎
Le modèle "Small" s'entraîne sur Wikipédia japonais et le Corpus financier japonais simultanément, tandis que le modèle "Base" prend le TohokuUniversityBERT et dispense un apprentissage supplémentaire sur le Corpus financier japonais. ↩︎
ManbyoWordPiece lance une étape de prétokenization en utilisant MeCab (IPA+Manbyo dictionaries), puis utilise WordPiece pour la tokenization sous-mots, pendant que le modèle SentencePiece segmente le texte directement en utilisant un modèle unigram. ↩︎
La classification des modèles d'intégration a été référencée à partir de Dense Text Retrieval based on Pretrained Language Models: A Survey (Zhao+, 2022). L'architecture Bi-Encoder insère deux entrées distinctes dans le modèle et vectorise chacune d'elles, en utilisant leur produit scalaire ou la similarité cosinus comme mesure de leur proximité. En revanche, l'architecture Cross-Encoder insère les entrées combinées dans le modèle pour calculer directement leur proximité en interne. Bien que les Cross-Encoders entraînent des coûts de calcul plus élevés, ils sont souvent utilisés comme rerankers dans l'extraction d'informations en raison de leur capacité à calculer plus précisément la proximité des entrées. Parmi les Bi-Encoders, il existe des types (par exemple, ColBERT) qui représentent l'entrée en tant que multiples vecteurs (comme un par token) plutôt qu'un seul vecteur, d'où une classification supplémentaire en bi-encodeurs à représentation unique et bi-encodeurs à représentation multiple. ↩︎
Cependant, il appelle à la réflexion pour l'utilisation dans la recherche et l'éducation. De plus, soyez conscient que certaines des licences pour les modèles sources ne sont pas Apache 2.0. ↩︎ ↩︎ ↩︎

Aperçu des grands modèles de langage (LLM) en japonais ​

Modèles IA génératives ​

Modèles développés à partir de zéro ​

D'usage général ​

Spécifique à un domaine ​

Modèles développés à partir d'LLM non-japonais (avec un apprentissage en continue en japonais) ​

D'usage général ​

Spécifique à un domaine ​

Modèles développés à partir d'LLM non-japonais (avec un post-entraînement en japonais) ​

D'usage général ​

Spécifique à un domaine ​

Modèles fusionnés ​

Modèles basés sur des API ​

Modèles encodeur ​

D'usage général ​

Spécifique à un domaine ​

Plongement lexical par mots et par documents [20] ​

Bi-Encoders ​

Single-representation bi-encoders ​

Multi-representation bi-encoders ​

Cross-Encoders ​

Modèles Vision-Language ​

Text+Image vers Text ​

Modèles développés à partir de zéro ​

Modèles développés à partir d'VLM non-japonais ​

Modèles fusionnés ​

Text vers Image ​

D'usage général ​

Spécifique à un domaine ​

Text vers Vidéo ​

Autres ​

Modèles Speech-Language ​

Reconnaissance automatique de la parole ​

Autres ​

Modèles Musique-Langage ​

Conversion Musique-Texte ​

Standard d'évaluation pour les LLM en japonais ​

Benchmarks hybrides ​

Référence traditionnelle basé sur des tâches de Compréhension du langage naturel (NLU) ​

Standard des tâches génératives ouvertes ​

Benchmarks pour mesurer la performance dans des domaines spécifiques ​

Benchmarks pour mesurer la factualité et la sécurité ​

Benchmarks pour mesurer les capacités de raisonnement logique ​

Benchmarks pour la génération de texte contrôlée ​

Benchmarks pour modèles d'embeddings ​

Benchmarks pour modèles vision-langage ​

Références pour les modèles et les architectures ​

Références pour les méthodes d'entraînement ​

Nos contributeurs ​

Citation ​

Aperçu des grands modèles de langage (LLM) en japonais

Modèles IA génératives

Modèles développés à partir de zéro

D'usage général

Spécifique à un domaine

Modèles développés à partir d'LLM non-japonais (avec un apprentissage en continue en japonais)

D'usage général

Spécifique à un domaine

Modèles développés à partir d'LLM non-japonais (avec un post-entraînement en japonais)

D'usage général

Spécifique à un domaine

Modèles fusionnés

Modèles basés sur des API

Modèles encodeur

D'usage général

Spécifique à un domaine

Plongement lexical par mots et par documents ^[20]

Bi-Encoders

Single-representation bi-encoders

Multi-representation bi-encoders

Cross-Encoders

Modèles Vision-Language

Text+Image vers Text

Modèles développés à partir de zéro

Modèles développés à partir d'VLM non-japonais

Modèles fusionnés

Text vers Image

D'usage général

Spécifique à un domaine

Text vers Vidéo

Autres

Modèles Speech-Language

Reconnaissance automatique de la parole

Autres

Modèles Musique-Langage

Conversion Musique-Texte

Standard d'évaluation pour les LLM en japonais

Benchmarks hybrides

Référence traditionnelle basé sur des tâches de Compréhension du langage naturel (NLU)

Standard des tâches génératives ouvertes

Benchmarks pour mesurer la performance dans des domaines spécifiques

Benchmarks pour mesurer la factualité et la sécurité

Benchmarks pour mesurer les capacités de raisonnement logique

Benchmarks pour la génération de texte contrôlée

Benchmarks pour modèles d'embeddings

Benchmarks pour modèles vision-langage

Références pour les modèles et les architectures

Références pour les méthodes d'entraînement

Nos contributeurs

Citation