Skip to content

Aperçu des grands modèles de langage (LLM) en japonais

[ English | Français | 日本語 ]

LLMs en japonais et en non-japonais par taille de paramètres au fil du temps

Evolution du nombre de paramètres des LLMs en japonais et en non-japonais. Pour des informations sur le modèle japonais, nous nous référons à cet article, et pour le modèle non-japonais, nous nous référons au tableau des modèles sur LifeArchitect.ai (notez cependant que certains modèles ont été omis en raison de l'espace limité sur le graphique. De plus, le nombre de paramètres pour le modèle non-japonais inclut des valeurs estimées). Veuillez nous informer de toute correction ou ajout nécessaire.

Voici une liste des LLMs disponibles au grand public, axés sur l'apprentissage du japonais, ainsi que leurs critères d'évaluation. Cette liste est maintenue par des bénévoles qui collectent des informations à partir de diverses sources telles que des articles académiques et d'autres ressources publiques.

Attention

  1. Nous ne pouvons garantir l’exactitude ou l’exhaustivité des informations présentées ici.
  2. Certaines informations sont basées sur des conjectures et peuvent ne pas refléter votre cas d'utilisation spécifique.
  3. Bien que de nombreux modèles soient publiés sous des licences permissives telles que MIT ou Apache 2.0, certains modèles sont soumis à des conditions plus restrictives, notamment des clauses d'utilisation non commerciale (exemple CC BY-NC-SA 4.0) ou d'autres modalités légales et contractuelles

N'hésitez pas à signaler les erreurs sur la page issues. N'hésitez pas également à contribuer directement avec une pull request.

Table des matières

Modèles IA génératives

Pour les modèles multimodal, voir ci-dessous.

Modèles développés à partir de zéro

D'usage général

ArchitectureLongueur Maximale du ContexteDonnées d'entraînementDéveloppeurLicence
LLM-jp-3 172B beta1Llama
(172b-beta1, 172b-beta1-instruct)
4,096Pre-training: part of llm-jp-corpus-v3
(700B tokens)
Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN
Research and Development Center for Large Language Models (LLMC)LLM-jp-3 172B beta1 Terms of Use
Stockmark-100bLlama
(100b, 100b-instruct-v0.1)
4,096Pre-training: RedPajama, Wikipedia en japonais, Japanese mC4, Japanese CommonCrawl, Japanese Patent, Stockmark Web Corpus
(910B tokens)
Instruction Tuning (LoRA): ichikara-instruction
StockmarkMIT
Sarashina2Llama
(7b, 13b, 70b)
7b, 13b: 4,096
70b: 8,192
Pre-training: Japanese Common Crawl, SlimPajama, StarCoder
(2.1T tokens)
SB IntuitionsMIT
Sarashina1GPT-NeoX
(7b, 13b, 65b)
2,048Pre-training: Japanese Common Crawl
(1T tokens)
SB IntuitionsMIT
Tanuki-8×8BTanuki (MoE) (47b)
(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)
4,096Pre-training: various Web & synthetic datasets(1.7T tokens)
SFT, DPO: various synthetic datasets [1]
Matsuo Lab LLM Development ProjectApache 2.0
CyberAgentLM3 (CALM3)Llama
(22b-chat)
16,384undisclosed
(2.0T tokens)
CyberAgentApache 2.0
LLM-jp-13B v2.0Llama
(13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)
4,096Pre-training: llm-jp-corpus-v2
(260B tokens)
Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2
LLM-jpApache 2.0
Fugaku-LLMGPT
(13B, 13B-instruct, 13B-instruct-gguf)
2,048Pre-training: undisclosed dataset
Instruction Tuning: OASST1, Dolly Dataset, GSM8K
Titech, Tohoku Univ., Fujitsu, RIKEN, Nagoya Univ., CyberAgent, Kotoba TechnologiesFugaku-LLM Terms of Use
LLM-jp-13B v1.1GPT
(13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)
2,048Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction
DPO (LoRA): HH RLHF
LLM-jpApache 2.0
LLM-jp-13BGPT
(1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)
2,048Pré-entraînement: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (300B tokens)
Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1
LLM-jpApache 2.0
PLaMo-13BLlama[2]
(13b, 13b-instruct, 13b-instruct-nc)
base: 4,096
instruct, instruct-nc: 8,192
Pré-entraînement: C4, Project Gutenberg, RedPajama, Japanese Wikipedia, Japanese mC4
(1.5T tokens)
Instruction Tuning: Dolly, HH RLHF, OASST1, wikinews (+Alpaca in NC model)
Preferred NetworksApache 2.0
(CC BY-NC 4.0 as for NC model)
Stockmark-13bLlama
(13b, 13b-instruct)
2,048Wikipedia en japonais, Japanese CC-100, Japanese mC4, Japanese CommonCrawl, Japanese Patent, Stockmark Web Corpus
(220B tokens)
Instruction Tuning (LoRA): ichikara-instruction
Stockmarkbase: MIT
instruct: CC BY-NC-SA 4.0
Weblab-10BGPT-NeoX
(10b, 10b-instruction-sft)
2,048Japanese mC4, The Pile
(600B tokens)
Instruction Tuning: Alpaca, FLAN
Université de Tokyo Matsuo LabCC BY‑NC 4.0
Tanuki-8BTanuki (8b)
(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)
4,096Pre-training: various Web & synthetic datasets(1.3T tokens)
SFT, DPO: various synthetic datasets [1:1]
Matsuo Lab LLM Development ProjectApache 2.0
Japanese StableLM AlphaGPT-NeoX
(base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)
2,048Wikipédia, Japanese CC‑100, Japanese mC4, Japanese OSCAR, RedPajama, ensembles de données privés[3]
(750B tokens)
Instruction Tuning: Dolly, HH‑RLHF, wikinews, Alpaca (discarded in v2)
Stability AIbase: Apache 2.0
instruct (v1): Research license
instruct (v2): Apache 2.0
CyberAgentLM2 (CALM2)Llama
(7b, 7b-chat, 7b-chat-dpo-experimental)
base: 4,096
chat: 32,768
Ensembles de données japonais et anglais accessibles au public (détails inconnus)
(1.3T tokens)
DPO: Chatbot Arena Conversations JA (calm2) Dataset
CyberAgentApache 2.0
(CC BY 4.0 as for DPO model)
OpenCALMGPT-NeoX
(small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))
2,048Wikipedia en japonais, Japanese mC4, Japanese CC‑100CyberAgentCC BY‑SA 4.0
StormyGPT-NeoX
(7b(6.8b))
2,048OpenCALM fine-tuned sur
llm-japanese-dataset v0 sans âches de traduction
Université de Tokyo Izumi LabCC BY‑SA 4.0
rinna GPT
(En-Ja Bilingual)
GPT-NeoX
(4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)
8k model: 8,192
others: 2,048
Wikipedia, Japanese CC‑100, Japanese C4, RedPajama, The Pile
(524B tokens)
Instruction Tuning: HH‑RLHF, FLAN
PPO: HH‑RLHF par apprentissage par renforcement
8k: entrainé sur du long texte
rinnaMIT
japanese-large-lmGPT-NeoX
(1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)
2,048Wikipedia en japonais, Japanese CC‑100, Japanese C4, Japanese OSCAR et ensembles de données privés
(650GB)
Instruction Tuning: OASST1
LINEApache 2.0
rinna GPT
(Japanese only)
GPT / GPT-NeoX
(xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)
≤ 2,048Wikipédia en japonais, Japanese CC‑100
(1b et plus modèles à ajouter
Japanese mC4)
Instruction Tuning: HH‑RLHF, FLAN, SHP
PPO: HH‑RLHF par apprentissage par renforcement
rinnaMIT
RetrievaT5T5
(small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))
Wikipédia en japonais, Japanese mC4RetrievaCC BY‑SA 4.0
Spiral-RetNet-3b-baseRetNet
(3b)
2,048Wikipedia, Japanese CC-100, CulturaXSpiral.AIMIT
kotomamba-2.8BMamba
(2.8B-v1.0)
2,048Wikipedia en japonais, Swallow Corpus, SlimPajamaKotoba TechnologiesApache 2.0
ABEJA GPTGPT / GPT-NeoX
(large, neox-2.7b)
Japanese Wikipedia, Japanese CC‑100, Japanese OSCARABEJAMIT
WasedaGPTGPT
(small, xl(1.5b))
Wikipédia en japonais, Japanese CC‑100Université de Waseda Kawahara LabCC BY‑SA 4.0
StockmarkGPTGPT-NeoX
(1.4b)
Wikipédia en japonais (0.88B tokens), Japanese CC‑100 (10.5B tokens), ensembles de données privés (8.6B tokens)StockmarkMIT
YellowbackGPTGPT-NeoX
(1.3b)
Wikipédia en japonais, Japanese CC‑100, Japanese OSCARYellowbackApache 2.0
colorfulscoop GPTGPT
(small)
Wikipédia en japonaisColorful ScoopCC BY‑SA 3.0
TitechGPTGPT
(medium, medium-reversed) [4]
Wikipédia en japonais, Japanese CC‑100Titech Okazaki LabCC BY‑SA 4.0
KyotoUniversityGPTGPT
(small, medium, large)
Wikipédia en japonais (3.2GB), Japanese CC‑100 (85GB), Japanese OSCAR (54GB)Université de Kyoto Laboratoire de traitement des langues et des médiasCC BY‑SA 4.0
JapaneseBARTBART
(base, large)
Wikipédia en japonais (18M sentences)Université de Kyoto Laboratoire de traitement des langues et des médiasCC BY‑SA 4.0
Megagon Labs T5T5
(base)
Japanese mC4 (782 GB), Wikipédia en japonais 40b (2 GB)Megagon Labs
(Recruit Co.,Ltd.)
Apache 2.0

Spécifique à un domaine

DomaineArchitectureDonnées d'entraînementDéveloppeurLicence
Japanese Dialog TransformerDialogueTransformerPairs de réponses venant de TwitterNTTLicense en évaluaiton
Japanese News BARTAffairesBART (base)Articles de l'actualité économique en japonais (21M articles)StockmarkMIT
AcademicBARTScienceBART (base)CiNii Japanese PapersUniversité d'Ehime AI LabApache 2.0

Modèles développés à partir d'LLM non-japonais (avec un apprentissage en continue en japonais)

D'usage général

Base du ModelDonnées d'entraînementDéveloppeurLicence
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407Llama 3.1 (70b)undisclosedCyberAgentLlama 3.1 Community License
Llama 3 Swallow 70B
(70B-v0.1, 70B-Instruct-v0.1)
Llama 3 (70b)Pre-training: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath
Instruction Tuning: OASST1 [5]
Swallow ProjectLlama 3 Community License
turing-motors/Llama-3-heron-brain-70B-v0.3Llama 3 (70b)additionally trained on Llama 3 Swallow 70B (details undisclosed)TuringLlama 3 Community License
Llama 3 Youko 70B
(70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq)
Llama 3 (70b)Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(5B tokens)
Instruction Tuning: undisclosed datasetト[6]
rinnaLlama 3 Community License
Swallow 70B
(70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf)
Llama 2 (70b)Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1: OASST1, OASST2
Swallow ProjectLlama 2 Community License
KARAKURI LM
(70b-v0.1, 70b-chat-v0.1)
Llama 2 (70b)Pre-training: mC4, CC100, OSCAR, RedPajama, undisclosed dataset
(16B tokens)
SteerLM: OASST2, undisclosed dataset
KARAKURILlama 2 Community License[7]
Japanese Stable LM Beta 70B
(base-beta-70b, instruct-beta-70b)
Llama 2 (70b)Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3)
(100B tokens)
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
Stability AILlama 2 Community License
Swallow-MX 8x7B
(8x7b-NVE-v0.1)
Mixtral-8x7B-Instruct-v0.1 (46.7b)Pre-training: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The VaultSwallow ProjectApache 2.0
KARAKURI LM 8x7B Instruct v0.1
(8x7b-instruct-v0.1)
Mixtral-8x7B-Instruct-v0.1 (46.7b)trained Swallow-MX 8x7B on the following datasets: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, undisclosed datasetKARAKURIApache 2.0 (?)[8]
KARAKURI LM 8x7B Chat v0.1
(8x7b-chat-v0.1)
Mixtral-8x7B-Instruct-v0.1 (46.7b)trained Swallow-MX 8x7B on OASST2, HelpSteer, and undisclosed datasets using SteerLMKARAKURIApache 2.0
ABEJA-Mixtral-8x7B-japanese
(8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged)
Mixtral-8x7B-Instruct-v0.1 (46.7b)
*Le modèle sans "Instruct" dans son nom est basé sur Mixtral-8x7B-v0.1
Pre-training: Japanese CC, Redpajama, undisclosed dataset
450B tokens)
ABEJAApache 2.0
Nekomata 14B
(14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)
Qwen (14b)Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(66B tokens)
Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset
rinnaTongyi Qianwen LICENSE
Swallow 13B
(13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf)
Llama 2 (13b)Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1: OASST1, OASST2
Swallow ProjectLlama 2 Community License
LEIA-Swallow-13B
(13b)
Llama 2 (13b)additionally trained Swallow 13B using LEIAIndividual (Ikuya Yamada, Ryokan Ri)Llama 2 Community License
ELYZA-japanese-Llama-2-13b
(13b, 13b-instruct, 13b-fast, 13b-fast-instruct)
Llama 2 (13b)Pre-training: Japanese Wikipedia, Japanese OSCAR, and other crawled data
(18B tokens)
Instruction Tuning: undisclosed dataset
ELYZALlama 2 Community License
cyberagent/Mistral-Nemo-Japanese-Instruct-2408Mistral NeMo (12b)undisclosedCyberAgentApache 2.0
Llama 3 Swallow 8B
(8B-v0.1, 8B-Instruct-v0.1)
Llama 3 (8b)Pre-training: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath
Instruction Tuning: OASST1 [5:1]
Swallow ProjectLlama 3 Community License
turing-motors/Llama-3-heron-brain-8B-v0.3Llama 3 (8b)additionally trained on Llama 3 Swallow 8B (details undisclosed)TuringLlama 3 Community License
Llama 3 Youko 8B
(8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq)
Llama 3 (8b)Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(22B tokens)
Instruction Tuning[6:1]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, undisclosed dataset
DPO: HelpSteer, HelpSteer2, undisclosed dataset
rinnaLlama 3 Community License
Llama 3 ELYZA JP 8B
(8B, 8B-GGUF, 8B-AWQ)
Llama 3 (8b)undisclosedELYZALlama 3 Community License
Llama 3 neoAI 8B Chat v0.1
(8B-Chat-v0.1)
Llama 3 (8b)undisclosedneoAILlama 3 Community License
Swallow 7B
(7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)
Llama 2 (7b)Pre-training: Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1: OASST1, OASST2
Swallow ProjectLlama 2 Community License
LEIA-Swallow-7B
(7b)
Llama 2 (7b)additionally trained Swallow 7B using LEIAIndividual (Ikuya Yamada, Ryokan Ri)Llama 2 Community License
ELYZA-japanese-Llama-2-7b
(7b, 7b-instruct, 7b-fast, 7b-fast-instruct)
Llama 2 (7b)Pre-training: Japanese Wikipedia, Japanese OSCAR, and other crawled data
(18B tokens)
Instruction Tuning: undisclosed dataset
ELYZALlama 2 Community License
Youri 7B
(7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)
Llama 2 (7b)Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(40B tokens)
Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset
rinnaLlama 2 Community License
houou-7b
(instruction-7b-v1, instruction-7b-v2, instruction-7b-v3)
Llama 2 (7b)Instruction-tuned Youri 7B (base) on ichikara-instructionMoneyForwardLlama 2 Community License
Japanese Stable LM Beta 7B
(base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)
Llama 2 (7b)Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3)
(100B tokens)
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
Stability AILlama 2 Community License
SambaLingo-Japanese
(Base, Chat)
Llama 2 (7b)Pre-training: CulturaX
Instruction Tuning: ultrachat_200k
DPO: ultrafeedback, cai-conversation-harmless
SambaNova SystemsLlama 2 Community License (?)[8:1]
blue-lizard
(blue-lizard)
Llama 2 (7b)undisclosedDeepreneurLlama 2 Community License
Swallow-MS 7B
(7b-v0.1, 7b-instruct-v0.1)
Mistral-7B-v0.1 (7b)Pre-training: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, OASST1
Swallow ProjectApache 2.0
RakutenAI-7B
(7B, 7B-instruct, 7B-chat)
Mistral-7B-v0.1 (7b)Pre-training: undisclosed
Instruction Tuning: Dolly Dataset, OASST1, datasets converted from the train split of NLU datasets (like jaster), undisclosed dataset
RakutenApache 2.0
Japanese Stable LM Gamma 7B
(base-gamma-7b, instruct-gamma-7b)
Mistral-7B-v0.1 (7b)Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3)
(100B tokens)
Instruction Tuning: Dolly Dataset, HH RLHF, wikinews subset of llm-japanese-dataset
Stability AIApache 2.0
ChatNTQ JA 7B
(7b-v1.0)
Mistral-7B-v0.1 (7b)Instruction-tuned Japanese Stable LM Gamma 7B (base) on their own datasetsNTQ SolutionApache 2.0
Shisa Gamma 7B
(7b-v1)
Mistral-7B-v0.1 (7b)Instruction-tuned Japanese Stable LM Gamma 7B (base) on ultra-orca-boros-en-jaAUGMXNTApache 2.0 (?)[8:2]
Shisa 7B
(base-7b-v1, 7b-v1)
Mistral-7B-v0.1 (7b)Pre-training: shisa-pretrain-en-ja-v1 (8B tokens)
Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1
AUGMXNTApache 2.0
Karasu
(7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)
Mistral-7B-v0.1 (7b)Additionally trained Shisa 7B (base) on Aozora Bunko, Japanese Law Precedent Dataset, Japanese Wikipedia, Japanese domain webscrapes from the Japanese subset of CulturaX, UltraChat 200k
(7B tokens)
Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, undisclosed dataset
LightblueApache 2.0 (?)[8:3]
Nekomata 7B
(7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)
Qwen (7b)Pre-training: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, undisclosed dataset
(66B tokens)
Instruction Tuning: Dolly Dataset, FLAN, subsets of llm-japanese-dataset
rinnaTongyi Qianwen LICENSE
lightblue/japanese-mpt-7bMPT (7b)Japanese mC4LightblueApache 2.0 (?)[8:4]
Japanese Stable LM 3B-4E1T
(3b-4e1t-base, 3b-4e1t-instruct)
StableLM-3B-4E1T (3b)Pre-training: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(excluding Books3)
(100B tokens)
Instruction Tuning: Dolly Dataset, HH RLHF, wikinews subset of llm-japanese-dataset
Stability AIApache 2.0
kotomamba-2.8B-CLmamba-2.8b-slimpj
(2.8b)
Japanese Wikipedia, Swallow Corpus, SlimPajamaKotoba TechnologiesApache 2.0
Japanese Stable LM 2 1.6B
(base, instruct)
Stable LM 2 1.6B (1.6b)Pre-training: Wikipedia, CulturaX
Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1
Stability AISTABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE
karasu-1.1BTinyLlama (1.1b)Pre-training: Japanese OSCAR, Japanese mC4
(3B tokens)
LightblueApache 2.0

Spécifique à un domaine

DomaineBase du ModelDéveloppeurLicence
Llama3-Preferred-MedSwallow-70B
(70B)
MédecineLlama 3 (70b)Preferred NetworksLlama 3 Community License
AIgroup-CVM-utokyohospital/MedSwallow-70bMédecineLlama 2 (70b)Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaireCC BY-NC-SA 4.0
nekomata-14b-pfn-qfin
(qfin, qfin-inst-merge)
FinanceQwen (14b)Preferred NetworksTongyi Qianwen LICENSE
Watashiha-Llama-2-13B-Ogiri-sft
(sft, sft-neuron)
OogiriLlama 2 (13b)WatashihaLlama 2 Community License
ELYZA-japanese-CodeLlama-7b
(7b, 7b-instruct)
CodageCode Llama
(7b)
ELYZALlama 2 Community License
AIBunCho/japanese-novel-gpt-j-6bGénération de récitsGPT-J (6b)Individuel (Hiroyuki Osone)CreativeML OpenRAIL-M License
NovelAI/genji-jpGénération de récitsGPT-J (6b)NovelAI

Modèles développés à partir d'LLM non-japonais (avec un affinement par instructions en japonais)

D'usage général

Base du ModelDonnées d'entraînementDéveloppeurLicence
ao-Karasu
(72B)
Qwen1.5 (72b)ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, Japanese technical blogs, News stories, QA site answers, undisclosed datasetLightblueTongyi Qianwen LICENSE (?)[8:5]
AXCXEPT/Llama-3.1-70B-EZO-1.1-itLlama 3.1 (70b)AxcxeptLlama 3.1 Community License
Llama 3 shisa-v1-llama3-70b
(70b)
Llama 3 (70b)ultra-orca-boros-en-ja-v1Shisa.AILlama 3 Community License (?)[8:6]
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japaneseLlama 2 (70b)Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaireLlama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1Llama 2 (70b)Université de Doshisha Media Informatics Lab
Qarasu
(14B-chat-plus-unleashed)
Qwen (14b)ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, undisclosed datasetLightblueTongyi Qianwen LICENSE (?)[8:7]
Sparticle/llama-2-13b-chat-japanese-loraLlama 2 (13b)Sparticle
izumi-lab/llama-13b-japanese-lora-v0-1epLlama (13b)Université de Tokyo Izumi Lab
AXCXEPT/EZO-Common-9B-gemma-2-itGemma 2 (9b)AxcxeptGemma Terms of Use
AXCXEPT/EZO-Humanities-9B-gemma-2-itGemma 2 (9b)AxcxeptGemma Terms of Use
AXCXEPT/Llama-3.1-8B-EZO-1.1-itLlama 3.1 (8b)AxcxeptLlama 3.1 Community License
Llama 3 Suzume 8B
(8B-japanese, 8B-japanese-gguf)
Llama 3 (8b)megagonlabs/instruction_ja, ShareGPT, undisclosed datasetLightblueLlama 3 Community License (?)[8:8]
Llama 3 shisa-v1-llama3-8b
(8b)
Llama 3 (8b)ultra-orca-boros-en-ja-v1Shisa.AILlama 3 Community License (?)[8:9]
AXCXEPT/Llama-3-EZO-8b-Common-itLlama 3 (8b)AxcxeptLlama 3 Community License
ganchengguang/Yoko-7B-Japanese-v1Llama 2 (7b)Université nationale de Yokohama Mori Lab
Sparticle/llama-2-7b-chat-japanese-loraLlama 2 (7b)Sparticle
izumi-lab/llama-7b-japanese-lora-v0-5epLlama (7b)Université de Tokyo Izumi Lab
lightblue/jodMistral-7B-SlimOrca (7b)LightblueApache 2.0
NTQAI/chatntq-7b-jpntunedRWKV-4 World (7b)NTQ Solution
Borea
(Jp, Common, Coding)
Phi-3.5 (3.8b)AxcxeptMIT
AXCXEPT/EZO-Common-T2-2B-gemma-2-itGemma 2 (2b)AxcxeptGemma Terms of Use

Spécifique à un domaine

DomaineBase du ModelDéveloppeurLicence
JMedLoRA
(llama2-jmedlora-6.89ep)
MédecineLlama 2 (70b)Université de Tokyo - AI Group du Département hospitalier de médecine cardiovasculaireCC BY-NC 4.0

Modèles fusionnés

Modèles originaux (LLMs japonais en gras)DéveloppeurLicence
EQUES/MedLLama3-JP-v2Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8BEQUESLlama 3 Community License
EvoLLM-JP-A
(v1-7B)
Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002Sakana AIApache 2.0
EvoLLM-JP
(v1-7B, v1-10B)
Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002Sakana AIMICROSOFT RESEARCH LICENSE

Modèles basés sur des API

Longueur Maximale du ContexteDéveloppeurPlateforme
Solar mini chat ja
(solar-1-mini-chat-ja)
32,768Upstageself-owned
AI Novelist2,400 ~ 8,192Bit192self-owned
LHTM-OPTalt Inc.AWS Marketplace

Modèles encodeur

D'usage général

ArchitectureDonnées d'entraînementDéveloppeurLicenceHuggingFace? [9]
KyotoUniBERTBERT (base, large)Wikipédia en japonais (18M articles)Université de Kyoto Laboratoire de traitement des langues et des médiasApache 2.0
TohokuUniversityBERTBERT (base, large)base (v1):
Wikipédia en japonais (17M articles / 2.6GB)
base (v2) & large:
Wikipédia en japonais 4.0GB
base (v3) & large (v2):
Wikipédia en japonais (4.9GB), Japanese CC‑100 (74.3GB)
Université de Tohoku - Groupe TALbase (v1, v2) & large: CC BY‑SA 3.0
base (v3) & large (v2): Apache 2.0

(base (v1), base (v1, char-level), base (v2), base (v2, char-level), large, large (char-level), base (v3), base (v3, char-level), large (v2), large (v2, char-level))
NICT BERTBERT (base)Wikipédia en japonaisNICTCC BY 4.0
Laboro BERTBERT (base, large)Corpus web en japonais
(Actualités, blogs, etc) (12GB)
Laboro.AICC BY‑NC 4.0
colorfulscoop BERTBERT (base)Wikipédia en japonaisColorful ScoopCC BY‑SA 3.0
UniversityOfTokyoBERTBERT (small)Wikipédia en japonais (2.9GB)Université de Tokyo Izumi LabCC BY‑SA 4.0
chiTra (Sudachi Transformers)BERT (base)NINJAL Web Japanese Corpus (148GB)NINJAL, WAP Tokushima - Laboratoire IA et TALApache 2.0
ACCMS BERTBERT (base)Wikipédia en japonais (3.3GB)Université de Kyoto ACCMSCC BY‑SA 4.0
HitachiBERTBERT (base)Wikipédia en japonais, Japanese CC‑100HitachiCC BY‑NC‑SA 4.0[10]
RetrievaBERTBERT [11]Japanese CommonCrawl, RefinedWeb, Chinese Wikipedia, Korean Wikipedia, The StackRetrievaApache 2.0
Bandai Namco DistilBERTDistilBERT(Distillation de BERT (base) de l'Université du Tohoku)Bandai Namco ResearchMIT
Laboro DistilBERTDistilBERT(Distillation of Laboro BERT(base))Laboro.AICC BY‑NC 4.0
LINE DistilBERTDistilBERT(Distillation de LINE en interne BERT model)LINEApache 2.0
rinna RoBERTaRoBERTa (base)Wikipédia en japonais, Japanese CC‑100rinnaMIT
WasedaRoBERTaRoBERTa (base, large)Wikipédia en japonais, Japanese CC‑100Waseda Kawahara LabCC BY‑SA 4.0
(base, large, large (seq512))[12]
InformatixRoBERTaRoBERTa (base)Wikipédia en japonais, Web Articles
(25GB)
InformatixApache 2.0
KyotoUniversityRoBERTaRoBERTa (base, large)Wikipédia en japonais, Japanese CC‑100Université de Kyoto Laboratoire de traitement des langues et des médiasCC BY‑SA 4.0
(base (char-level), large (char-level))
YokohamaNationalRoBERTaRoBERTa (base)Wikipédia en japonais (3.45GB)Université nationale de Yokohama - Mori LabApache 2.0
Megagon Labs RoBERTaRoBERTa (base)[13]Japanese mC4 (200M sentences)Megagon Labs
(Recruit Co.,Ltd.)
MIT
ACCMS RoBERTaRoBERTa (base)Wikipédia en japonais (3.3GB) + Japanese CC‑100 (70GB)Université de Kyoto ACCMSCC BY‑SA 4.0
CinnamonELECTRAELECTRA (small)Wikipédia en japonaisCinnamonApache 2.0
Megagon Labs ELECTRAELECTRA (base)Japanese mC4 (200M sentences)Megagon Labs
(Recruit Co.,Ltd.)
MIT
UniversityOfTokyoELECTRAELECTRA (small, base)Wikipédia en japonais (2.9GB)Université de Tokyo Izumi LabCC BY‑SA 4.0
(small, base)
JapaneseRoFormerRoFormer (base)Wikipédia en japonais (3.45GB)Université nationale de Yokohama - Mori LabApache 2.0
JapaneseLUKELUKE (base, large)Wikipédia en japonaisStudio OusiaApache 2.0
(base, large)
KyotoUniversityDeBERTaV2DeBERTaV2 (tiny, base, large)Wikipédia en japonais, Japanese CC‑100, Japanese OSCAR
(171GB)
Université de Kyoto - Laboratoire du traitement des langues et médiasCC BY‑SA 4.0
(tiny, tiny (char-level), base, large)
KyotoUniversityDeBERTaV3DeBERTaV3 (base)llm-jp-corpusKyoto University Language Media Processing LabApache 2.0
UniversityOfTokyoDeBERTaV2DeBERTaV2 (small, base)Wikipédia en japonais, Japanese Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCARUniversity of Tokyo Izumi LabCC BY-SA 4.0◯ (small, base)
GLOBIS DeBERTaV3DeBERTaV3 (xsmall, base, large)Wikipedia, WikiBooks, Aozora Bunko, Japanese CC-100, Japanese mC4, Japanese OSCARGLOBISCC BY-SA 4.0◯ (xsmall, base, large)
JapaneseBigBirdBigBird (base)Wikipédia en japonais, Japanese CC‑100, Japanese OSCARWaseda Kawahara LabCC BY‑SA 4.0
JapaneseLayoutLMLayoutLM (base)Pre-trained on Japanese Wikipedia, initialized with TohokuUniversityBERTThe Japan Research Institute, LimitedCC BY-SA 3.0

Spécifique à un domaine

DomaineArchitectureDonnées d'entraînementDéveloppeurLicenceHuggingFace?
JapaneseNewsBERTAffairesBERT (base)Articles sur l'économie en japonais(3M articles)StockmarkCC BY 4.0
JapaneseNewsXLNetAffairesXLNet (base)Articles sur l'économie en japonais (3M articles)Stockmark
※ Version non officielle
JapaneseNewsALBERTAffairesALBERT (base)Articles sur l'économie en japonais (3M articles)Stockmark
JapaneseBlogELECTRALangue familièreELECTRA (small)Corpus de blogs en japonais (354M sentences)Université de technologie de Kitami - Laboratoire de Masui-PtaszynskiCC BY‑SA 4.0
JapaneseSpokenLanguageBERTLangue parléeBERT (base)Formation supplémentaire pour TohokuUniversityBERT en utilisant le Corpus of Spontaneous Japanese (CSJ)
(Dans le modèle DAPT, le compte rendu de la diète est également utilisé)
RetrievaApache 2.0
JapaneseFinancialBERTFinanceBERT (small, base)[14]Wikipédia en japonais, Japanese Financial Corpus (27M sentences/5.2GB)Université de Tokyo Izumi LabCC BY‑SA 4.0
(small, base)
JapaneseFinancialELECTRAFinanceELECTRA (small)Wikipédia en japonais (20M sentences/2.9GB), Japanese Financial Corpus (27M sentences/5.2GB)Université de Tokyo Izumi LabCC BY‑SA 4.0
UTH-BERTMédecineBERT (base)Dossiers médicaux en japonais (120M lignes)Université de Tokyo Hôpital
Cours de développement en IA pour la médecine
CC BY‑NC‑SA 4.0
medBERTjpMédecineBERT (base)Wikipédia en japonais, Corpus médical en japonais ("今日の診療プレミアム/Today's Care Premium" Web Version)Université d'Osaka Hôpital
Laboratoire d'information médicale
CC BY‑NC‑SA 4.0
JMedRoBERTaMédecineRoBERTa (base)Japanese Medical Papers (11M sentences/1.8GB)Université de Tokyo Aizawa LabCC BY‑NC‑SA 4.0
(ManbyoWordPiece, SentencePiece)[15]
AcademicRoBERTaScienceRoBERTa (base)CiNii Japanese Papers (6.3M sentences)Université d'Ehime Laboratoire IAApache 2.0
MinpakuBERTPatrimoine culturelBERT (base)Formation supplémentaire avec les données du patrimoine culturel du Musée national d'ethnologie sur Tohoku University BERTUniversité de Hyogo Ohshima LabMIT◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token)
local-politics-BERTPolitiqueBERT (base)Procès-verbaux de la Diète nationale, Procès-verbaux de l'Assemblée localeProjet de Corpus des Procès-Verbaux des Assemblées Locales JaponaisesCC BY-SA 4.0◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) [16]

Plongement lexical par mots et par documents

ArchitectureDéveloppeurLicence
JaColBERTv2.5
(JaColBERTv2.4, JaColBERTv2.5)
ColBERTv2Answer.AIMIT
JaColBERTv2
(JaColBERTv2)
ColBERTv2Individuel (Benjamin Clavié)MIT
JaColBERT
(JaColBERT)
ColBERTv2Individuel (Benjamin Clavié)MIT
Japanese SimCSE
(cl-nagoya/unsup-simcse-ja-base, cl-nagoya/unsup-simcse-ja-large, cl-nagoya/sup-simcse-ja-base, cl-nagoya/sup-simcse-ja-large)
SimCSEUniversité de Nagoya - Takeda-Sasano GroupCC BY-SA 4.0
GLuCoSE
(pkshatech/GLuCoSE-base-ja)
Modèle de plongement lexical basé sur LUKE
(GLuCoSE)
PKSHA TechnologyApache 2.0
colorfulscoop/sbert-base-jaSentence-BERTColorful ScoopCC BY‑SA 4.0
MU-Kindai/SBERT-JSNLI-base
MU-Kindai/SBERT-JSNLI-large
Sentence-BERTUniversité de Kindai
MU-Kindai/Japanese-SimCSE-BERT-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-large-unsup
MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-base-sup
MU-Kindai/Japanese-SimCSE-BERT-large-sup
SimCSEUniversité de KindaiMIT
pkshatech/simcse-ja-bert-base-clcmlpSimCSEPKSHA TechnologyCC BY‑SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base
MU-Kindai/Japanese-MixCSE-BERT-large
MixCSEUniversité de KindaiMIT
MU-Kindai/Japanese-DiffCSE-BERT-baseDiffCSEUniversité de KindaiMIT
bclavie/fio-base-japanese-v0.1個人 (Benjamin Clavié)
cl-nagoya/shioriha-large-ptUniversité de Nagoya - Takeda-Sasano Group

Modèles Vision-Language

Text+Image vers Text

D'usage général

Architecture / Base du ModelDonnées d'entraînementDéveloppeurLicence
AXCXEPT/EZO-InternVL2-26BInternVL2-AxcxeptMIT
llava-calm2-siglip
(llava-calm2-siglip)
LLaVA-1.5coversational data generated from MS-COCO and VisualGenomeCyberAgentApache 2.0
Llama-3-EvoVLM-JP-v2
(v2)
-- (merged from Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, and Bunny-v1.1-Llama-3-8B-V)Sakana AILlama 3 Community License
AXCXEPT/Llama-3-EZO-VLM-1Llama-3-EvoVLM-JP-v2-AxcxeptLlama 3 Community License
EvoVLM-JP
(v1-7B)
-- (merged from Shisa Gamma 7B (v1) and LLaVA-1.6-Mistral-7B)Sakana AIApache 2.0
Heron
(blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1)
BLIP-2 / GITv1: LLaVA-Instruct-150K-JA or LLaVA-Instruct-620K-JA
v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset
TuringCC BY-NC 4.0
Japanese Stable VLM
(japanese-stable-vlm)
LLaVA-1.5Japanese CC12M, STAIR Captions, jeu de données Japanese Visual Genome VQAStability AISTABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha
(japanese-instructblip-alpha)
InstructBLIPJapanese CC12M, STAIR Captions, jeu de données Japanese Visual Genome VQAStability AIJAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4
(bilingual-gpt-neox-4b-minigpt4)
MiniGPT-4CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA datasetrinnaMIT

Spécifique à un domaine

ArchitectureDomaineDéveloppeurLicence
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlmLLaVAOogiriWatashihaLlama 2 Community License

Text vers Image

D'usage général

ArchitectureTraining DataDéveloppeurLicense
CommonArt β
(commonart-beta)
PixArt-ΣCommonCatalog-cc-by, Megalith-10M, Smithonian Open Access, ArtBench (CC-0 only)AI PicassoApache 2.0
EvoSDXL-JP
(v1)
Stable Diffusion- (merged from several diffusion models, including Japanese Stable Diffusion XL)Sakana AIApache 2.0[17]
Japanese Stable Diffusion XL
(japanese-stable-diffusion-xl)
Stable DiffusionInconnuStability AISTABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
TohokuUniversity Stable Diffusion
(base, refiner)
Stable DiffusionCorpus parallèle anglais-japonais de la tâche partagée WMT2023, environ 13 millions de légendes de laion2B-multiUniversité de Tohoku - Groupe TALCreativeML OpenRAIL-M License
rinna Stable Diffusion
(japanese-stable-diffusion)
Stable DiffusionLAION-5B Japanese Subset (100M images)rinnaCreativeML OpenRAIL-M License

Spécifique à un domaine

ArchitectureDomaineDéveloppeurLicence
Evo-Nishikie
(v1)
Stable Diffusion (ControlNet)Ukiyo-eSakana AIApache 2.0[17:1]
Evo-Ukiyoe
(v1)
Stable DiffusionUkiyo-eSakana AIApache 2.0[17:2]

Autres

ArchitectureDonnées d'entraînementDéveloppeurLicence
LY CLIP
(clip-japanese-base)
CLIPCommonCrawl, CC12M, YFCC100MLY Corp.Apache 2.0
Recruit CLIP
(japanese-clip-vit-b-32-roberta-base)
CLIPenviron 120 millions de légendes de laion2B-multiRecruit Co.,Ltd.CC BY-4.0
Japanese Stable CLIP
(japanese-stable-clip-vit-l-16)
SigLIPCC12M traduit en japonais, STAIR CaptionsStability AISTABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP
(japanese-clip-vit-b-16)
CLIPCC12M traduit en japonaisrinnaApache 2.0
rinna CLOOB
(japanese-cloob-vit-b-16)
CLOOBCC12M traduit en japonaisrinnaApache 2.0
HAKUHODO Technologies CLIP
(base, deeper, wider)
CLIPabout 120 million captions from laion2B-multiHAKUHODO TechnologiesCC BY-NC-SA 4.0

Modèles Speech-Language

Reconnaissance automatique de la parole

ArchitectureDonnées d'entraînementDéveloppeurLicence
Kotoba-Whisper
(v1.0, v1.0-ggml, v1.0-faster, v1.1)
Distil-WhisperReazonSpeechKotoba TechnologiesApache 2.0
Nue ASR
(nue-asr)
Nue ASR
(HuBERT + LLM)
ReazonSpeechrinnaApache 2.0
ReazonSpeech
(espnet-v1, espnet-next, espnet-v2, nemo-v2)
ESPnet (Conformer-Transducer) / NeMo (FastConformer-RNNT)ReazonSpeechReazon HoldingsApache 2.0

Autres

ArchitectureDonnées d'entraînementDéveloppeurLicence
Kotoba-Speech
(v0.1)
TransformerundisclosedKotoba TechnologiesApache 2.0
UniversityOfTokyoHuBERT
(base-jtube)
HuBERTJTubeSpeechUniversity of Tokyo
Saruwatari & Takamichi Lab
MIT
rinna HuBERT
(base, large)
HuBERTReazonSpeechrinnaApache 2.0

Standard d'évaluation pour les LLM en japonais

Benchmarks hybrides

DescriptionDéveloppeur
Nejumi LLM Leaderboard3Évalue les capacités linguistiques japonaises des LLM sous trois angles : compétence en compréhension linguistique, aptitude à l'application, et alignement (incluant le contrôle et la sécurité). Pour plus de détails, voir cet article.Weights & Biases
Japanese LLM EvaluationRéalise une évaluation complète de divers LLM basés sur trois types de tâches : compréhension et génération du japonais, dialogues japonais multi-tours, et compréhension et génération en anglais. Publie également swallow-evaluation, un script d'évaluation qui intègre et améliore les outils existants d'évaluation des LLM.Swallow Project

Référence traditionnelle basé sur des tâches de Compréhension du langage naturel (NLU)

DescriptionDéveloppeur
llm-jp-evalUn outil qui évalue automatiquement les LLM japonais à travers plusieurs jeux de données.
La liste complète des jeux de données pris en charge peut être trouvée ici (qui comprend également des tâches telles que JNLI et JCommonsenseQA de JGLUE).
Les résultats de l'évaluation sont compilés sur le classement llm-jp-eval.
LLM-jp
JP Language Model Evaluation HarnessUn fork par Stability AI de EleutherAI/lm-evaluation-harness. Il s'agit d'un outil pour évaluer automatiquement les LLM japonais à travers plusieurs jeux de données.
La liste complète des jeux de données pris en charge peut être trouvée ici (qui comprend également des tâches telles que JNLI et JCommonsenseQA de JGLUE).
Il y a un résumé détaillé des résultats de l'évaluation par rinna : [rinna] Benchmark de Stability-AI/lm-evaluation-harness
Stability AI
JGLUEVersion japonais de GLUE référence suite, avec les tâches MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, et JCommonsenseQA. JCoLA vient du laboratoire d'Oseki de l'université de Tokyo. Voir ici and here (ja only) pour plus d'informations sur chaque tâches.Université de Waseda Laboratoire Kawahara et Yahoo
JMMLUUn benchmark construit comme une version japonaise du MMLU Benchmark, consistant en des questions à choix multiples de divers domaines académiques, y compris les sciences naturelles, les humanités et les sciences sociales. En plus de la traduction du MMLU original, il contient de nouveaux problèmes basés sur le contexte culturel unique du Japon (problèmes spécifiques au Japon).Université de Waseda Laboratoire Kawahara
Japanese Open LLM LeaderboardSemblable à Open LLM Leaderboard de Huggingface, ce classement fournit une vérification sur les LLM japonais. Vous pouvez vérifier la performance des LLM japonais dans des tâches en anglais.LLM-jp

Standard des tâches génératives ouvertes

DescriptionDéveloppeur
Japanese MT-benchVersion japonaise du MT-bench qui interroge sur la capacité à converser en plusieurs tournures. Il inclut 80 questions, 10 de chacune des 8 catégories : écriture, jeu de rôle, raisonnement, maths, codage, extraction, STEM, sciences humaines. Certaines questions ont été modifiées pour s'adapter à la culture japonaise lors de la création de la version japonaise. Il comprend également un script qui réalise une évaluation absolue en 10 niveaux par GPT-4.Stability AI
Rakuda BenchmarkClassement basé sur les réponses des modèles avec 40 questions ouvertes la géographie, l'histoire, la politique, et la société japonaise. Utilise GPT-4 pour évaluer les résultats du modèle par paires, puis classe les modèles en ajustant le maximum de vraisemblance sur le modèle de probabilité d'Elo/Bradley-Terry avec les préférences de GPT-4.YuzuAI
ELYZA-tasks-100Classement basé sur les réponses des modèles avec 100 tâches complexes et diverses, y compris les tâches testant la synthèse, la correction, l'abstraction, l'induction et d'autres compétences. Utilise des humains pour noter les réponses du modèle, puis classe les modèles en fonction de leurs scores moyens.ELYZA
Japanese Vicuna QA BenchmarkIl s'agit de la version japonaise de vicuna-blog-eval, qui est le précurseur de MT-Bench. Il comprend 80 questions sur la connaissance générale, le jeu de rôle, le bon sens, l'estimation de Fermi, la pensée contrefactuelle, le codage, les mathématiques, et l'écriture. Il comprend également un script pour une évaluation automatique par GPT-4 (calcul du taux de victoire). Le tableau de classement peut être trouvé ici.Université de Kyoto Laboratoire de traitement des langues et des médias
Tengu-BenchComprend 120 questions ouvertes de diverses catégories. Catégories de questions : interprétation des tableaux, puzzles logiques, génération d'idées, appel de fonctions, résumé de longs documents (plus de mille jetons), résumé de conversations, questions fermées sur des longs documents (plus de mille jetons), honorifiques, création de projet, mathématiques, traduction, extraction, contrôle éthique, estimation des coûts, Japon, bavardage, calembours, formatage, construction, affaires, jugement juridique, politique, questions hypothétiques.Lightblue
ShaberiUn cadre qui peut évaluer collectivement le Japanese MT-bench, le Rakuda Benchmark, le ELYZA-tasks-100, et le Tengu-Bench. Il existe également un fork de Shisa.AI.Lightblue

Benchmarks pour mesurer la performance dans des domaines spécifiques

DescriptionDéveloppeur
Japanese Language Model Financial Evaluation HarnessUn benchmark pour les LLM japonais dans le secteur financier. Il comprend des tâches telles que l'analyse des sentiments dans la finance (chabsa), des tâches de connaissances de base en analyse de titres (cma_basics), des tâches relatives aux audits dans les examens de comptable public certifié (cpa_audit), des tâches à questions à choix multiple dans les examens de planificateur financier (fp2), et des tâches d'examen blanc pour les examens de vendeurs de titres (security_sales_1). Pour plus de détails, veuillez consulter ici.Preferred Networks
pfmt-bench-fin-jaUn benchmark pour mesurer les capacités de génération des LLM japonais dans le domaine financier.Preferred Networks
Stockmark Business QuestionsLa collection comprend 50 questions qui approfondissent les connaissances sur des sujets tels que les tendances du marché, l'actualité, les problèmes sociaux et les tendances commerciales.Stockmark
JMED-LLMUn ensemble de données pour évaluer les LLM dans le domaine médical japonais. Il compile des tâches de traitement du langage médical japonais développées précédemment pour le benchmarking des LLM.NAIST Social Computing Lab.
karakuri-benchUn ensemble de données pour mesurer la performance des LLM japonais dans le support client.KARAKURI

Benchmarks pour mesurer la factualité et la sécurité

DescriptionDéveloppeur
JTruthfulQALa version japonaise du dataset pour évaluer la factualité des LLM TruthfulQA. Il comprend des questions sur les superstitions et d'autres croyances tenues par certaines personnes qui ne sont pas factuelles, ainsi que des questions sur les connaissances spécifiques au Japon, le tout collecté à partir de zéro.Waseda University Kawahara Lab
JCommonsenseMoralityUn dataset sur la moralité de sens commun japonaise. Les phrases décrivant des actions sont étiquetées avec des valeurs binaires indiquant si elles sont moralement répréhensibles ou acceptables.Hokkaido University Language Media Lab
JBBQLa version japonaise du dataset de questions-réponses sur les biais sociaux BBQ, développée par la traduction, la révision et l'ajout de questions basées sur la culture et les coutumes japonaises.University of Tokyo Yanaka Lab

Benchmarks pour mesurer les capacités de raisonnement logique

DescriptionDéveloppeur
JFLD (Japanese Formal Logic Deduction)Un dataset pour évaluer les capacités de raisonnement déductif des LLM japonais (la version japonaise de la FLD (Formal Logic Deduction) proposée par les mêmes auteurs). Il se caractérise par le fait qu'il est composé d'exemples contrefactuels pour évaluer indépendamment des connaissances que possède le LLM.Hitachi
JHumanEvalUne version japonaise du benchmark HumanEval, qui évalue la capacité à générer du code Python à partir d'instructions en anglais. En créant la version japonaise, le texte a d'abord été traduit automatiquement, puis corrigé manuellement.Université des Femmes du Japon - Laboratoire Kuramitsu

Benchmarks pour la génération de texte contrôlée

DescriptionDéveloppeur
LCTG BenchUn benchmark pour la contrôlabilité des LLM japonais. Il évalue si les LLM peuvent adhérer à des contraintes sur quatre aspects : le format de sortie, le nombre de caractères, les mots-clés et les mots interdits. La qualité du texte généré est également évaluée.CyberAgent

Benchmarks pour modèles d'embeddings

DescriptionDéveloppeur
JMTEBUn benchmark développé comme la version japonaise de MTEB. Il se compose de tâches telles que le regroupement de documents, la classification de textes, la similarité de phrases, la prédiction d'étiquetage de paires de phrases et l'extraction de texte (une tâche de reclassement a été récemment ajoutée).SB Intuitions
JQaRAUn ensemble de données pour évaluer l'extraction de documents japonais et la précision du reclassement. Chacune des 1,667 questions est attribuée à 100 documents candidats, dont au moins un peut répondre à la question. Les questions sont tirées de JAQKET, et les documents candidats proviennent de Wikipédia japonais.Individuel (Yuichi Tateno)
JaCWIRUn ensemble de données créé pour évaluer l'extraction de documents et le reclassement dans des domaines autres que Wikipédia. Chacune des 5,000 questions est attribuée à une page Web servant de source pour la question et à 99 pages Web sans rapport.Individuel (Yuichi Tateno)

Benchmarks pour modèles vision-langage

DescriptionDéveloppeur
Heron VLM Leaderboard powered by Nejumi/WandBRésume les résultats d'évaluation de Japanese-Heron-Bench et LLaVA-Bench-In-the-Wild (Japanese).Turing, Weights & Biases
Japanese-Heron-Bench21 images se voient attribuer un total de 102 questions. Il est caractérisé par des paires image-question qui nécessitent une connaissance liée au Japon.Turing
JA-VLM-Bench-In-the-WildUn jeu de données préparé indépendamment par Sakana AI pour évaluer EvoVLM-JP-v1-7B. Il se compose de 50 questions attribuées à 42 images. Il se caractérise par des images et des questions qui exigent une connaissance du Japon.Sakana AI
JA-Multi-Image-VQAUn jeu de données pour évaluer la capacité de question-réponse en japonais pour plusieurs images.Sakana AI
LLaVA-Bench-In-the-Wild (Japanese)Ceci est la version japonaise de LLaVA-Bench-In-the-Wild, traduite à l'aide de DeepL. Il se compose de 60 questions attribuées à 24 images.Turing
LLaVA-Bench (COCO) JaponaisIl s'agit de la version japonaise, traduite par DeepL, du jeu de données LLaVA-Bench (COCO) utilisé pour évaluer LLaVA. Il se compose de 30 images, chacune avec 3 types de questions qui leur sont attribuées.Turing

Références pour les modèles et les architectures

Transformer2017.06.12NIPS(NeurIPS) 2017Attention Is All You Need
GPT2018.06.11-Improving Language Understanding by Generative Pre-Training
BERT2018.10.11NAACL 2019BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
GPT-22019.02.14-Language Models are Unsupervised Multitask Learners
XLNet2019.06.19NeurIPS 2019XLNet: Generalized Autoregressive Pretraining for Language Understanding
RoBERTa2019.07.26-RoBERTa: A Robustly Optimized BERT Pretraining Approach
Sentence-BERT2019.08.27EMNLP-IJCNLP 2019Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
ALBERT2019.09.26ICLR 2020ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
DistilBERT2019.10.02EMC2 Workshop at NeurIPS 2019DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
T52019.10.23JMLR 2020Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
BART2019.10.29ACL 2020BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
LayoutLM2019.12.31KDD 2020LayoutLM: Pre-training of Text and Layout for Document Image Understanding
ELECTRA2020.03.23ICLR 2020ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
ColBERT2020.04.27SIGIR 2020ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
Conformer2020.05.16INTERSPEECH 2020Conformer: Convolution-augmented Transformer for Speech Recognition
GPT-32020.05.28NeurIPS 2020Language Models are Few-Shot Learners
DeBERTa2020.06.05ICLR 2021DeBERTa: Decoding-enhanced BERT with Disentangled Attention
BigBird2020.07.28NeurIPS 2020Big Bird: Transformers for Longer Sequences
LUKE2020.10.02EMNLP 2020LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
CLIP2021.02.26ICML 2021Learning Transferable Visual Models From Natural Language Supervision
SimCSE2021.04.18EMNLP 2021SimCSE: Simple Contrastive Learning of Sentence Embeddings
RoFormer2021.04.20-RoFormer: Enhanced Transformer with Rotary Position Embedding
HuBERT2021.06.14TASLP 2021HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
CLOOB2021.10.21NeurIPS 2022CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
DeBERTaV32021.11.18ICLR 2023DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing
ColBERTv22021.12.02NAACL 2022ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction
Stable Diffusion2021.12.20CVPR 2022High-Resolution Image Synthesis With Latent Diffusion Models
BLIP2022.01.28ICML 2022BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
MixCSE2022.02.22AAAI 2022Unsupervised Sentence Representation via Contrastive Learning with Mixing Negatives
InstructGPT2022.03.04NeurIPS 2022Training language models to follow instructions with human feedback
GPT-NeoX2022.04.14BigScience Research Workshop at ACL 2022GPT-NeoX-20B: An Open-Source Autoregressive Language Model
DiffCSE2022.04.21NAACL 2022DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings
GIT2022.05.27TMLR 2022GIT: A Generative Image-to-text Transformer for Vision and Language
Whisper2022.12.06ICML 2023Robust Speech Recognition via Large-Scale Weak Supervision
BLIP-22023.01.30ICML 2023BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
ControlNet2023.02.10ICCV 2023Adding Conditional Control to Text-to-Image Diffusion Models
Llama2023.02.27-LLaMA: Open and Efficient Foundation Language Models
GPT-42023.03.15-GPT-4 Technical Report
SigLIP2023.03.27ICCV 2023Sigmoid Loss for Language Image Pre-Training
LLaVA2023.04.17NeurIPS 2023Visual Instruction Tuning
MiniGPT-42023.04.20-MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
Fast Conformer2023.05.08ASRU 2023Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition
InstructBLIP2023.05.11-InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
RWKV2023.05.22-RWKV: Reinventing RNNs for the Transformer Era
RetNet2023.07.17-Retentive Network: A Successor to Transformer for Large Language Models
Llama 22023.07.18-Llama 2: Open Foundation and Fine-Tuned Chat Models
Code Llama2023.08.24-Code Llama: Open Foundation Models for Code
Qwen2023.09.28-Qwen Technical Report
PixArt-α2023.09.30ICLR 2024PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
LLaVA-1.52023.10.05CVPR 2024Improved Baselines with Visual Instruction Tuning
Mistral 7B2023.10.10-Mistral 7B
Distil-Whisper2023.11.01-Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
Mamba2023.12.01COLM 2024Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Nue ASR2023.12.06ACL 2024 (Findings)Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition
InternVL2023.12.21CVPR 2024InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
TinyLlama2024.01.04-TinyLlama: An Open-Source Small Language Model
PIXART-δ2024.01.10-PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models
Mixtral 8x7B2024.01.08-Mixtral of Experts
LEIA2024.02.18ACL 2024 (Findings)LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation
PixArt-Σ2024.03.07-PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
Gemma2024.03.13-Gemma: Open Models Based on Gemini Research and Technology
EvoLLM-JP, EvoVLM-JP2024.03.19-Evolutionary Optimization of Model Merging Recipes
RakutenAI-7B2024.03.21-RakutenAI-7B: Extending Large Language Models for Japanese
rinna GPT, rinna RoBERTa, Nekomata, Youri, etc.2024.04.02LREC-COLING 2024Release of Pre-Trained Models for the Japanese Language
SambaLingo-Japanese2024.04.08-SambaLingo: Teaching Large Language Models New Languages
Heron2024.04.11-Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese
Stockmark-13b2024.04.12-Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain
Phi-32024.04.22-Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
InternVL 1.52024.04.25-How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
Swallow2024.04.27COLM 2024Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities
LLM-jp-13B2024.07.04-LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs
Llama 3.12024.07.23-The Llama 3 Herd of Models
Gemma 22024.07.31-Gemma 2: Improving Open Language Models at a Practical Size

Références pour les méthodes d'entraînement

PPO (RLHF)2017.07.20-Proximal Policy Optimization Algorithms
Instruction Tuning
(Supervised Fine-tuning; SFT)
2021.09.03ICLR 2022Finetuned Language Models Are Zero-Shot Learners
DPO2023.05.29NeurIPS 2023Direct Preference Optimization: Your Language Model is Secretly a Reward Model
SteerLM2023.10.09EMNLP 2023 (Findings)SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF

Nos contributeurs

Nous aimons les contributeurs ! N'hésitez pas à contribuer à ce projet.

contributors

Citation

La synthèse de ce répertoire est également publiée sous forme de prépublication: Exploring Open Large Language Models for the Japanese Language: A Practical Guide

Lorsque vous référencez ce répertoire, veuillez le citer comme suit:

@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}

  1. Référez-vous aux articles suivants: 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など, 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー ↩︎ ↩︎

  2. Certaines améliorations de performances ont été apportées au modèle Llama original. Voir ici pour plus détails. ↩︎

  3. Les détails n'ont pas été rendus publics, mais l'ensemble de données privé comprend des jeux de données de l'équipe japonaise du projet EleutherAI Polyglot et des membres de Stable Community Japan. ↩︎

  4. Ce projet a mené des recherches d'évaluation sur l'utilisation de la génération de droite à gauche au lieu de la génération habituelle de gauche à droite, en publiant des modèles de gauche à droite et de droite à gauche. ↩︎

  5. Avant de procéder à l'ajustement des instructions, un vecteur de chat entre Llama 3 Instruct et Llama 3 Base est ajouté. ↩︎ ↩︎

  6. Après avoir effectué un ajustement des instructions, un vecteur de chat entre Llama 3 Instruct et Llama 3 Base est ajouté. ↩︎ ↩︎

  7. Cependant, si une utilisation commerciale de KARAKURI LM est souhaitée, un contact direct avec le développeur, KARAKURI Inc., est requis. ↩︎

  8. Dans l'ajustement des instructions, comme il utilise des données générées par les modèles d'OpenAI, tels que GPT-3.5, GPT-4, etc. pour l'entraînement, il se peut qu'il viole les termes d'OpenAI. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  9. ○: Le modèle se trouve sur le Model Hub d'HuggingFace et peut être chargé avec la commande AutoModel.from_pretrained() . △: Le modèle ne se trouve pas sur le Model Hub mais peut être chargé manuellement avec la bibliothèque de transformateurs HuggingFace. ✕: Le modèle ne se charge pas avec HuggingFace. ↩︎

  10. Ce projet a mené des recherches d'évaluation sur l'analyse morphologique avant la tokenisation et a publié son modèle le plus performant, qui utilisait Juman++ et BPE. ↩︎

  11. Cependant, la longueur de séquence maximale a été étendue à 2048, et diverses modifications architecturales ont été apportées par rapport au BERT d'origine. Voir le README du dépôt HuggingFace pour plus de détails. ↩︎

  12. nlp-waseda/roberta-base-japanese et nlp-waseda/roberta-large-japanese entrainé avec une longueur de context 128 token, mais nlp-waseda/roberta-large-japanese-seq512 étendu la longueur du contexte à 512. ↩︎

  13. Étendu la longueur du contexte de 128 à 512. ↩︎

  14. Le modèle "Small" s'entraîne sur Wikipédia japonais et le Corpus financier japonais simultanément, tandis que le modèle "Base" prend le TohokuUniversityBERT et dispense un apprentissage supplémentaire sur le Corpus financier japonais. ↩︎

  15. ManbyoWordPiece lance une étape de prétokenization en utilisant MeCab (IPA+Manbyo dictionaries), puis utilise WordPiece pour la tokenization sous-mots, pendant que le modèle SentencePiece segmente le texte directement en utilisant un modèle unigram. ↩︎

  16. Pour les détails de chaque modèle, veuillez vous référer au Chapitre 4 de l'article des auteurs. Notez que le modèle SC-2M-wiki n'est strictement pas un modèle spécifique à un domaine car il est pré-entraîné uniquement sur Wikipédia. ↩︎

  17. Cependant, il appelle à la réflexion pour l'utilisation dans la recherche et l'éducation. De plus, soyez conscient que certaines des licences pour les modèles sources ne sont pas Apache 2.0. ↩︎ ↩︎ ↩︎

Last updated: