Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2402.00786

CroissantLLM 🥐

CroissantLLM: A Truly Bilingual French-English Language Model

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
croissantllm/CroissantLLMChat-v0.1

Text Generation • 1B • Updated Apr 26, 2024 • 1.61k • 52
croissantllm/CroissantLLMBase

Text Generation • Updated Aug 30, 2024 • 561 • 33
croissantllm/croissant_dataset

Viewer • Updated Oct 3, 2024 • 16.7B • 7.24k • 7

Made with Jean Zay

Work performed using Jean Zay Supercomputer resources from GENCI-IDRIS

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 34
FlauBERT: Unsupervised Language Model Pre-training for French

Paper • 1912.05372 • Published Dec 11, 2019
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
AION-1: Omnimodal Foundation Model for Astronomical Sciences

Paper • 2510.17960 • Published Oct 20 • 29

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

haoranxu/ALMA-13B-R

Text Generation • 13B • Updated Jan 19, 2024 • 12.4k • • 82
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
facebook/nllb-200-distilled-600M

Translation • Updated Feb 14, 2024 • 274k • 804

LLaMA Beyond English: An Empirical Study on Language Capability Transfer

Paper • 2401.01055 • Published Jan 2, 2024 • 55
YAYI 2: Multilingual Open-Source Large Language Models

Paper • 2312.14862 • Published Dec 22, 2023 • 15
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Paper • 2312.06134 • Published Dec 11, 2023 • 3
TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes

Paper • 2311.10797 • Published Nov 17, 2023

LLMs for "Low Training Data Languages"

SEA-LION: Southeast Asian Languages in One Network

Paper • 2504.05747 • Published Apr 8
Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings

Paper • 2408.02237 • Published Aug 5, 2024
A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs

Paper • 2406.17377 • Published Jun 25, 2024
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts

Paper • 2306.11372 • Published Jun 20, 2023

Tuning LLMs with Contrastive Alignment Instructions for Machine Translation in Unseen, Low-resource Languages

Paper • 2401.05811 • Published Jan 11, 2024 • 8
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

Language Moddel

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 189
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

Paper • 2401.04658 • Published Jan 9, 2024 • 27
Weaver: Foundation Models for Creative Writing

Paper • 2401.17268 • Published Jan 30, 2024 • 45
Efficient Tool Use with Chain-of-Abstraction Reasoning

Paper • 2401.17464 • Published Jan 30, 2024 • 21

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 104
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 24
RoBERTa: A Robustly Optimized BERT Pretraining Approach

Paper • 1907.11692 • Published Jul 26, 2019 • 9
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 21

CroissantLLM 🥐

CroissantLLM: A Truly Bilingual French-English Language Model

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
croissantllm/CroissantLLMChat-v0.1

Text Generation • 1B • Updated Apr 26, 2024 • 1.61k • 52
croissantllm/CroissantLLMBase

Text Generation • Updated Aug 30, 2024 • 561 • 33
croissantllm/croissant_dataset

Viewer • Updated Oct 3, 2024 • 16.7B • 7.24k • 7

LLMs for "Low Training Data Languages"

SEA-LION: Southeast Asian Languages in One Network

Paper • 2504.05747 • Published Apr 8
Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings

Paper • 2408.02237 • Published Aug 5, 2024
A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs

Paper • 2406.17377 • Published Jun 25, 2024
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts

Paper • 2306.11372 • Published Jun 20, 2023

Made with Jean Zay

Work performed using Jean Zay Supercomputer resources from GENCI-IDRIS

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 34
FlauBERT: Unsupervised Language Model Pre-training for French

Paper • 1912.05372 • Published Dec 11, 2019
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
AION-1: Omnimodal Foundation Model for Astronomical Sciences

Paper • 2510.17960 • Published Oct 20 • 29

Tuning LLMs with Contrastive Alignment Instructions for Machine Translation in Unseen, Low-resource Languages

Paper • 2401.05811 • Published Jan 11, 2024 • 8
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

Language Moddel

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

haoranxu/ALMA-13B-R

Text Generation • 13B • Updated Jan 19, 2024 • 12.4k • • 82
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
facebook/nllb-200-distilled-600M

Translation • Updated Feb 14, 2024 • 274k • 804

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 189
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

Paper • 2401.04658 • Published Jan 9, 2024 • 27
Weaver: Foundation Models for Creative Writing

Paper • 2401.17268 • Published Jan 30, 2024 • 45
Efficient Tool Use with Chain-of-Abstraction Reasoning

Paper • 2401.17464 • Published Jan 30, 2024 • 21

LLaMA Beyond English: An Empirical Study on Language Capability Transfer

Paper • 2401.01055 • Published Jan 2, 2024 • 55
YAYI 2: Multilingual Open-Source Large Language Models

Paper • 2312.14862 • Published Dec 22, 2023 • 15
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Paper • 2312.06134 • Published Dec 11, 2023 • 3
TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes

Paper • 2311.10797 • Published Nov 17, 2023

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 104
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 24
RoBERTa: A Robustly Optimized BERT Pretraining Approach

Paper • 1907.11692 • Published Jul 26, 2019 • 9
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 21

Previous
1
2
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs