Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.19437

Deepseek Papers

Deepseek papers collection

DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

Paper • 2310.16818 • Published Oct 25, 2023 • 32
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5, 2024 • 50
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Paper • 2401.06066 • Published Jan 11, 2024 • 58
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25, 2024 • 68

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14 • 317
Qwen/Qwen3-14B-GGUF

Text Generation • 15B • Updated May 9 • 11.8k • 57
Qwen/Qwen3-8B-GGUF

Text Generation • 8B • Updated May 21 • 84.2k • 84
Qwen/Qwen3-4B-GGUF

Text Generation • 4B • Updated May 21 • 22.7k • 46

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 73

Report Generation

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 73

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 73
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

Paper • 2412.10302 • Published Dec 13, 2024 • 21

DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

Paper • 2310.16818 • Published Oct 25, 2023 • 32
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5, 2024 • 50
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Paper • 2401.06066 • Published Jan 11, 2024 • 58
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25, 2024 • 68

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 262
A Survey on Latent Reasoning

Paper • 2507.06203 • Published Jul 8 • 93
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 18
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Paper • 1910.10683 • Published Oct 23, 2019 • 15

nari-labs/Dia-1.6B

Text-to-Speech • Updated Jun 1 • 170k • • 2.81k
meta-llama/Llama-4-Scout-17B-16E-Instruct

Any-to-Any • 109B • Updated May 22 • 205k • 1.15k
HiDream-ai/HiDream-I1-Full

Text-to-Image • Updated Jul 17 • 22.9k • • 980
microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated May 1 • 7.59k • 1.22k

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 73

基础大模型相关

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 73
MiniMaxAI/MiniMax-Text-01

Text Generation • 456B • Updated Jul 3 • 2.26k • 650
allenai/olmOCR-mix-0225

Viewer • Updated Feb 25 • 259k • 786 • 169
google/shieldgemma-2b

Text Generation • 3B • Updated Aug 28, 2024 • 2.78k • 98

Deepseek Papers

Deepseek papers collection

DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

Paper • 2310.16818 • Published Oct 25, 2023 • 32
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5, 2024 • 50
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Paper • 2401.06066 • Published Jan 11, 2024 • 58
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25, 2024 • 68

DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior

Paper • 2310.16818 • Published Oct 25, 2023 • 32
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5, 2024 • 50
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Paper • 2401.06066 • Published Jan 11, 2024 • 58
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25, 2024 • 68

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14 • 317
Qwen/Qwen3-14B-GGUF

Text Generation • 15B • Updated May 9 • 11.8k • 57
Qwen/Qwen3-8B-GGUF

Text Generation • 8B • Updated May 21 • 84.2k • 84
Qwen/Qwen3-4B-GGUF

Text Generation • 4B • Updated May 21 • 22.7k • 46

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 262
A Survey on Latent Reasoning

Paper • 2507.06203 • Published Jul 8 • 93
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 18
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Paper • 1910.10683 • Published Oct 23, 2019 • 15

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 73

nari-labs/Dia-1.6B

Text-to-Speech • Updated Jun 1 • 170k • • 2.81k
meta-llama/Llama-4-Scout-17B-16E-Instruct

Any-to-Any • 109B • Updated May 22 • 205k • 1.15k
HiDream-ai/HiDream-I1-Full

Text-to-Image • Updated Jul 17 • 22.9k • • 980
microsoft/bitnet-b1.58-2B-4T

Text Generation • 0.8B • Updated May 1 • 7.59k • 1.22k

Report Generation

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 73

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 73

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 73
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

Paper • 2412.10302 • Published Dec 13, 2024 • 21

基础大模型相关

DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 73
MiniMaxAI/MiniMax-Text-01

Text Generation • 456B • Updated Jul 3 • 2.26k • 650
allenai/olmOCR-mix-0225

Viewer • Updated Feb 25 • 259k • 786 • 169
google/shieldgemma-2b

Text Generation • 3B • Updated Aug 28, 2024 • 2.78k • 98

Previous
1
2
3
4
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs