VISIONx @ NYU

university

https://www.sainingxie.com/

AI & ML interests

None defined yet.

Recent Activity

bytetriper updated a model 3 days ago

nyu-visionx/dinov2-large_decoder

bytetriper published a model 3 days ago

nyu-visionx/dinov2-large_decoder

AustinWang0330 new activity 5 days ago

nyu-visionx/siglip2_decoder:RAE repo fails when using google/siglip2-so400m-patch14-224 as encoder

View all activity

Papers

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

View all Papers

bytetriper

updated a model 3 days ago

nyu-visionx/dinov2-large_decoder

Updated 3 days ago • 15

bytetriper

published a model 3 days ago

nyu-visionx/dinov2-large_decoder

Updated 3 days ago • 15

AustinWang0330

in nyu-visionx/siglip2_decoder 5 days ago

RAE repo fails when using google/siglip2-so400m-patch14-224 as encoder

#2 opened 6 days ago by

bytetriper

in nyu-visionx/siglip2_decoder 6 days ago

RAE repo fails when using google/siglip2-so400m-patch14-224 as encoder

#2 opened 6 days ago by

AustinWang0330

updated a collection 8 days ago

Scale RAE

Collection for "Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders" • 7 items • Updated 8 days ago • 2

bytetriper

updated a model 11 days ago

nyu-visionx/webmae_decoder

Updated 11 days ago • 13

bytetriper

published a model 11 days ago

nyu-visionx/webmae_decoder

Updated 11 days ago • 13

sainx

authored a paper 14 days ago

Self-Refining Video Sampling

Paper • 2601.18577 • Published 15 days ago • 24

jihanyang

authored a paper 15 days ago

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Paper • 2601.16208 • Published 19 days ago • 51

bytetriper

updated a model 17 days ago

nyu-visionx/siglip2_decoder

Image-to-Image • Updated 17 days ago • 1.1k

bytetriper

in nyu-visionx/scale-rae-data 17 days ago

Add dataset card and metadata

#1 opened 17 days ago by

bytetriper

in nyu-visionx/siglip2_decoder 17 days ago

Add model card and metadata

#1 opened 17 days ago by

bytetriper

in nyu-visionx/webssl300m_decoder 17 days ago

Add model card for Scale-RAE

#1 opened 17 days ago by

bytetriper

in nyu-visionx/Scale-RAE-Qwen1.5B_DiT2.4B-WebSSL 17 days ago

Add model card and metadata

#1 opened 17 days ago by

ellisbrown

authored a paper 18 days ago

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Paper • 2601.16208 • Published 19 days ago • 51

AustinWang0330

authored a paper 18 days ago

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Paper • 2601.16208 • Published 19 days ago • 51

bytetriper

submitted a paper to Daily Papers 18 days ago

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

Paper • 2601.16208 • Published 19 days ago • 51

AustinWang0330

published 3 models 18 days ago

nyu-visionx/webssl300m_decoder

Image-to-Image • Updated 17 days ago • 80

nyu-visionx/siglip2_decoder

Image-to-Image • Updated 17 days ago • 1.1k

nyu-visionx/Scale-RAE-Qwen7B_DiT9.8B

Text Generation • 17B • Updated Jan 8 • 224 • 1