new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jan 7

Submitted by

haotongl

InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

zju

Zhejiang University

9

Submitted by

ngc7293

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

OpenMOSS-Team

3

Submitted by

taesiri

LTX-2: Efficient Joint Audio-Visual Foundation Model

·
29 authors

Submitted by

Soptq

SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence

InternScience

Submitted by

Lin-Chen

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

·
12 authors

Submitted by

taesiri

NitroGen: An Open Foundation Model for Generalist Gaming Agents

nvidia

Submitted by

pmj110119

SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

KineMind

AgiBot Research

2

Submitted by

taesiri

DreamStyle: A Unified Framework for Video Stylization

ByteDance

Submitted by

taesiri

MiMo-V2-Flash Technical Report

XiaomiMiMo

Submitted by

Yunqiu

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

·
10 authors

3

Submitted by

roz322

Digital Twin AI: Opportunities and Challenges from Large Language Models to World Models

·
27 authors

Submitted by

taesiri

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

microsoft

Submitted by

CraneLu

Muses: Designing, Composing, Generating Nonexistent Fantasy 3D Creatures without Training

nanjinguniv

Nanjing University

Submitted by

safinal

Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy

·
8 authors

2

Submitted by

xinwang22

OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs

·
11 authors

Submitted by

ChengmingX

FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

·
9 authors

Submitted by

Lost-Cloud

MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

LiAuto-Foundation-Model

LiAuto Foundation Model

Submitted by

RisingZhang

The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization

Beihang

Beihang University

Submitted by

UVSKKR

X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

·
6 authors

Submitted by

TangJiakai5704

Parallel Latent Reasoning for Sequential Recommendation

·
6 authors

2

Submitted by

mightyzau

Unified Thinker: A General Reasoning Modular Core for Image Generation

·
12 authors

Submitted by

yihongLiu

Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners

cis-lmu

CIS, LMU Munich

Submitted by

mapooon

ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors

·
3 authors

2

Submitted by

giadefa

AceFF: A State-of-the-Art Machine Learning Potential for Small Molecules

Acellera

Submitted by

FengShaner

U-Net-Like Spiking Neural Networks for Single Image Dehazing

·
6 authors

Submitted by

HwanChang0106

Doc-PP: Document Policy Preservation Benchmark for Large Vision-Language Models

·
3 authors

Submitted by

j-hoscilowic

Steerability of Instrumental-Convergence Tendencies in LLMs

·
1 authors