new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jan 16

Submitted by

reign12

STEP3-VL-10B Technical Report

stepfun-ai

Submitted by

xiaochonglinghu

Urban Socio-Semantic Segmentation with Vision-Language Reasoning

alibaba-inc

Submitted by

zhiyuanhucs

Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

MIT

Massachusetts Institute of Technology

5

Submitted by

zhiyuanhucs

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

MIT

Massachusetts Institute of Technology

5

Submitted by

iitolstykh

VIBE: Visual Instruction Based Editor

·
10 authors

Submitted by

Blue-Giant

Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning

Submitted by

Kaichengalex

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

·
13 authors

Submitted by

Ethical-Lens

Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

SJTU

Shanghai Jiao Tong University

Submitted by

zbhpku

CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

KlingTeam

Submitted by

karrykkk

Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

SJTU-DENG-Lab

DENG Lab @ SJTU

Submitted by

talreiss

Alterbute: Editing Intrinsic Attributes of Objects in Images

google

2

Submitted by

KID-22

MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

RUC

Renmin University of China

Submitted by

adwardlee

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

·
7 authors

Submitted by

taesiri

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

·
21 authors

Submitted by

taesiri

Transition Matching Distillation for Fast Video Generation

nvidia

Submitted by

DobyXu

A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

·
21 authors

Submitted by

minghaoyan

PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution

google

2

Submitted by

taesiri

FlowAct-R1: Towards Interactive Humanoid Video Generation

ByteDance

Submitted by

Dongchao

HeartMuLa: A Family of Open Sourced Music Foundation Models

·
28 authors

Submitted by

Bang-UdeM-Mila

M^4olGen: Multi-Agent, Multi-Stage Molecular Generation under Precise Multi-Property Constraints

University of Montreal

Submitted by

taesiri

Action100M: A Large-scale Video Action Dataset

metaresearch

Submitted by

taesiri

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Submitted by

FutureMa

EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge

·
3 authors

3

Submitted by

Yana-Hangabina

TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

·
14 authors

2

Submitted by

dd12345789

LSRIF: Logic-Structured Reinforcement Learning for Instruction Following

antgroup

Submitted by

FlippyDora

PRL: Process Reward Learning Improves LLMs' Reasoning Ability and Broadens the Reasoning Boundary

·
3 authors

Submitted by

Eurayka

LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

·
9 authors

Submitted by

KomeijiForce

Deriving Character Logic from Storyline as Codified Decision Trees

·
5 authors

2

Submitted by

yifeis02

Patient-Similarity Cohort Reasoning in Clinical Text-to-SQL

University of Washington

Submitted by

haoz19

RigMo: Unifying Rig and Motion Learning for Generative Animation

snap-research

Submitted by

sumleo

Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale

·
8 authors

2

Submitted by

akhaliq

V-DPM: 4D Video Reconstruction with Dynamic Point Maps

·
4 authors

Submitted by

iliashum

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

·
9 authors

Submitted by

Xuweiyi

WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments

uva-cv-lab

UVA Computer Vision Lab

2

Submitted by

yscript

VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation

·
3 authors

Submitted by

slempert

Enhancing Sentiment Classification and Irony Detection in Large Language Models through Advanced Prompt Engineering Techniques

IUInternationalUniversity

IU International University

Submitted by

Fengzhuo

Demystifying the Slash Pattern in Attention: The Role of RoPE

·
8 authors

Submitted by

Tomk187

Memory Bank Compression for Continual Adaptation of Large Language Models

·
2 authors