14 4

Levy

dolev31

AI & ML interests

None yet

Recent Activity

upvoted a paper 4 days ago

Efficient Agent Evaluation via Diversity-Guided User Simulation

upvoted a paper about 1 month ago

Alignment Makes Language Models Normative, Not Descriptive

updated a Space about 2 months ago

ST-WebAgentBench/st-webagentbench-leaderboard

View all activity

Organizations

upvoted a paper 4 days ago

Efficient Agent Evaluation via Diversity-Guided User Simulation

Paper • 2604.21480 • Published 9 days ago • 14

upvoted a paper about 1 month ago

Alignment Makes Language Models Normative, Not Descriptive

Paper • 2603.17218 • Published Mar 17 • 46

updated a Space about 2 months ago

ST-WebAgentBench Leaderboard

🛡

Safety & Trustworthiness Leaderboard for Web Agents

updated a dataset about 2 months ago

ST-WebAgentBench/st-webagentbench

Viewer • Updated Mar 12 • 3.06k • 804 • 5

upvoted a paper about 2 months ago

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Paper • 2603.09906 • Published Mar 10 • 75

liked a Space 2 months ago

ST-WebAgentBench Leaderboard

🛡

Safety & Trustworthiness Leaderboard for Web Agents

published a Space 2 months ago

ST-WebAgentBench Leaderboard

🛡

Safety & Trustworthiness Leaderboard for Web Agents

upvoted a paper 2 months ago

STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts

Paper • 2602.14265 • Published Feb 15 • 21

upvoted a collection 3 months ago

Enterprise Agents and Benchmarks

Collection

Enterprise agent ecosystem featuring AssetOpsBench (industrial) and ITBench (SRE, FinOps, CISO), CUGA to accelerate AI Automation • 16 items • Updated 23 days ago • 15

liked a Space 5 months ago

CUGA Agent

🤖

Configurable Generalist Agent, leader in AppWorld Benchmark

liked a dataset 5 months ago

ST-WebAgentBench/st-webagentbench

Viewer • Updated Mar 12 • 3.06k • 804 • 5

liked a Space 10 months ago

Click2Mask (AAAI 2025)

🔵

Official Demo for Click2Mask (AAAI 2025)

upvoted 3 papers 11 months ago

Effective Red-Teaming of Policy-Adherent Agents

Paper • 2506.09600 • Published Jun 11, 2025 • 39

Multi-Domain Explainability of Preferences

Paper • 2505.20088 • Published May 26, 2025 • 20

TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations

Paper • 2505.18125 • Published May 23, 2025 • 112

upvoted a paper 12 months ago

ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents

Paper • 2410.06703 • Published Oct 9, 2024 • 3

published a dataset 12 months ago

ST-WebAgentBench/st-webagentbench

Viewer • Updated Mar 12 • 3.06k • 804 • 5

upvoted 2 papers about 1 year ago

AdaptiVocab: Enhancing LLM Efficiency in Focused Domains through Lightweight Vocabulary Adaptation

Paper • 2503.19693 • Published Mar 25, 2025 • 76

Inside-Out: Hidden Factual Knowledge in LLMs

Paper • 2503.15299 • Published Mar 19, 2025 • 56

upvoted a paper over 1 year ago

GLEE: A Unified Framework and Benchmark for Language-based Economic Environments

Paper • 2410.05254 • Published Oct 7, 2024 • 85

Levy

AI & ML interests

Recent Activity

Organizations

dolev31's activity

ST-WebAgentBench Leaderboard

ST-WebAgentBench Leaderboard

ST-WebAgentBench Leaderboard

CUGA Agent

Click2Mask (AAAI 2025)