Spaces:

OpenHands
/

openhands-index

Running

openhands openhands commited on Nov 25, 2025

Commit

3781804

1 Parent(s): 376500e

Swap column order and fix duplicate column warnings

- Swapped Language Model and OpenHands Version column order
- Fixed duplicate column warning by renaming columns before getting headers
- Updated mock data with proper agent_version values (1.0.1, 1.0.2)
- Removed duplicate agent_version keys from metadata.json files

Co-authored-by: openhands <openhands@all-hands.dev>

Files changed (7) hide show

leaderboard_transformer.py +1 -1
mock_results/1.0.0-dev1/results/20251124_claude_3_5_sonnet_20241022/metadata.json +1 -2
mock_results/1.0.0-dev1/results/20251124_claude_3_opus_20240229/metadata.json +1 -2
mock_results/1.0.0-dev1/results/20251124_gpt_4_turbo_2024_04_09/metadata.json +1 -2
mock_results/1.0.0-dev1/results/20251124_gpt_4o_2024_11_20/metadata.json +1 -2
mock_results/1.0.0-dev1/results/20251124_gpt_4o_mini_2024_07_18/metadata.json +1 -2
ui_components.py +19 -18

leaderboard_transformer.py CHANGED Viewed

@@ -256,7 +256,7 @@ class DataTransformer:
         df_view = df_sorted.copy()
         # --- 3. Add Columns for Agent Openness ---
-        base_cols = ["id","OpenHands Version","Language Model","Source"]
         new_cols = ["Openness"]
         ending_cols = ["Date", "Logs"]

         df_view = df_sorted.copy()
         # --- 3. Add Columns for Agent Openness ---
+        base_cols = ["id","Language Model","OpenHands Version","Source"]
         new_cols = ["Openness"]
         ending_cols = ["Date", "Logs"]

mock_results/1.0.0-dev1/results/20251124_claude_3_5_sonnet_20241022/metadata.json CHANGED Viewed

@@ -1,6 +1,5 @@
 {
-  "agent_version": "OpenHands CodeAct v2.1",
-  "agent_version": "OpenHands CodeAct v2.1",
   "model": "claude-3-5-sonnet-20241022",
   "openness": "closed_api_available",
   "tool_usage": "standard",

 {
+  "agent_version": "1.0.1",
   "model": "claude-3-5-sonnet-20241022",
   "openness": "closed_api_available",
   "tool_usage": "standard",

mock_results/1.0.0-dev1/results/20251124_claude_3_opus_20240229/metadata.json CHANGED Viewed

@@ -1,6 +1,5 @@
 {
-  "agent_version": "SWE-Agent",
-  "agent_version": "SWE-Agent",
   "model": "claude-3-opus-20240229",
   "openness": "closed_api_available",
   "tool_usage": "custom_interface",

 {
+  "agent_version": "1.0.1",
   "model": "claude-3-opus-20240229",
   "openness": "closed_api_available",
   "tool_usage": "custom_interface",

mock_results/1.0.0-dev1/results/20251124_gpt_4_turbo_2024_04_09/metadata.json CHANGED Viewed

@@ -1,6 +1,5 @@
 {
-  "agent_version": "AutoCodeRover",
-  "agent_version": "AutoCodeRover",
   "model": "gpt-4-turbo-2024-04-09",
   "openness": "closed_api_available",
   "tool_usage": "standard",

 {
+  "agent_version": "1.0.1",
   "model": "gpt-4-turbo-2024-04-09",
   "openness": "closed_api_available",
   "tool_usage": "standard",

mock_results/1.0.0-dev1/results/20251124_gpt_4o_2024_11_20/metadata.json CHANGED Viewed

@@ -1,6 +1,5 @@
 {
-  "agent_version": "OpenHands CodeAct v2.0",
-  "agent_version": "OpenHands CodeAct v2.0",
   "model": "gpt-4o-2024-11-20",
   "openness": "closed_api_available",
   "tool_usage": "standard",

 {
+  "agent_version": "1.0.2",
   "model": "gpt-4o-2024-11-20",
   "openness": "closed_api_available",
   "tool_usage": "standard",

mock_results/1.0.0-dev1/results/20251124_gpt_4o_mini_2024_07_18/metadata.json CHANGED Viewed

@@ -1,6 +1,5 @@
 {
-  "agent_version": "Agentless",
-  "agent_version": "Agentless",
   "model": "gpt-4o-mini-2024-07-18",
   "openness": "closed_api_available",
   "tool_usage": "standard",

 {
+  "agent_version": "1.0.2",
   "model": "gpt-4o-mini-2024-07-18",
   "openness": "closed_api_available",
   "tool_usage": "standard",

ui_components.py CHANGED Viewed

@@ -408,22 +408,23 @@ def create_leaderboard_display(
     columns_to_drop = ['id', 'Openness', 'Agent Tooling', 'Source']
     df_view = df_view.drop(columns=columns_to_drop, errors='ignore')
     df_headers = df_view.columns.tolist()
     df_datatypes = []
     for col in df_headers:
         if col == "Logs" or "Cost" in col or "Score" in col:
             df_datatypes.append("markdown")
-        elif col in ["OpenHands Version","Icon","Language Model", "Pareto"]:
             df_datatypes.append("html")
         else:
             df_datatypes.append("str")
-    header_rename_map = {
-        "Pareto": "",
-        "Icon": "",
-    }
-    # 2. Create the final list of headers for display.
-    df_view = df_view.rename(columns=header_rename_map)
     # Dynamically set widths for the DataFrame columns
     fixed_start_widths = [40, 40, 200, 100, 200]
     num_score_cost_cols = 0
@@ -570,8 +571,8 @@ def create_benchmark_details_display(
         desired_cols_in_order = [
             'Pareto',
             'Icon',
-            'OpenHands Version',
             'Language Model',
             'Attempted Benchmark',
             benchmark_score_col,
             benchmark_cost_col,
@@ -587,23 +588,23 @@ def create_benchmark_details_display(
             benchmark_score_col: 'Score',
             benchmark_cost_col: 'Cost',
         }, inplace=True)
-        # Ensure the 'Logs' column is formatted correctly
         df_headers = benchmark_table_df.columns.tolist()
         df_datatypes = []
         for col in df_headers:
             if "Logs" in col or "Cost" in col or "Score" in col:
                 df_datatypes.append("markdown")
-            elif col in ["OpenHands Version", "Icon", "Language Model", "Pareto"]:
                 df_datatypes.append("html")
             else:
                 df_datatypes.append("str")
-        # Remove Pareto, Openness, and Agent Tooling from the headers
-        header_rename_map = {
-            "Pareto": "",
-            "Icon": "",
-        }
-        # 2. Create the final list of headers for display.
-        benchmark_table_df = benchmark_table_df.rename(columns=header_rename_map)
         benchmark_plot = _plot_scatter_plotly(
             data=full_df,
             x=benchmark_cost_col,

     columns_to_drop = ['id', 'Openness', 'Agent Tooling', 'Source']
     df_view = df_view.drop(columns=columns_to_drop, errors='ignore')
+    header_rename_map = {
+        "Pareto": "",
+        "Icon": "",
+    }
+    # Rename columns first before getting headers
+    df_view = df_view.rename(columns=header_rename_map)
+    # Now get headers from the renamed dataframe
     df_headers = df_view.columns.tolist()
     df_datatypes = []
     for col in df_headers:
         if col == "Logs" or "Cost" in col or "Score" in col:
             df_datatypes.append("markdown")
+        elif col in ["OpenHands Version","Language Model", ""]:  # "" for renamed Pareto/Icon columns
             df_datatypes.append("html")
         else:
             df_datatypes.append("str")
     # Dynamically set widths for the DataFrame columns
     fixed_start_widths = [40, 40, 200, 100, 200]
     num_score_cost_cols = 0
         desired_cols_in_order = [
             'Pareto',
             'Icon',
             'Language Model',
+            'OpenHands Version',
             'Attempted Benchmark',
             benchmark_score_col,
             benchmark_cost_col,
             benchmark_score_col: 'Score',
             benchmark_cost_col: 'Cost',
         }, inplace=True)
+        # Remove Pareto and Icon column headers (rename to empty string)
+        header_rename_map = {
+            "Pareto": "",
+            "Icon": "",
+        }
+        benchmark_table_df = benchmark_table_df.rename(columns=header_rename_map)
+        # Now get headers from the renamed dataframe
         df_headers = benchmark_table_df.columns.tolist()
         df_datatypes = []
         for col in df_headers:
             if "Logs" in col or "Cost" in col or "Score" in col:
                 df_datatypes.append("markdown")
+            elif col in ["OpenHands Version", "Language Model", ""]:  # "" for renamed Pareto/Icon columns
                 df_datatypes.append("html")
             else:
                 df_datatypes.append("str")
         benchmark_plot = _plot_scatter_plotly(
             data=full_df,
             x=benchmark_cost_col,