DPAI Arena
https://dpaia.dev/ https://github.com/dpaia
JetBrains представили Developer Productivity AI Arena (DPAI Arena) — ще одну "першу" відкриту платформу, яка оцінює ефективність ШІ агентів у створенні коду. Щоб забезпечити нейтральність та незалежність, JetBrains планує передати проєкт під управління фонду Linux Foundation.
Компанія вважає, що наявні методи тестування застаріли та оцінюють лише мовні моделі, а не повноцінні ШІ-агенти (хоча ж є https://www.swebench.com/). Платформа має на меті створити єдину, довірену екосистему для всієї індустрії. Зараз на сайті є тести тільки декількох CLI, Codex обходить Claude Code.

Ключовою особливістю DPAI Arena є її "багатотрекова" архітектура, яка імітує реальні завдання розробників. Замість одного тесту на виправлення помилок, платформа включає окремі треки для аналізу pull-request'ів, написання юніт-тестів, оновлення залежностей та перевірки відповідності стандартам кодування.
#junie #benchmarks