ИИ пока не готов заменить консультантов и юристов — результаты нового теста

Автор: Сазонова Дарья
Фото: Generated by DALL·E

ИИ-агенты оказались не готовы к сложной офисной работе

Компания Mercor представила исследование, в котором впервые оценила способность автономных ИИ-агентов выполнять задачи, характерные для высококвалифицированной офисной деятельности. Речь идёт о работе в сферах консалтинга, инвестиционного банкинга и юридической практики, где требуется анализ документов, удержание контекста и последовательное принятие решений, сообщает портал «boda».

В рамках исследования был разработан индекс APEX-Agents — инструмент, измеряющий продуктивность ИИ при выполнении длительных и многосоставных задач. В отличие от привычных тестов, задания не сводились к проверке знаний или логических операций. Моделям предлагались реальные профессиональные ситуации, с которыми ежедневно сталкиваются специалисты.

По итогам тестирования ни одна из моделей не показала устойчиво высоких результатов. Лучший показатель продемонстрировал Gemini 3 Flash, успешно выполнив около 24 процентов заданий с первой попытки. Почти такой же результат показал GPT-5.2. Другие модели, включая Claude Opus 4.5 и Gemini 3 Pro, справлялись с задачами примерно в 18 процентах случаев.

Глава Mercor отметил, что основная сложность для ИИ заключается в работе с несколькими источниками одновременно и в понимании связей между документами. По его словам, именно эти навыки остаются ключевым отличием человека-профессионала от алгоритма, обученного на синтетических данных.

Авторы исследования подчеркнули, что APEX-Agents должен стать ориентиром для дальнейшего развития ИИ-агентов. Индекс опубликован в открытом доступе, что позволяет компаниям и исследователям использовать его для повышения практической полезности моделей.