ИИ пока не готов заменить консультантов и юристов — результаты нового теста
ИИ-агенты оказались не готовы к сложной офисной работе
Компания Mercor представила исследование, в котором впервые оценила способность автономных ИИ-агентов выполнять задачи, характерные для высококвалифицированной офисной деятельности. Речь идёт о работе в сферах консалтинга, инвестиционного банкинга и юридической практики, где требуется анализ документов, удержание контекста и последовательное принятие решений, сообщает портал «boda».
В рамках исследования был разработан индекс APEX-Agents — инструмент, измеряющий продуктивность ИИ при выполнении длительных и многосоставных задач. В отличие от привычных тестов, задания не сводились к проверке знаний или логических операций. Моделям предлагались реальные профессиональные ситуации, с которыми ежедневно сталкиваются специалисты.
По итогам тестирования ни одна из моделей не показала устойчиво высоких результатов. Лучший показатель продемонстрировал Gemini 3 Flash, успешно выполнив около 24 процентов заданий с первой попытки. Почти такой же результат показал GPT-5.2. Другие модели, включая Claude Opus 4.5 и Gemini 3 Pro, справлялись с задачами примерно в 18 процентах случаев.
Глава Mercor отметил, что основная сложность для ИИ заключается в работе с несколькими источниками одновременно и в понимании связей между документами. По его словам, именно эти навыки остаются ключевым отличием человека-профессионала от алгоритма, обученного на синтетических данных.
Авторы исследования подчеркнули, что APEX-Agents должен стать ориентиром для дальнейшего развития ИИ-агентов. Индекс опубликован в открытом доступе, что позволяет компаниям и исследователям использовать его для повышения практической полезности моделей.