Новый бенчмарк «Последний экзамен человечества» ставит под вопрос эффективность современных ИИ

Автор: Анна Рудакова
Фото: RusPhotoBank

ИИ на испытании: «Последний экзамен человечества» показал слабость технологий

«Последний экзамен человечества», новейший бенчмарк, созданный некоммерческой организацией CAIS и компанией Scale AI, продемонстрировал, что даже самые передовые системы искусственного интеллекта не могут справиться со сложными междисциплинарными задачами, которые требуют глубокого анализа и комплексного подхода.

Тест охватывает вопросы от более чем тысячи экспертов со всего мира, варьируя от математики до гуманитарных наук, включая задания с графиками и изображениями, которые представляют особую сложность для ИИ, пишет PEPELAC.NEWS.

Первые результаты тестирования показали, что ни одна из ведущих ИИ-систем не достигла более 10% точности в ответах, подчеркивая серьезные пробелы в их способности к обработке сложных данных и рассуждениям. CAIS и Scale AI планируют предоставить доступ к этому тесту для научного сообщества, чтобы ученые могли использовать его для тестирования и улучшения алгоритмов искусственного интеллекта.

Это открывает новые возможности для развития ИИ, акцентируя внимание на необходимости углубленного изучения и усовершенствования его когнитивных функций.