Новий тест для штучного інтелекту не проходить жодна модель ШІ

Фонд Arc Prize Foundation випустив новий тест для перевірки здатностей ШІ порівняно з людиною під назвою ARC-AGI-2 та оголосив приз в $700 тисяч творцям перших п’ятьох моделей, що отримають в цьому тесті рейтинг у 85% або вище.

Інформацію опубліковано на сайті фонду.

На відміну від інших тестів, що перевіряють ШІ на спеціалізовані знання або сверхточні питання, неможливі для людей, ARC-AGI-2 використовує завдання, прості для людей, але важкі для ШІ. У тестах кожне завдання розв’язували щонайменше 2 людини за 2 спроби (або менше) в контрольованому дослідженні за участю чотирьох сотень людей, тому кожна модель ШІ також отримала всього дві спроби.

Дослідники фонду виявили, що системам штучного інтелекту важко інтерпретувати значення символів, яке виходить за межі їхнього візуального вигляду. Системи намагалися перевіряти симетрію, дзеркальне відображення, трансформації і навіть розпізнавали з’єднувальні елементи, але не змогли визначити значення самих символів. Також ШІ тяжко дається виконання завдань, які вимагають одночасного застосування правил або застосування декількох правил, які взаємодіють між собою. Якщо правила завдань мають змінюватись залежно від контексту, сучасний штучний інтелект теж не впорається з завданням.

Зауважимо, що незважаючи на те, що кожні 2 людини в групах тестування завжди разом проходили тест повністю, середній результат для одної людини — 60%.

«Міркуючі» моделі набирають рейтинг від 1% до 1,3%. Жодна звичайна не набрала більше 1%.

Нагадаємо, нещодавно у Китаї представили «перший у світі» автономний агент штучного інтелекту під назвою Manus. Про це повідомляло видання Interesting Engineering.

На відміну від чат-ботів, таких як ChatGPT чи Gemini від Google, або Grok, які потребують людської участі для виконання завдань, Manus здатний самостійно ухвалювати рішення та виконувати складні завдання без будь-якого втручання.

Наприклад, якщо людина дає запит: «Знайдіть мені квартиру», Manus може провести дослідження, оцінити безліч факторів (рівень злочинності, погоду, ринкові тенденції) і надати індивідуальні рекомендації.

Замість використання лише однієї моделі ШІ, Manus діє як виконавець, керуючи кількома спеціалізованими субагентами. Це дозволяє йому безперешкодно справлятися зі складними, багатокроковими робочими процесами.

Більше того, ШІ-агент може працювати асинхронно, тобто він виконує завдання у фоновому режимі і повідомляє користувачів тільки тоді, коли результати готові, без постійного людського контролю.

Це значний крок у розвитку технологій ШІ, оскільки більшість нинішніх систем потребують постійної взаємодії з людьми для виконання навіть простих завдань. Manus, навпаки, може самостійно ініціювати й виконувати процеси, що відкриває нові можливості та виклики в питаннях заміщення робочих місць і відповідальності.

Деякі експерти вважають, що поява Manus кидає виклик наративу про те, що США є беззаперечним лідером у розробці передового ШІ. Це свідчить про те, що Китай наздогнав і, можливо, перегнав, розробивши справді автономні агенти ШІ.