Дослідники інституту Epoch AI протестували шість найсучасніших моделей ШІ: Gemini 1.5 Pro (002) від Google, Claude 3.5 Sonnet від Anthropic, o1-preview, o1-mini від OpenAI, а також GPT4o і Grok-2 Beta від xAI. Gemini і Claude вдалося розв’язати 2% запропонованих завдань, що стало найкращим результатом.
Команда Epoch AI розробила набір унікальних завдань з різних розділів математики, спрямований на оцінку здатності ШІ до глибокого розуміння математичних концепцій. Завдання передбачали не тільки обчислення, а й абстрактне мислення. Незважаючи на досягнення сучасних моделей ШІ, вони виявилися неспроможними впоратися з завданнями. Це свідчить про те, що машинному інтелекту ще далеко до рівня математичного мислення людини. Про це повідомляє Live Science.
Новину прокоментувала доцент кафедри Вищої математики, математичного моделювання та фізики ДУІКТ, доктор педагогічних наук Наталія Маланюк.
«ШІ, наприклад GPT4 або Gemini, демонструє вражаючі результати в генерації текстів, перекладі мов і навіть створенні художніх робіт. Проте нові дослідження підкреслили обмеження ШІ: сучасним моделям важко розв’язувати математичні задачі дослідницького рівня. Проблема полягає у специфіці підготовки ШІ. Більшість тестів, що зазвичай використовують, спрямовані на вирішення відносно простих задач, схожих на шкільну програму. З такими завданнями ШІ здатний впоратися на 98%. Математичні задачі, при розв’язуванні яких треба застосувати критичне мислення або множинний вибір, стають проблемою для ШІ.
Ми маємо досвід використання ШІ здобувачами освіти ДУІКТ при вивченні вищої математики. Навіть на питання, що є стандартними з точки зору досвідченого викладача, ШІ може дати неправильну або неповну відповідь. Це добре, що студенти в процесі навчання мають можливість переконатися в недосконалості сучасних моделей ШІ. Це сприяє розвитку критичного мислення, відповідальності за отриманий результат. Можливо в майбутньому саме випускники ДУІКТ будуть причетні до відкриття нових шляхів вдосконалення систем ШІ та створення більш розвинених алгоритмів», - зазначила науковиця.