Чим довше з ним розмовляєш, тим більше він стає дурним: науковці провели дослідження щодо штучного інтелекту
Надійність падає на 112%.
Навіть техгіганти визнають, що сучасні чат-боти стають дедалі менш надійними та ефективними під час довгих розмов. Ба більше, штучний інтелект стає більш дурним. Нове спільне дослідження Microsoft Research та Salesforce показало, що розумні алгоритми буквально "губляться", якщо завдання розбивати на кілька етапів у форматі діалогу. Читай також на Люкс про те, чому штучний інтелект веде людину до вигоряння.
Аналіз понад 200 тисяч чатів за участю таких топових моделей, як GPT-4.1, Gemini 2.5 Pro та Claude 3.7 Sonnet, виявив тривожну тенденцію: чим довша бесіда, то швидше падає якість відповідей. Цифри говорять самі за себе: якщо з одиничними запитами моделі справляються на 90%, то в режимі тривалого листування їхня ефективність падає до 65%.
Дослідники з’ясували, що інтелект моделей знижується лише на 15%, але показник їхньої ненадійності злітає на приголомшливі 112%. Головна проблема полягає в тому, що ШІ починає генерувати відповіді передчасно, намагаючись вгадати рішення ще до того, як ти закінчиш пояснювати контекст.
Ще один дивний феномен, який зафіксували вчені – це "роздування" відповідей. У багатоетапних діалогах тексти ШІ стають довшими на 20–300%. Разом із зайвими словами в тексті з’являється більше помилкових припущень та галюцинацій, які алгоритм потім використовує як "істину" для всіх наступних реплік у цьому чаті. Навіть нові моделі на кшталт OpenAI o3 чи DeepSeek R1, які мають додатковий час на "роздуми", не змогли подолати цю проблему.
Замість того, щоб виправляти помилки, чат-боти схильні покладатися на свої перші, навіть неправильні твердження, і будувати на них всю подальшу логіку. Це робить використання ШІ замість традиційних пошукових систем досить ризикованим кроком, адже довга розмова лише накопичує помилки, які користувач може прийняти за достовірну інформацію.
Читай також на Люкс, яким чином Ватикан планує використовувати ШІ у своїх богослужіннях.