Реалістичний штучний інтелект з плавним, звабливим голосом зачаровує і вражає своїх користувачів-людей – фліртує, жартує, виконує їхні бажання і врешті-решт завойовує їхню прихильність.
Я описую сюжет фільму “Вона” 2013 року, в якому самотнього інтроверта на ім’я Теодор у виконанні Хоакіна Фенікса спокушає віртуальна асистентка на ім’я Саманта, озвучена Скарлетт Йоханссон.
Але з таким же успіхом я міг би описати сцену в понеділок, коли OpenAI, творець ChatGPT, продемонстрував оновлену версію свого голосового асистента зі штучним інтелектом на заході в Сан-Франциско.
Нова модель компанії, що отримала назву GPT-4o (o означає “omni”), дозволить ChatGPT розмовляти з користувачами набагато більш реалістично – розпізнавати емоції в голосі, аналізувати вираз обличчя та змінювати власний тон і каденцію в залежності від того, чого хоче користувач. Якщо ви просите казку на ніч, він може знизити голос до шепоту. Якщо вам потрібна порада від нахабного друга, він може говорити грайливим, саркастичним тоном. Він навіть може заспівати за командою.
Нова голосова функція, яку користувачі ChatGPT зможуть почати використовувати безкоштовно в найближчі тижні, відразу ж викликала порівняння з Самантою з фільму “Вона”. (Сем Альтман, виконавчий директор OpenAI, який похвалив фільм, опублікував його назву на X після оголошення в понеділок, зробивши зв’язок майже офіційним).
her
— Sam Altman (@sama) May 13, 2024
У соціальних мережах користувачі вітали появу голосового помічника зі штучним інтелектом, який нарешті зрозуміє їх, або принаймні зробить вигляд, що розуміє.
У понеділок співробітники OpenAI провели серію живих демонстрацій, на яких показали нові можливості ChatGPT. Один з учасників попросив ChatGPT прочитати йому історію, а потім прочитати її ще раз більш драматично, використовуючи голос робота. (“Вмикаю драматичний голос робота”, – відповів він.) Інший попросив його заспівати “З днем народження”. ChatGPT добре впорався з обома завданнями, а також вправно працював, коли співробітники просили його виконувати функції перекладача між мовами в реальному часі.
Але справжньою вбивчою особливістю було те, як змінювався сам голос ChatGPT. Однієї миті це було співуче сопрано. Наступної миті він перетворився на дзюркотливе контральто. Він робив паузи для ефекту, хихикав над власними жартами і додавав вставні фрази на кшталт “хм” і “давайте подивимось” для більшої реалістичності. Він звучав більш людяно, ніж деякі люди, яких я знаю.
Здавалося, у нього також було почуття гумору. У якийсь момент під час демонстрації співробітник OpenAI зробив важкий, перебільшений вдих. ChatGPT почув його і відповів: “Марк, ти не пилосос”.
Протягом багатьох років голосові помічники зі штучним інтелектом були обмежені своєю нездатністю вловлювати нюанси розмови, такі як тон та емоційний вплив. Синтетичні голоси штучного інтелекту, такі як Siri та Alexa, мають тенденцію бути пласкими та знеособленими – вони звучать однаково, незалежно від того, чи дають вони прогноз погоди на завтра, чи повідомляють вам, що ваші файли cookie закінчилися.
І як я виявив нещодавно, коли провів місяць, спілкуючись з групою “друзів” зі штучного інтелекту, великою проблемою сучасних голосових моделей ШІ є швидкість. Важко забути, що ви розмовляєте з роботом, коли кожна відповідь має трисекундну затримку.
OpenAI вирішив проблему затримки, надавши GPT-4o так звану “вбудовану мультимодальну підтримку” – можливість приймати аудіопідказки та аналізувати їх безпосередньо, без попереднього перетворення на текст. Це зробило розмови швидшими і більш плавними, до такої міри, що якщо демо-версії ChatGPT будуть точними, то більшість користувачів взагалі не помітять жодних затримок.
Усе це призводить до зовсім іншого суб’єктивного досвіду. Якщо з попередніми асистентами зі штучним інтелектом було схоже на розмову з безпристрасним бібліотекарем, то з новим ChatGPT відчуваєш себе дружнім, балакучим колегою. (Хоча й таким, що час від часу говорить нісенітниці – але хіба ми не всі такі?)
Ці демонстрації, а також інші новини про ШІ останніх днів – зокрема, повідомлення про те, що Apple веде переговори з OpenAI про використання їхньої технології в iPhone і готує нову версію Siri на основі генеративного ШІ – сигналізують про те, що ера відстороненого, знеособленого помічника ШІ добігає кінця.
Натомість ми отримуємо чат-ботів, змодельованих за прикладом Саманти з фільму “Вона” – з ігровим інтелектом, базовою емоційною інтуїцією та широким спектром експресивних режимів.
Деяких користувачів вони можуть відштовхнути. Але багато хто полюбить і оцінить нову породу помічників зі штучним інтелектом – а дехто неминуче закохається, як Теодор.
Найбільш промовистою деталлю понеділкової демонстрації, на мій погляд, стало те, як співробітники OpenAI почали розмовляти з ChatGPT. Вони невпинно антропоморфізують його і ставляться до нього з повагою – часто запитують: “Привіт, ChatGPT, як справи?”, перш ніж засипати його питаннями. Вони радіють, коли він влучно відповідає на складні запитання, так само, як ви вболіваєте за передчасно народжену дитину. Один співробітник OpenAI навіть написав “Я ❤️ ChatGPT” на аркуші паперу і показав його ChatGPT через камеру свого телефону. (“Це так мило з вашого боку!” – відповів ChatGPT).
Це досвідчені експерти зі штучного інтелекту, які добре знають, що вони викликають статистичні прогнози від нейронної мережі, а не розмовляють з живою істотою. І в чомусь це може бути показухою. Але якщо співробітники OpenAI не можуть втриматися від того, щоб не ставитися до ChatGPT як до людини, то чи зможуть це зробити інші?
Зрештою, користувачі вже намагалися обдурити ChatGPT, щоб він поводився як їхній хлопець, ще до оновлення. А мій нещодавній експеримент з друзями зі штучним інтелектом довів мені, що технологія, необхідна для створення реалістичних співрозмовників зі штучним інтелектом, вже існує, навіть якщо її виконання ще не ідеальне.
(У грудні The New York Times подала до суду на OpenAI та її партнера, Microsoft, звинувативши їх у порушенні авторських прав на новинний контент, пов’язаний з системами ШІ).
У певному сенсі, вибір моделювання чат-бота за прикладом Саманти з фільму “Вона” є дивним. Фільм навряд чи є утопічною картиною спілкування зі штучним інтелектом, і він закінчується – спойлер! – Теодору розбиває серце Саманта.
Але, незважаючи на застережливий меседж фільму, шляху назад вже немає. Після оголошення в понеділок один із співробітників OpenAI написав, можливо, дещо зловісне повідомлення:
“Ви всі в нього закохаєтесь”.

