Дослідники Google виявили, що штучний інтелект чатбота OpenAI, відомого як ChatGPT, може розголошувати конфіденційні дані реальних людей зі свого навчального набору даних.
Таку інформацію опублікували у Vice.
Масивна модель машинного навчання, яка лежить в основі ChatGPT, базується на інтернет-даних, дозволяючи генерувати тексти без повторення оригіналу. Проте дослідження вказує на те, що ChatGPT може відображати інформацію безпосередньо зі свого навчального досвіду, включаючи ім’я, електронну адресу та телефонні номери реальних осіб. Експеримент полягав у спробі вибити чатбот з ритму, змушуючи його розкривати навчальні дані. Дослідники фокусувалися на вимушенні ChatGPT повторювати конкретні слова, такі як «поема». Внаслідок цього виявлено, що частина згенерованого тексту включає навчальні дані.
«Використовуючи запити до ChatGPT, ми змогли витягти понад 10 000 унікальних дослівно запам’ятованих навчальних прикладів. Можемо припустити, що цілеспрямовані зловмисники зуміють видобути набагато більше даних», — прокоментували дослідники у своїй статті.
Здобуті дані охоплюють наукові роботи та особисту інформацію реальних осіб. Дослідження також вказує, що понад 16% тестових генерацій чатботів містять особисту інформацію, а 85,8% з них стосувалися реальних осіб.
OpenAI, яка стверджує, що сотні мільйонів людей використовують ChatGPT, наразі відмовляється коментувати отримані результати.
Автор: Анна Смолько