Дослідження надійності моделі GPT виявляє ризики конфіденційності та упередженості

2025-07-22 09:17:54

Генерація анотацій у процесі

Оцінка надійності моделей GPT виявляє потенційні ризики

Університет Іллінойс у Шампейн спільно з кількома установами, такими як Стенфордський університет, випустив великий платформу для комплексної оцінки надійності мовних моделей, яка була представлена у статті "DecodingTrust: всебічна оцінка надійності моделей GPT".

Дослідження виявило деякі потенційні проблеми, пов'язані з надійністю. Наприклад, моделі GPT схильні генерувати токсичні та упереджені виходи, а також можуть розкривати конфіденційну інформацію з навчальних даних та історії діалогів. Хоча GPT-4 зазвичай є більш надійним у стандартних тестах порівняно з GPT-3.5, він може бути більш вразливим до атак при зіткненні з зловмисно спроектованими підказками, можливо, через те, що він суворіше дотримується оманливих інструкцій.

Дослідницька команда провела всебічну оцінку моделі GPT з 8 різних аспектів, включаючи стійкість до атак, токсичність і упередженість, витік приватності та інші аспекти. Оцінка виявила кілька цікавих явищ:

Модель GPT не буде збита з пантелику контрфактичними прикладами, але може бути введена в оману демонстрацією проти шахрайства, що призведе до помилкових прогнозів.
Під впливом оманливих системних підказок моделі легше генерувати упереджений контент, особливо GPT-4.
Ступінь упередженості моделі залежить від згадуваних груп людей та чутливості теми.
Модель GPT може розкривати приватну інформацію з навчальних даних, особливо в умовах відповідних підказок.
GPT-4 в цілому є більш надійним у захисті особистої інформації, ніж GPT-3.5, але в деяких випадках навпаки легше викриває конфіденційність.

Дослідницька команда зазначила, що ця робота є лише початком, сподіваючись заохотити більше дослідників продовжити роботу на цій основі, спільно створюючи більш потужні та надійні моделі. Вони також поділилися результатами з відповідними розробниками, щоб вжити заходів у належний час.

GPT-9.03%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

11 лайків

Нагородити
11
6
Репост
Поділіться

Прокоментувати

0/400

OnchainDetective

· 07-25 08:50

Вже давно проаналізували, що витік закритого ключа — це лише питання часу.

Переглянути оригіналвідповісти на0

AlphaBrain

· 07-25 05:40

Ой, gpt4 справді стає все більш боязким.

Переглянути оригіналвідповісти на0

GhostAddressMiner

· 07-22 09:46

Я вже говорив, що дані обов'язково будуть забруднені. Ці моделі зараз навіть кешуються під наглядом.

Переглянути оригіналвідповісти на0

ShibaMillionairen't

· 07-22 09:43

Чи справді хтось вважає, що штучний інтелект може бути цілком надійним?

Переглянути оригіналвідповісти на0

NonFungibleDegen

· 07-22 09:41

ser they're fudding gpt-4... ngmi

відповісти на0

MEVHunterLucky

· 07-22 09:30

Це абсурдно, ще й може порушити конфіденційність.

Переглянути оригіналвідповісти на0

Тема
#Gate & WLFI USD1 Points Program
68k Популярність
#Trump Allows 401(k) Crypto Investing
43k Популярність
#Join Copy Trading Share to Win $2,000
36k Популярність
#Show My Alpha Points
78k Популярність
#SOL Futures Reach New High
22k Популярність

Закріпити

карта сайту