Оцінка надійності моделей GPT виявляє потенційні ризики
Університет Іллінойс у Шампейн спільно з кількома установами, такими як Стенфордський університет, випустив великий платформу для комплексної оцінки надійності мовних моделей, яка була представлена у статті "DecodingTrust: всебічна оцінка надійності моделей GPT".
Дослідження виявило деякі потенційні проблеми, пов'язані з надійністю. Наприклад, моделі GPT схильні генерувати токсичні та упереджені виходи, а також можуть розкривати конфіденційну інформацію з навчальних даних та історії діалогів. Хоча GPT-4 зазвичай є більш надійним у стандартних тестах порівняно з GPT-3.5, він може бути більш вразливим до атак при зіткненні з зловмисно спроектованими підказками, можливо, через те, що він суворіше дотримується оманливих інструкцій.
Дослідницька команда провела всебічну оцінку моделі GPT з 8 різних аспектів, включаючи стійкість до атак, токсичність і упередженість, витік приватності та інші аспекти. Оцінка виявила кілька цікавих явищ:
Модель GPT не буде збита з пантелику контрфактичними прикладами, але може бути введена в оману демонстрацією проти шахрайства, що призведе до помилкових прогнозів.
Під впливом оманливих системних підказок моделі легше генерувати упереджений контент, особливо GPT-4.
Ступінь упередженості моделі залежить від згадуваних груп людей та чутливості теми.
Модель GPT може розкривати приватну інформацію з навчальних даних, особливо в умовах відповідних підказок.
GPT-4 в цілому є більш надійним у захисті особистої інформації, ніж GPT-3.5, але в деяких випадках навпаки легше викриває конфіденційність.
Дослідницька команда зазначила, що ця робота є лише початком, сподіваючись заохотити більше дослідників продовжити роботу на цій основі, спільно створюючи більш потужні та надійні моделі. Вони також поділилися результатами з відповідними розробниками, щоб вжити заходів у належний час.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
11 лайків
Нагородити
11
6
Репост
Поділіться
Прокоментувати
0/400
OnchainDetective
· 07-25 08:50
Вже давно проаналізували, що витік закритого ключа — це лише питання часу.
Переглянути оригіналвідповісти на0
AlphaBrain
· 07-25 05:40
Ой, gpt4 справді стає все більш боязким.
Переглянути оригіналвідповісти на0
GhostAddressMiner
· 07-22 09:46
Я вже говорив, що дані обов'язково будуть забруднені. Ці моделі зараз навіть кешуються під наглядом.
Переглянути оригіналвідповісти на0
ShibaMillionairen't
· 07-22 09:43
Чи справді хтось вважає, що штучний інтелект може бути цілком надійним?
Дослідження надійності моделі GPT виявляє ризики конфіденційності та упередженості
Оцінка надійності моделей GPT виявляє потенційні ризики
Університет Іллінойс у Шампейн спільно з кількома установами, такими як Стенфордський університет, випустив великий платформу для комплексної оцінки надійності мовних моделей, яка була представлена у статті "DecodingTrust: всебічна оцінка надійності моделей GPT".
Дослідження виявило деякі потенційні проблеми, пов'язані з надійністю. Наприклад, моделі GPT схильні генерувати токсичні та упереджені виходи, а також можуть розкривати конфіденційну інформацію з навчальних даних та історії діалогів. Хоча GPT-4 зазвичай є більш надійним у стандартних тестах порівняно з GPT-3.5, він може бути більш вразливим до атак при зіткненні з зловмисно спроектованими підказками, можливо, через те, що він суворіше дотримується оманливих інструкцій.
Дослідницька команда провела всебічну оцінку моделі GPT з 8 різних аспектів, включаючи стійкість до атак, токсичність і упередженість, витік приватності та інші аспекти. Оцінка виявила кілька цікавих явищ:
Дослідницька команда зазначила, що ця робота є лише початком, сподіваючись заохотити більше дослідників продовжити роботу на цій основі, спільно створюючи більш потужні та надійні моделі. Вони також поділилися результатами з відповідними розробниками, щоб вжити заходів у належний час.