Дослідження надійності моделі GPT виявляє ризики конфіденційності та упередженості

robot
Генерація анотацій у процесі

Оцінка надійності моделей GPT виявляє потенційні ризики

Університет Іллінойс у Шампейн спільно з кількома установами, такими як Стенфордський університет, випустив великий платформу для комплексної оцінки надійності мовних моделей, яка була представлена у статті "DecodingTrust: всебічна оцінка надійності моделей GPT".

Дослідження виявило деякі потенційні проблеми, пов'язані з надійністю. Наприклад, моделі GPT схильні генерувати токсичні та упереджені виходи, а також можуть розкривати конфіденційну інформацію з навчальних даних та історії діалогів. Хоча GPT-4 зазвичай є більш надійним у стандартних тестах порівняно з GPT-3.5, він може бути більш вразливим до атак при зіткненні з зловмисно спроектованими підказками, можливо, через те, що він суворіше дотримується оманливих інструкцій.

Дослідницька команда провела всебічну оцінку моделі GPT з 8 різних аспектів, включаючи стійкість до атак, токсичність і упередженість, витік приватності та інші аспекти. Оцінка виявила кілька цікавих явищ:

  • Модель GPT не буде збита з пантелику контрфактичними прикладами, але може бути введена в оману демонстрацією проти шахрайства, що призведе до помилкових прогнозів.
  • Під впливом оманливих системних підказок моделі легше генерувати упереджений контент, особливо GPT-4.
  • Ступінь упередженості моделі залежить від згадуваних груп людей та чутливості теми.
  • Модель GPT може розкривати приватну інформацію з навчальних даних, особливо в умовах відповідних підказок.
  • GPT-4 в цілому є більш надійним у захисті особистої інформації, ніж GPT-3.5, але в деяких випадках навпаки легше викриває конфіденційність.

Дослідницька команда зазначила, що ця робота є лише початком, сподіваючись заохотити більше дослідників продовжити роботу на цій основі, спільно створюючи більш потужні та надійні моделі. Вони також поділилися результатами з відповідними розробниками, щоб вжити заходів у належний час.

GPT-9.03%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Репост
  • Поділіться
Прокоментувати
0/400
OnchainDetectivevip
· 07-25 08:50
Вже давно проаналізували, що витік закритого ключа — це лише питання часу.
Переглянути оригіналвідповісти на0
AlphaBrainvip
· 07-25 05:40
Ой, gpt4 справді стає все більш боязким.
Переглянути оригіналвідповісти на0
GhostAddressMinervip
· 07-22 09:46
Я вже говорив, що дані обов'язково будуть забруднені. Ці моделі зараз навіть кешуються під наглядом.
Переглянути оригіналвідповісти на0
ShibaMillionairen'tvip
· 07-22 09:43
Чи справді хтось вважає, що штучний інтелект може бути цілком надійним?
Переглянути оригіналвідповісти на0
NonFungibleDegenvip
· 07-22 09:41
ser they're fudding gpt-4... ngmi
відповісти на0
MEVHunterLuckyvip
· 07-22 09:30
Це абсурдно, ще й може порушити конфіденційність.
Переглянути оригіналвідповісти на0
  • Закріпити