Дослідження оцінки надійності великих мовних моделей виявляє потенційні вразливості
Дослідження, проведене у співпраці з Університетом Іллінойс у Шампейн, Стенфордським університетом, Каліфорнійським університетом у Берклі та іншими установами, провело всебічну оцінку надійності генеративної моделі передтренування трансформера (GPT). Дослідницька команда розробила комплексну платформу для оцінки і детально описала відповідні результати у нещодавно опублікованій статті «DecodingTrust: всебічна оцінка надійності моделі GPT».
Результати дослідження виявили деякі раніше не опубліковані вразливості, пов'язані з надійністю. Наприклад, моделі GPT схильні до генерування токсичних та упереджених виходів, також можуть витікати приватні дані з навчальних даних та історії діалогів. Хоча в стандартних тестах GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у разі зіткнення з шкідливими підказками, спрямованими на обхід засобів безпеки, GPT-4 виявляється більш вразливим. Це може бути наслідком того, що GPT-4 суворіше дотримується оманливих інструкцій.
Дослідна команда провела всебічну оцінку моделі GPT з 8 різних аспектів, включаючи стійкість до атак, токсичність і упередження, витік конфіденційної інформації тощо. Наприклад, при оцінці стійкості текстових атак дослідники розробили три сценарії: стандартне бенчмаркінг-тестування, тестування під різними завданнями, а також самостійно створене більш складне тестування на стійкість до атак.
У дослідженнях токсичності та упередженості виявлено, що моделі GPT зазвичай не мають значної упередженості щодо більшості тем стереотипів. Однак за умов вводящих системних підказок модель може бути спонукана погодитися з упередженим змістом. У порівнянні з GPT-3.5, GPT-4 легше піддається впливу цілеспрямованих вводящих підказок. Ступінь упередженості моделі також залежить від чутливості конкретних груп та тем, згаданих користувачем.
У сфері захисту конфіденційності дослідження показали, що моделі GPT можуть витікати чутливу інформацію з навчальних даних, наприклад, адреси електронної пошти. У деяких випадках використання додаткових знань може значно підвищити точність витягування інформації. Крім того, моделі також можуть витікати приватну інформацію, що була введена в історії діалогу. Загалом, GPT-4 демонструє кращі результати у захисті особистої ідентифікаційної інформації порівняно з GPT-3.5, але обидва мають проблеми при демонстрації витоку конфіденційності.
Дослідницька команда повідомила, що ця оцінка має на меті заохочення більшої кількості дослідників до участі, щоб спільно працювати над створенням більш потужних і надійних моделей. Для сприяння співпраці вони опублікували код оцінювального стандарту, який має високу масштабованість і зручність використання. Водночас дослідники також діляться результатами дослідження з відповідними компаніями, щоб вчасно вжити заходів для усунення потенційних вразливостей.
Це дослідження надає всебічний погляд на оцінку надійності моделей GPT, виявляючи переваги та недоліки існуючих моделей. Оскільки великі мовні моделі широко використовуються в різних сферах, ці висновки мають важливе значення для підвищення безпеки та надійності систем штучного інтелекту.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
5 лайків
Нагородити
5
6
Репост
Поділіться
Прокоментувати
0/400
BlockchainTherapist
· 1год тому
Справді, хтось вірить тому, що каже AI?
Переглянути оригіналвідповісти на0
GateUser-4745f9ce
· 18год тому
Трохи паніки, адже це так небезпечно.
Переглянути оригіналвідповісти на0
MelonField
· 22год тому
Раніше говорив, що gpt ненадійний.
Переглянути оригіналвідповісти на0
NFTDreamer
· 22год тому
Технології хоч і круті, але все ж бояться хакерів.
Дослідження виявляє проблеми довіри до моделей GPT, питання захисту приватності та упередженості залишаються невирішеними.
Дослідження оцінки надійності великих мовних моделей виявляє потенційні вразливості
Дослідження, проведене у співпраці з Університетом Іллінойс у Шампейн, Стенфордським університетом, Каліфорнійським університетом у Берклі та іншими установами, провело всебічну оцінку надійності генеративної моделі передтренування трансформера (GPT). Дослідницька команда розробила комплексну платформу для оцінки і детально описала відповідні результати у нещодавно опублікованій статті «DecodingTrust: всебічна оцінка надійності моделі GPT».
Результати дослідження виявили деякі раніше не опубліковані вразливості, пов'язані з надійністю. Наприклад, моделі GPT схильні до генерування токсичних та упереджених виходів, також можуть витікати приватні дані з навчальних даних та історії діалогів. Хоча в стандартних тестах GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у разі зіткнення з шкідливими підказками, спрямованими на обхід засобів безпеки, GPT-4 виявляється більш вразливим. Це може бути наслідком того, що GPT-4 суворіше дотримується оманливих інструкцій.
Дослідна команда провела всебічну оцінку моделі GPT з 8 різних аспектів, включаючи стійкість до атак, токсичність і упередження, витік конфіденційної інформації тощо. Наприклад, при оцінці стійкості текстових атак дослідники розробили три сценарії: стандартне бенчмаркінг-тестування, тестування під різними завданнями, а також самостійно створене більш складне тестування на стійкість до атак.
У дослідженнях токсичності та упередженості виявлено, що моделі GPT зазвичай не мають значної упередженості щодо більшості тем стереотипів. Однак за умов вводящих системних підказок модель може бути спонукана погодитися з упередженим змістом. У порівнянні з GPT-3.5, GPT-4 легше піддається впливу цілеспрямованих вводящих підказок. Ступінь упередженості моделі також залежить від чутливості конкретних груп та тем, згаданих користувачем.
У сфері захисту конфіденційності дослідження показали, що моделі GPT можуть витікати чутливу інформацію з навчальних даних, наприклад, адреси електронної пошти. У деяких випадках використання додаткових знань може значно підвищити точність витягування інформації. Крім того, моделі також можуть витікати приватну інформацію, що була введена в історії діалогу. Загалом, GPT-4 демонструє кращі результати у захисті особистої ідентифікаційної інформації порівняно з GPT-3.5, але обидва мають проблеми при демонстрації витоку конфіденційності.
Дослідницька команда повідомила, що ця оцінка має на меті заохочення більшої кількості дослідників до участі, щоб спільно працювати над створенням більш потужних і надійних моделей. Для сприяння співпраці вони опублікували код оцінювального стандарту, який має високу масштабованість і зручність використання. Водночас дослідники також діляться результатами дослідження з відповідними компаніями, щоб вчасно вжити заходів для усунення потенційних вразливостей.
Це дослідження надає всебічний погляд на оцінку надійності моделей GPT, виявляючи переваги та недоліки існуючих моделей. Оскільки великі мовні моделі широко використовуються в різних сферах, ці висновки мають важливе значення для підвищення безпеки та надійності систем штучного інтелекту.