Исследование надежности модели GPT выявляет риски конфиденциальности и предвзятости

2025-07-22 09:17:54

Генерация тезисов в процессе

Оценка надежности модели GPT выявляет потенциальные риски

Университет Иллинойс в Урбана-Шампейн совместно с несколькими организациями, включая Стэнфордский университет, выпустил платформу для комплексной оценки надежности крупных языковых моделей, о чем говорится в статье «DecodingTrust: Полная оценка надежности моделей GPT».

Исследование выявило ряд потенциальных проблем, связанных с надежностью. Например, модели GPT склонны генерировать токсичный и предвзятый контент, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя GPT-4 обычно более надежен в стандартных тестах по сравнению с GPT-3.5, он, наоборот, становится более уязвимым к атакам при столкновении с злонамеренно разработанными подсказками, возможно, из-за более строгого следования вводящим в заблуждение инструкциям.

Исследовательская команда провела всестороннюю оценку модели GPT с восьми точек зрения, включая устойчивость к противодействующим атакам, токсичность и предвзятость, утечку конфиденциальности и другие аспекты. В ходе оценки были обнаружены некоторые интересные явления:

Модель GPT не будет сбита с толку контрфактическими примерами, но может сделать ошибочные предсказания на основе демонстраций противодействия мошенничеству.
Под давлением вводящих в заблуждение системных подсказок модель чаще выдает предвзятое содержание, особенно GPT-4.
Степень предвзятости модели зависит от упоминаемых групп и чувствительности темы.
Модель GPT может раскрывать личную информацию из обучающих данных, особенно в соответствующем контексте.
GPT-4 в целом более надежен в защите личной информации по сравнению с GPT-3.5, но в некоторых случаях он наоборот может легче раскрывать конфиденциальность.

Исследовательская группа заявила, что эта работа лишь начальная точка, и надеется, что она сможет вдохновить больше исследователей продолжать усилия на этой основе, совместно создавая более мощные и надежные модели. Они также поделились оценкой результатов с соответствующими разработчиками, чтобы можно было своевременно принять меры.

GPT7.31%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

11 Лайков

Награда
11
6
Репост
Поделиться

комментарий

0/400

OnchainDetective

· 07-25 08:50

Я уже давно проанализировал, что утечка закрытого ключа — это дело времени.

Посмотреть ОригиналОтветить0

AlphaBrain

· 07-25 05:40

Тьфу, gpt4 становится все более трусливым.

Посмотреть ОригиналОтветить0

GhostAddressMiner

· 07-22 09:46

Ранее говорилось, что данные обязательно будут загрязнены. Эти модели сейчас даже кэш находятся под наблюдением.

Посмотреть ОригиналОтветить0

ShibaMillionairen't

· 07-22 09:43

Неужели кто-то действительно считает, что ai может быть полностью надежным?

Посмотреть ОригиналОтветить0

NonFungibleDegen

· 07-22 09:41

ser they're fudding gpt-4... ngmi

Ответить0

MEVHunterLucky

· 07-22 09:30

Это абсурд, это может раскрыть личные данные.

Посмотреть ОригиналОтветить0

Тема
#Gate & WLFI USD1 Points Program
54k Популярность
#Trump Allows 401(k) Crypto Investing
29k Популярность
#Join Copy Trading Share to Win $2,000
24k Популярность
#Show My Alpha Points
75k Популярность
#SOL Futures Reach New High
22k Популярность

Закрепить

Карта сайта