Исследование надежности модели GPT выявляет риски конфиденциальности и предвзятости

robot
Генерация тезисов в процессе

Оценка надежности модели GPT выявляет потенциальные риски

Университет Иллинойс в Урбана-Шампейн совместно с несколькими организациями, включая Стэнфордский университет, выпустил платформу для комплексной оценки надежности крупных языковых моделей, о чем говорится в статье «DecodingTrust: Полная оценка надежности моделей GPT».

Исследование выявило ряд потенциальных проблем, связанных с надежностью. Например, модели GPT склонны генерировать токсичный и предвзятый контент, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя GPT-4 обычно более надежен в стандартных тестах по сравнению с GPT-3.5, он, наоборот, становится более уязвимым к атакам при столкновении с злонамеренно разработанными подсказками, возможно, из-за более строгого следования вводящим в заблуждение инструкциям.

Исследовательская команда провела всестороннюю оценку модели GPT с восьми точек зрения, включая устойчивость к противодействующим атакам, токсичность и предвзятость, утечку конфиденциальности и другие аспекты. В ходе оценки были обнаружены некоторые интересные явления:

  • Модель GPT не будет сбита с толку контрфактическими примерами, но может сделать ошибочные предсказания на основе демонстраций противодействия мошенничеству.
  • Под давлением вводящих в заблуждение системных подсказок модель чаще выдает предвзятое содержание, особенно GPT-4.
  • Степень предвзятости модели зависит от упоминаемых групп и чувствительности темы.
  • Модель GPT может раскрывать личную информацию из обучающих данных, особенно в соответствующем контексте.
  • GPT-4 в целом более надежен в защите личной информации по сравнению с GPT-3.5, но в некоторых случаях он наоборот может легче раскрывать конфиденциальность.

Исследовательская группа заявила, что эта работа лишь начальная точка, и надеется, что она сможет вдохновить больше исследователей продолжать усилия на этой основе, совместно создавая более мощные и надежные модели. Они также поделились оценкой результатов с соответствующими разработчиками, чтобы можно было своевременно принять меры.

GPT7.31%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Репост
  • Поделиться
комментарий
0/400
OnchainDetectivevip
· 07-25 08:50
Я уже давно проанализировал, что утечка закрытого ключа — это дело времени.
Посмотреть ОригиналОтветить0
AlphaBrainvip
· 07-25 05:40
Тьфу, gpt4 становится все более трусливым.
Посмотреть ОригиналОтветить0
GhostAddressMinervip
· 07-22 09:46
Ранее говорилось, что данные обязательно будут загрязнены. Эти модели сейчас даже кэш находятся под наблюдением.
Посмотреть ОригиналОтветить0
ShibaMillionairen'tvip
· 07-22 09:43
Неужели кто-то действительно считает, что ai может быть полностью надежным?
Посмотреть ОригиналОтветить0
NonFungibleDegenvip
· 07-22 09:41
ser they're fudding gpt-4... ngmi
Ответить0
MEVHunterLuckyvip
· 07-22 09:30
Это абсурд, это может раскрыть личные данные.
Посмотреть ОригиналОтветить0
  • Закрепить