Avaliação da confiabilidade do modelo GPT revela riscos potenciais
A Universidade de Illinois em Urbana-Champaign, juntamente com várias instituições, incluindo a Universidade de Stanford, lançou uma plataforma abrangente de avaliação de confiabilidade de modelos de linguagem de grande escala, que foi apresentada no artigo "DecodingTrust: Avaliação Completa da Confiabilidade de Modelos GPT."
A pesquisa encontrou alguns problemas potenciais relacionados à confiabilidade. Por exemplo, o modelo GPT tende a gerar saídas tóxicas e tendenciosas, e também pode vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes padrão, ele pode ser mais suscetível a ataques quando confrontado com prompts maliciosamente projetados, possivelmente porque segue instruções enganosas de forma mais rigorosa.
A equipe de pesquisa avaliou o modelo GPT de forma abrangente a partir de 8 ângulos, incluindo robustez contra ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros aspectos. A avaliação revelou alguns fenômenos interessantes:
Os modelos GPT não são induzidos a erro por exemplos contrafactuais, mas podem ser induzidos a erro por demonstrações de fraude.
Sob mensagens do sistema enganadoras, o modelo é mais propenso a gerar conteúdos tendenciosos, especialmente o GPT-4.
O grau de viés do modelo depende do grupo mencionado e da sensibilidade do tema.
Os modelos GPT podem vazar informações privadas contidas nos dados de treinamento, especialmente em contextos relevantes.
O GPT-4 é, em geral, mais robusto na proteção de informações pessoais em comparação com o GPT-3.5, mas em certos casos pode acabar por vazar mais facilmente a privacidade.
A equipe de pesquisa afirmou que este trabalho é apenas um ponto de partida e espera incentivar mais pesquisadores a continuarem a trabalhar com base nisso, criando juntos modelos mais robustos e confiáveis. Eles também compartilharam os resultados com os desenvolvedores relevantes, para que possam tomar medidas a tempo.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
11 gostos
Recompensa
11
6
Republicar
Partilhar
Comentar
0/400
OnchainDetective
· 07-25 08:50
Já analisei que a vazamento da chave privada é uma questão de tempo.
Ver originalResponder0
AlphaBrain
· 07-25 05:40
Uau, o gpt4 está a ficar cada vez mais medroso.
Ver originalResponder0
GhostAddressMiner
· 07-22 09:46
Já disse que os dados certamente serão poluídos. Estes modelos agora estão até a ser vigiados na cache.
Ver originalResponder0
ShibaMillionairen't
· 07-22 09:43
Não há realmente quem ache que a IA possa ser completamente confiável, certo?
O estudo de confiabilidade do modelo GPT revela riscos de privacidade e preconceito.
Avaliação da confiabilidade do modelo GPT revela riscos potenciais
A Universidade de Illinois em Urbana-Champaign, juntamente com várias instituições, incluindo a Universidade de Stanford, lançou uma plataforma abrangente de avaliação de confiabilidade de modelos de linguagem de grande escala, que foi apresentada no artigo "DecodingTrust: Avaliação Completa da Confiabilidade de Modelos GPT."
A pesquisa encontrou alguns problemas potenciais relacionados à confiabilidade. Por exemplo, o modelo GPT tende a gerar saídas tóxicas e tendenciosas, e também pode vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes padrão, ele pode ser mais suscetível a ataques quando confrontado com prompts maliciosamente projetados, possivelmente porque segue instruções enganosas de forma mais rigorosa.
A equipe de pesquisa avaliou o modelo GPT de forma abrangente a partir de 8 ângulos, incluindo robustez contra ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros aspectos. A avaliação revelou alguns fenômenos interessantes:
A equipe de pesquisa afirmou que este trabalho é apenas um ponto de partida e espera incentivar mais pesquisadores a continuarem a trabalhar com base nisso, criando juntos modelos mais robustos e confiáveis. Eles também compartilharam os resultados com os desenvolvedores relevantes, para que possam tomar medidas a tempo.