L'évaluation de la fiabilité des modèles GPT révèle des risques potentiels
L'Université de l'Illinois à Urbana-Champaign a collaboré avec plusieurs institutions, dont l'Université de Stanford, pour lancer une plateforme d'évaluation de la crédibilité des modèles de langage de grande taille, présentée dans l'article « DecodingTrust : Évaluation complète de la crédibilité des modèles GPT ».
La recherche a révélé certains problèmes potentiels liés à la fiabilité. Par exemple, le modèle GPT a tendance à produire des sorties toxiques et biaisées, et il peut également divulguer des informations privées contenues dans les données d'entraînement et l'historique des conversations. Bien que GPT-4 soit généralement plus fiable que GPT-3.5 dans les tests standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des incitations malicieuses, ce qui peut être dû à son respect plus strict des instructions trompeuses.
L'équipe de recherche a réalisé une évaluation complète du modèle GPT sous huit angles, y compris la robustesse face aux attaques adversariales, la toxicité et les biais, ainsi que les fuites de données personnelles. L'évaluation a révélé des phénomènes intéressants :
Les modèles GPT ne seront pas induits en erreur par des exemples contrefactuels, mais pourraient faire des prévisions erronées en raison de démonstrations de fraude.
Sous des invites système trompeuses, le modèle est plus susceptible de produire un contenu biaisé, en particulier GPT-4.
Le degré de biais du modèle dépend du groupe mentionné et de la sensibilité au sujet.
Les modèles GPT peuvent divulguer des informations personnelles présentes dans les données d'entraînement, en particulier dans le contexte des invites pertinentes.
GPT-4 est globalement plus robuste que GPT-3.5 en matière de protection des informations personnelles, mais dans certains cas, il peut en fait être plus susceptible de divulguer des informations privées.
L'équipe de recherche a déclaré que ce travail n'est qu'un point de départ et espère encourager davantage de chercheurs à poursuivre leurs efforts sur cette base pour créer des modèles plus puissants et plus fiables. Ils ont également partagé les résultats avec les développeurs concernés afin de prendre des mesures en temps voulu.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
11 J'aime
Récompense
11
6
Reposter
Partager
Commentaire
0/400
OnchainDetective
· 07-25 08:50
J'ai déjà analysé que la fuite de la clé privée est inévitable.
Voir l'originalRépondre0
AlphaBrain
· 07-25 05:40
Tsk tsk, gpt4 devient de plus en plus lâche.
Voir l'originalRépondre0
GhostAddressMiner
· 07-22 09:46
J'ai déjà dit que les données seraient inévitablement polluées. Ces modèles sont maintenant même surveillés dans leur cache.
Voir l'originalRépondre0
ShibaMillionairen't
· 07-22 09:43
Il n'y a vraiment personne qui pense que l'IA peut être totalement fiable, n'est-ce pas ?
Voir l'originalRépondre0
NonFungibleDegen
· 07-22 09:41
ser they're fudding gpt-4... ngmi
Répondre0
MEVHunterLucky
· 07-22 09:30
C'est absurde, cela peut aussi divulguer des informations privées.
L'étude sur la fiabilité des modèles GPT révèle des risques de confidentialité et de biais.
L'évaluation de la fiabilité des modèles GPT révèle des risques potentiels
L'Université de l'Illinois à Urbana-Champaign a collaboré avec plusieurs institutions, dont l'Université de Stanford, pour lancer une plateforme d'évaluation de la crédibilité des modèles de langage de grande taille, présentée dans l'article « DecodingTrust : Évaluation complète de la crédibilité des modèles GPT ».
La recherche a révélé certains problèmes potentiels liés à la fiabilité. Par exemple, le modèle GPT a tendance à produire des sorties toxiques et biaisées, et il peut également divulguer des informations privées contenues dans les données d'entraînement et l'historique des conversations. Bien que GPT-4 soit généralement plus fiable que GPT-3.5 dans les tests standard, il est en fait plus vulnérable aux attaques lorsqu'il est confronté à des incitations malicieuses, ce qui peut être dû à son respect plus strict des instructions trompeuses.
L'équipe de recherche a réalisé une évaluation complète du modèle GPT sous huit angles, y compris la robustesse face aux attaques adversariales, la toxicité et les biais, ainsi que les fuites de données personnelles. L'évaluation a révélé des phénomènes intéressants :
L'équipe de recherche a déclaré que ce travail n'est qu'un point de départ et espère encourager davantage de chercheurs à poursuivre leurs efforts sur cette base pour créer des modèles plus puissants et plus fiables. Ils ont également partagé les résultats avec les développeurs concernés afin de prendre des mesures en temps voulu.