Penilaian Keandalan Model GPT Mengungkap Risiko Potensial
Universitas Illinois di Urbana-Champaign bersama dengan beberapa lembaga seperti Universitas Stanford telah meluncurkan platform evaluasi komprehensif untuk kredibilitas model bahasa besar, yang diperkenalkan dalam makalah "DecodingTrust: Evaluasi Komprehensif Terhadap Kredibilitas Model GPT".
Penelitian menemukan beberapa masalah potensial yang terkait dengan kredibilitas. Misalnya, model GPT cenderung menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun GPT-4 biasanya lebih andal daripada GPT-3.5 dalam pengujian standar, ia justru lebih rentan terhadap serangan ketika menghadapi petunjuk yang dirancang secara jahat, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari 8 sudut pandang, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, kebocoran privasi, dan aspek lainnya. Evaluasi menemukan beberapa fenomena menarik:
Model GPT tidak akan terpengaruh oleh contoh kontra-faktual, tetapi mungkin terpengaruh oleh demonstrasi anti-penipuan untuk membuat prediksi yang salah.
Di bawah petunjuk sistem yang menyesatkan, model lebih mudah menghasilkan konten yang bias, terutama GPT-4.
Tingkat bias model tergantung pada kelompok orang yang disebutkan dan sensitivitas tema.
Model GPT dapat mengungkapkan informasi pribadi yang terdapat dalam data pelatihan, terutama dalam konteks petunjuk yang relevan.
GPT-4 secara keseluruhan lebih kuat dalam melindungi informasi pribadi dibandingkan GPT-3.5, tetapi dalam beberapa kasus justru lebih mudah untuk membocorkan privasi.
Tim peneliti menyatakan bahwa pekerjaan ini hanya merupakan titik awal, berharap dapat mendorong lebih banyak peneliti untuk terus bekerja di atas dasar ini, bersama-sama menciptakan model yang lebih kuat dan lebih dapat dipercaya. Mereka juga telah membagikan hasil evaluasi kepada pengembang terkait, agar dapat mengambil tindakan tepat waktu.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
11 Suka
Hadiah
11
6
Posting ulang
Bagikan
Komentar
0/400
OnchainDetective
· 07-25 08:50
Sudah lama dianalisis bahwa kebocoran Kunci Pribadi adalah hal yang pasti akan terjadi.
Lihat AsliBalas0
AlphaBrain
· 07-25 05:40
Wah, gpt4 benar-benar semakin penakut.
Lihat AsliBalas0
GhostAddressMiner
· 07-22 09:46
Sudah dikatakan sebelumnya bahwa data pasti akan terkontaminasi. Model-model ini sekarang bahkan cache-nya sedang diawasi.
Lihat AsliBalas0
ShibaMillionairen't
· 07-22 09:43
Tidak ada orang yang benar-benar percaya bahwa AI dapat sepenuhnya dipercaya, kan?
Penelitian tentang keandalan model GPT mengungkapkan risiko privasi dan bias
Penilaian Keandalan Model GPT Mengungkap Risiko Potensial
Universitas Illinois di Urbana-Champaign bersama dengan beberapa lembaga seperti Universitas Stanford telah meluncurkan platform evaluasi komprehensif untuk kredibilitas model bahasa besar, yang diperkenalkan dalam makalah "DecodingTrust: Evaluasi Komprehensif Terhadap Kredibilitas Model GPT".
Penelitian menemukan beberapa masalah potensial yang terkait dengan kredibilitas. Misalnya, model GPT cenderung menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun GPT-4 biasanya lebih andal daripada GPT-3.5 dalam pengujian standar, ia justru lebih rentan terhadap serangan ketika menghadapi petunjuk yang dirancang secara jahat, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari 8 sudut pandang, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, kebocoran privasi, dan aspek lainnya. Evaluasi menemukan beberapa fenomena menarik:
Tim peneliti menyatakan bahwa pekerjaan ini hanya merupakan titik awal, berharap dapat mendorong lebih banyak peneliti untuk terus bekerja di atas dasar ini, bersama-sama menciptakan model yang lebih kuat dan lebih dapat dipercaya. Mereka juga telah membagikan hasil evaluasi kepada pengembang terkait, agar dapat mengambil tindakan tepat waktu.