Model besar melampaui 400.000 token, kemampuan teks panjang memimpin era baru LLM.

robot
Pembuatan abstrak sedang berlangsung

Kemampuan teks panjang model besar meningkat pesat, 400 ribu token mungkin baru permulaan

Kemampuan pemrosesan teks panjang dari model besar sedang meningkat dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga kini 400.000 token, pertumbuhan kemampuan ini bisa dilihat dengan jelas.

Kemampuan pemrosesan teks panjang tampaknya telah menjadi standar baru bagi penyedia model besar. Di tingkat internasional, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah meningkatkan panjang konteks modelnya, Claude, menjadi 100.000 token. LongLLaMA bahkan memperluas angka ini menjadi 256.000 token.

Pasar domestik juga tidak mau kalah. Diketahui, perusahaan rintisan bulan kegelapan meluncurkan Kimi Chat yang mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh CUHK dan MIT dapat memperpanjang panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.

Saat ini, banyak perusahaan model besar terkemuka seperti OpenAI, Anthropic, Meta, dan Bulan Gelap menempatkan perpanjangan panjang konteks sebagai arah pembaruan utama. Semua perusahaan ini, tanpa kecuali, adalah favorit pasar modal, dengan skala pendanaan yang sering kali mencapai puluhan miliar dolar.

Pencapaian dalam teknologi teks panjang sangat berarti. Secara permukaan, ini berarti model dapat menangani teks input yang lebih panjang, sehingga kemampuan membaca meningkat secara signifikan. Dari sudut pandang yang lebih dalam, teknologi ini sedang mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian.

Namun, perlu dicatat bahwa panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak sama dengan peningkatan kinerja. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.

Meskipun demikian, eksplorasi panjang teks saat ini tampaknya masih jauh dari batas atas. 400.000 token mungkin hanya merupakan awal, perusahaan model besar masih berusaha tanpa henti untuk melampaui batas ini.

Terobosan teknologi teks panjang tidak hanya menyelesaikan beberapa masalah yang dihadapi model besar di awal, tetapi juga meningkatkan fungsinya. Ini menandai masuknya model besar umum ke dalam tahap perkembangan baru—dari LLM ke era Long LLM.

Teknologi teks panjang membawa banyak kemampuan baru bagi model besar. Misalnya, ia dapat dengan cepat menganalisis artikel panjang, mengekstrak informasi kunci dari laporan keuangan, dan mewujudkan interaksi tanya jawab untuk seluruh buku. Dalam hal kode, bahkan dapat langsung mengubah makalah menjadi kode. Dalam skenario percakapan panjang, juga dapat mewujudkan interaksi yang lebih profesional, personal, dan mendalam.

Namun, perkembangan teknologi teks panjang juga menghadapi dilema "segitiga tak mungkin": terdapat saling pembatasan antara panjang teks, perhatian, dan daya komputasi. Seiring dengan meningkatnya panjang teks, model menjadi sulit untuk memusatkan perhatian yang cukup, sementara juga memerlukan lebih banyak dukungan daya komputasi.

Saat ini, industri utama menggunakan tiga solusi untuk menghadapi tantangan ini: menggunakan alat eksternal untuk membantu memproses teks panjang, mengoptimalkan perhitungan mekanisme perhatian diri, dan melakukan optimasi pada model. Setiap solusi memiliki kelebihan dan kekurangan, perusahaan model besar sedang berusaha menemukan titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi.

Seiring dengan kemajuan teknologi yang terus menerus, kemampuan pemrosesan teks panjang diharapkan dapat ditingkatkan lebih lanjut, membuka jalan bagi penerapan model besar di lebih banyak bidang.

TOKEN2.51%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • Bagikan
Komentar
0/400
NFTArchaeologistvip
· 07-24 00:05
Daya Komputasi habis berapa? Mengakui uang bukan orang
Lihat AsliBalas0
FlashLoanPrincevip
· 07-23 21:51
Performa meningkat, Daya Komputasi dipompa penuh dan selesai.
Lihat AsliBalas0
AirdropHarvestervip
· 07-23 10:30
Token ini naik dengan sangat cepat, sudah seratus kali lipat.
Lihat AsliBalas0
CryptoSurvivorvip
· 07-21 05:41
Semakin naik semakin tenang, semakin turun semakin bersemangat.
Lihat AsliBalas0
PumpStrategistvip
· 07-21 05:40
naik seperti ini curam, risiko teknologi +1, perhatikan pullback pada posisi tinggi
Lihat AsliBalas0
HodlOrRegretvip
· 07-21 05:37
Akselerasi terlalu cepat, tidak bisa dipercaya.
Lihat AsliBalas0
HappyToBeDumpedvip
· 07-21 05:33
40 ribu kata juga tidak membuat ai paham
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)