Kemampuan teks panjang model besar meningkat pesat, 400 ribu token mungkin baru permulaan
Kemampuan pemrosesan teks panjang dari model besar sedang meningkat dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga kini 400.000 token, pertumbuhan kemampuan ini bisa dilihat dengan jelas.
Kemampuan pemrosesan teks panjang tampaknya telah menjadi standar baru bagi penyedia model besar. Di tingkat internasional, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah meningkatkan panjang konteks modelnya, Claude, menjadi 100.000 token. LongLLaMA bahkan memperluas angka ini menjadi 256.000 token.
Pasar domestik juga tidak mau kalah. Diketahui, perusahaan rintisan bulan kegelapan meluncurkan Kimi Chat yang mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh CUHK dan MIT dapat memperpanjang panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.
Saat ini, banyak perusahaan model besar terkemuka seperti OpenAI, Anthropic, Meta, dan Bulan Gelap menempatkan perpanjangan panjang konteks sebagai arah pembaruan utama. Semua perusahaan ini, tanpa kecuali, adalah favorit pasar modal, dengan skala pendanaan yang sering kali mencapai puluhan miliar dolar.
Pencapaian dalam teknologi teks panjang sangat berarti. Secara permukaan, ini berarti model dapat menangani teks input yang lebih panjang, sehingga kemampuan membaca meningkat secara signifikan. Dari sudut pandang yang lebih dalam, teknologi ini sedang mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, perlu dicatat bahwa panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak sama dengan peningkatan kinerja. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.
Meskipun demikian, eksplorasi panjang teks saat ini tampaknya masih jauh dari batas atas. 400.000 token mungkin hanya merupakan awal, perusahaan model besar masih berusaha tanpa henti untuk melampaui batas ini.
Terobosan teknologi teks panjang tidak hanya menyelesaikan beberapa masalah yang dihadapi model besar di awal, tetapi juga meningkatkan fungsinya. Ini menandai masuknya model besar umum ke dalam tahap perkembangan baru—dari LLM ke era Long LLM.
Teknologi teks panjang membawa banyak kemampuan baru bagi model besar. Misalnya, ia dapat dengan cepat menganalisis artikel panjang, mengekstrak informasi kunci dari laporan keuangan, dan mewujudkan interaksi tanya jawab untuk seluruh buku. Dalam hal kode, bahkan dapat langsung mengubah makalah menjadi kode. Dalam skenario percakapan panjang, juga dapat mewujudkan interaksi yang lebih profesional, personal, dan mendalam.
Namun, perkembangan teknologi teks panjang juga menghadapi dilema "segitiga tak mungkin": terdapat saling pembatasan antara panjang teks, perhatian, dan daya komputasi. Seiring dengan meningkatnya panjang teks, model menjadi sulit untuk memusatkan perhatian yang cukup, sementara juga memerlukan lebih banyak dukungan daya komputasi.
Saat ini, industri utama menggunakan tiga solusi untuk menghadapi tantangan ini: menggunakan alat eksternal untuk membantu memproses teks panjang, mengoptimalkan perhitungan mekanisme perhatian diri, dan melakukan optimasi pada model. Setiap solusi memiliki kelebihan dan kekurangan, perusahaan model besar sedang berusaha menemukan titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi.
Seiring dengan kemajuan teknologi yang terus menerus, kemampuan pemrosesan teks panjang diharapkan dapat ditingkatkan lebih lanjut, membuka jalan bagi penerapan model besar di lebih banyak bidang.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
8 Suka
Hadiah
8
7
Bagikan
Komentar
0/400
NFTArchaeologist
· 07-24 00:05
Daya Komputasi habis berapa? Mengakui uang bukan orang
Lihat AsliBalas0
FlashLoanPrince
· 07-23 21:51
Performa meningkat, Daya Komputasi dipompa penuh dan selesai.
Lihat AsliBalas0
AirdropHarvester
· 07-23 10:30
Token ini naik dengan sangat cepat, sudah seratus kali lipat.
Lihat AsliBalas0
CryptoSurvivor
· 07-21 05:41
Semakin naik semakin tenang, semakin turun semakin bersemangat.
Lihat AsliBalas0
PumpStrategist
· 07-21 05:40
naik seperti ini curam, risiko teknologi +1, perhatikan pullback pada posisi tinggi
Model besar melampaui 400.000 token, kemampuan teks panjang memimpin era baru LLM.
Kemampuan teks panjang model besar meningkat pesat, 400 ribu token mungkin baru permulaan
Kemampuan pemrosesan teks panjang dari model besar sedang meningkat dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga kini 400.000 token, pertumbuhan kemampuan ini bisa dilihat dengan jelas.
Kemampuan pemrosesan teks panjang tampaknya telah menjadi standar baru bagi penyedia model besar. Di tingkat internasional, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah meningkatkan panjang konteks modelnya, Claude, menjadi 100.000 token. LongLLaMA bahkan memperluas angka ini menjadi 256.000 token.
Pasar domestik juga tidak mau kalah. Diketahui, perusahaan rintisan bulan kegelapan meluncurkan Kimi Chat yang mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh CUHK dan MIT dapat memperpanjang panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.
Saat ini, banyak perusahaan model besar terkemuka seperti OpenAI, Anthropic, Meta, dan Bulan Gelap menempatkan perpanjangan panjang konteks sebagai arah pembaruan utama. Semua perusahaan ini, tanpa kecuali, adalah favorit pasar modal, dengan skala pendanaan yang sering kali mencapai puluhan miliar dolar.
Pencapaian dalam teknologi teks panjang sangat berarti. Secara permukaan, ini berarti model dapat menangani teks input yang lebih panjang, sehingga kemampuan membaca meningkat secara signifikan. Dari sudut pandang yang lebih dalam, teknologi ini sedang mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, perlu dicatat bahwa panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak sama dengan peningkatan kinerja. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.
Meskipun demikian, eksplorasi panjang teks saat ini tampaknya masih jauh dari batas atas. 400.000 token mungkin hanya merupakan awal, perusahaan model besar masih berusaha tanpa henti untuk melampaui batas ini.
Terobosan teknologi teks panjang tidak hanya menyelesaikan beberapa masalah yang dihadapi model besar di awal, tetapi juga meningkatkan fungsinya. Ini menandai masuknya model besar umum ke dalam tahap perkembangan baru—dari LLM ke era Long LLM.
Teknologi teks panjang membawa banyak kemampuan baru bagi model besar. Misalnya, ia dapat dengan cepat menganalisis artikel panjang, mengekstrak informasi kunci dari laporan keuangan, dan mewujudkan interaksi tanya jawab untuk seluruh buku. Dalam hal kode, bahkan dapat langsung mengubah makalah menjadi kode. Dalam skenario percakapan panjang, juga dapat mewujudkan interaksi yang lebih profesional, personal, dan mendalam.
Namun, perkembangan teknologi teks panjang juga menghadapi dilema "segitiga tak mungkin": terdapat saling pembatasan antara panjang teks, perhatian, dan daya komputasi. Seiring dengan meningkatnya panjang teks, model menjadi sulit untuk memusatkan perhatian yang cukup, sementara juga memerlukan lebih banyak dukungan daya komputasi.
Saat ini, industri utama menggunakan tiga solusi untuk menghadapi tantangan ini: menggunakan alat eksternal untuk membantu memproses teks panjang, mengoptimalkan perhitungan mekanisme perhatian diri, dan melakukan optimasi pada model. Setiap solusi memiliki kelebihan dan kekurangan, perusahaan model besar sedang berusaha menemukan titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi.
Seiring dengan kemajuan teknologi yang terus menerus, kemampuan pemrosesan teks panjang diharapkan dapat ditingkatkan lebih lanjut, membuka jalan bagi penerapan model besar di lebih banyak bidang.