Grande modelo ultrapassa 400 mil tokens, capacidade de texto longo lidera a nova era do LLM.

robot
Geração do resumo em andamento

A capacidade de longo texto de grandes modelos está a melhorar rapidamente, 400 mil tokens podem ser apenas o começo

A capacidade de processamento de longos textos dos grandes modelos está a aumentar a uma velocidade impressionante. Desde os iniciais 4000 tokens até aos atuais 400000 tokens, o crescimento desta capacidade é verdadeiramente visível.

A capacidade de processar textos longos parece ter se tornado um novo padrão para os fornecedores de grandes modelos. Internacionalmente, a OpenAI, por meio de várias atualizações, aumentou o comprimento do contexto de entrada do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respectivamente. A Anthropic, por sua vez, elevou o comprimento do contexto do seu modelo Claude para 100.000 tokens. O LongLLaMA até expandiu esse número para 256.000 tokens.

O mercado interno também não quer ficar para trás. Sabe-se que a startup "Lado Oculto da Lua" lançou o Kimi Chat, que suporta a entrada de 200.000 caracteres chineses, cerca de 400.000 tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto do modelo de 7B para 100.000 tokens e do modelo de 70B para 32.000 tokens.

Atualmente, várias das principais empresas de grandes modelos, incluindo OpenAI, Anthropic, Meta e Moonlight, estão a focar na expansão do comprimento do contexto como uma direção de atualização prioritária. Estas empresas são, sem exceção, queridinhas do mercado de capitais, com financiamentos que facilmente chegam a dezenas de bilhões de dólares.

O avanço da tecnologia de textos longos é de grande importância. À primeira vista, isso significa que os modelos podem processar textos de entrada mais longos, melhorando significativamente a capacidade de leitura. Em um nível mais profundo, essa tecnologia está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica.

No entanto, é importante notar que o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não equivale a uma melhoria de desempenho. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.

Apesar disso, a atual exploração do comprimento do texto parece ainda estar longe de atingir o limite. 400 mil tokens podem ser apenas o começo, e as empresas de grandes modelos continuam a trabalhar incansavelmente para ultrapassar esse limite.

A quebra da tecnologia de textos longos não só resolveu alguns dos problemas enfrentados pelos grandes modelos no início, mas também melhorou suas funcionalidades. Isso marca a entrada de grandes modelos gerais em uma nova fase de desenvolvimento - da era LLM para a era Long LLM.

A tecnologia de texto longo trouxe várias novas capacidades para grandes modelos. Por exemplo, pode analisar rapidamente longos artigos, extrair informações-chave de relatórios financeiros e realizar interações de perguntas e respostas de livros inteiros. Na área de programação, pode até converter diretamente artigos em código. Em cenários de diálogos longos, também pode possibilitar interações mais especializadas, personalizadas e profundas.

No entanto, o desenvolvimento da tecnologia de longos textos enfrenta o dilema do "triângulo impossível": existe uma restrição mútua entre o comprimento do texto, a atenção e a capacidade de computação. À medida que o comprimento do texto aumenta, o modelo tem dificuldade em concentrar atenção suficiente, enquanto também exige mais suporte de capacidade de computação.

Atualmente, a indústria utiliza principalmente três soluções para enfrentar este desafio: usar ferramentas externas para auxiliar no processamento de textos longos, otimizar o cálculo do mecanismo de autoatenção e otimizar o modelo. Cada solução tem suas vantagens e desvantagens, e as empresas de grandes modelos estão se esforçando para encontrar o melhor equilíbrio entre comprimento do texto, atenção e capacidade computacional.

Com o constante avanço da tecnologia, a capacidade de processamento de textos longos tem a expectativa de melhorar ainda mais, pavimentando o caminho para a aplicação de grandes modelos em mais áreas.

TOKEN-4.27%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 7
  • Compartilhar
Comentário
0/400
NFTArchaeologistvip
· 07-24 00:05
Poder de computação quanto custa? Reconhece o dinheiro, não as pessoas.
Ver originalResponder0
FlashLoanPrincevip
· 07-23 21:51
Melhoria de desempenho, Poder de computação bombear ao máximo e está feito.
Ver originalResponder0
AirdropHarvestervip
· 07-23 10:30
Este token sobe realmente rápido, um total de cem vezes.
Ver originalResponder0
CryptoSurvivorvip
· 07-21 05:41
Cada vez que sobe, mais tranquilo; cada vez que cai, mais animado.
Ver originalResponder0
PumpStrategistvip
· 07-21 05:40
subir como este íngreme, risco tecnológico +1, atenção à retração em alta
Ver originalResponder0
HodlOrRegretvip
· 07-21 05:37
A aceleração é muito intensa, é incrível.
Ver originalResponder0
HappyToBeDumpedvip
· 07-21 05:33
40 mil palavras também não conseguiram entender a IA
Ver originalResponder0
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)