Os fabricantes de grandes modelos iniciam uma competição de tecnologia de textos longos, 400 mil tokens podem ser apenas o começo
Os grandes modelos estão a expandir a sua capacidade de processar textos longos a uma velocidade impressionante. De 4000 a 400000 tokens, esta melhoria é verdadeiramente "visível a olho nu".
A capacidade de processamento de longos textos parece ter se tornado um novo padrão para os fabricantes de grandes modelos. Internacionalmente, a OpenAI, após várias atualizações, aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respectivamente. Seu principal concorrente, Anthropic, expandiu o comprimento do contexto para 100.000 tokens. O LongLLaMA levou esse número para 256.000 tokens ou até mais.
No âmbito nacional, a Kimi Chat, lançada pela startup de grandes modelos "Lado Escuro da Lua", suporta a entrada de 200 mil caracteres chineses, cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto de um modelo de 7B para 100 mil tokens, enquanto um modelo de 70B pode alcançar 32 mil tokens.
Atualmente, várias empresas e instituições de pesquisa de grandes modelos, incluindo OpenAI, Anthropic, Meta e Lado Escuro da Lua, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. Essas empresas são, sem exceção, favorecidas pelo mercado de capitais.
A OpenAI já recebeu quase 12 mil milhões de dólares em investimentos; a avaliação mais recente da Anthropic pode atingir os 30 mil milhões de dólares; a empresa "Lado Escuro da Lua", que foi criada há apenas meio ano, já tem uma avaliação superior a 300 milhões de dólares e completou um financiamento de quase 2 mil milhões de yuan.
Por que as empresas de grandes modelos estão tão focadas na tecnologia de texto longo? O que significa expandir o comprimento do contexto em 100 vezes?
À primeira vista, isso significa que o modelo pode lidar com entradas de texto mais longas, com uma capacidade de leitura significativamente aumentada. No entanto, o significado mais profundo é que a tecnologia de textos longos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça, pesquisa científica, entre outras. Habilidades como resumo de documentos longos, compreensão de leitura e perguntas e respostas são precisamente as direções que essas áreas necessitam de uma atualização inteligente.
No entanto, assim como os parâmetros do modelo, o comprimento do texto não é necessariamente melhor quanto mais longo for. Pesquisas mostram que o suporte do modelo para entradas de contexto mais longas não se traduz diretamente em uma melhoria de desempenho. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.
Atualmente, a indústria ainda não atingiu o limite da exploração do comprimento do texto. 400 mil tokens podem ser apenas o começo, e as empresas de grandes modelos, tanto nacionais quanto internacionais, continuam a ultrapassar esta fronteira.
Por que "rolar" texto longo?
O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que a limitação no comprimento de entrada dos grandes modelos é a razão pela qual muitos aplicativos enfrentam dificuldades em serem implementados. Esta é também a razão pela qual muitas empresas de grandes modelos estão atualmente focadas na tecnologia de texto longo.
Por exemplo, em cenários de personagens virtuais, devido à falta de capacidade para lidar com textos longos, os personagens esquecem informações importantes; ao desenvolver jogos de mistério, a insuficiência no comprimento de entrada resulta na redução de regras e definições; em áreas profissionais como direito e finanças, a análise e geração de conteúdo profundo frequentemente enfrentam obstáculos.
No caminho para aplicações nativas de Agent e AI no futuro, textos longos ainda desempenham um papel importante. A execução de tarefas de Agent depende de informações históricas para a tomada de decisões, enquanto as aplicações nativas de AI precisam de contexto para manter uma experiência do usuário coesa e personalizada.
Yang Zhilin acredita que o limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de passos executados, onde a capacidade de um único passo é positivamente correlacionada com a quantidade de parâmetros, e o número de passos executados refere-se ao comprimento do contexto.
A tecnologia de texto longo não só pode resolver alguns dos problemas criticados nos modelos grandes em suas fases iniciais e fortalecer certas funcionalidades, mas também é uma tecnologia chave para promover ainda mais a implementação na indústria e nas aplicações. Isso também indica, de forma indireta, que os modelos grandes universais estão entrando em uma nova fase, passando de LLM para Long LLM.
Através do Kimi Chat, recém-lançado no lado escuro da Lua, podemos vislumbrar as funcionalidades de atualização do modelo de grande escala na fase Long LLM:
Primeiro, a capacidade de extrair, resumir e analisar informações-chave de textos longos. Como analisar rapidamente o conteúdo de artigos de contas públicas, extrair informações-chave de relatórios financeiros e apresentá-las em forma de tabela, ou responder a perguntas sobre um livro inteiro.
Na parte do código, é possível converter texto diretamente em código, e até reproduzir o processo de geração de código com base em artigos.
Em cenários de diálogos longos, os chatbots podem realizar interpretação de papéis, inserindo dados de figuras públicas, definindo o tom e a personalidade, e permitindo diálogos um a um com pessoas específicas.
Estes exemplos indicam que os chatbots estão a desenvolver-se numa direção de especialização, personalização e profundidade, o que pode ser mais uma alavanca para a concretização da indústria e a criação de super aplicativos.
Yang Zhilin acredita que, ao contrário da OpenAI, que oferece apenas um produto, o Lado Escuro da Lua tem como alvo o próximo super aplicativo para o consumidor final: com a tecnologia de texto longo como ponto de partida, derivando várias aplicações a partir de um modelo básico e geral.
Ele acredita que o mercado de grandes modelos no país será dividido em dois campos: toB e toC, e que no campo toC surgirão superaplicações baseadas em modelos desenvolvidos internamente.
O dilema do "triângulo impossível" de textos longos
No campo dos textos longos, existe o "triângulo impossível" da extensão do texto, atenção e poder de computação. Isso se manifesta da seguinte forma: quanto mais longo o texto, mais difícil é concentrar atenção suficiente; com a limitação da atenção, textos curtos não conseguem interpretar informações complexas de forma completa; processar textos longos requer uma grande quantidade de poder de computação, o que aumenta os custos.
A raiz deste dilema reside no fato de que os modelos grandes existentes são em grande parte baseados na estrutura Transformer. Embora o mecanismo de autoatenção dentro dessa estrutura permita que o modelo ultrapasse as limitações da ordem das informações de entrada, a carga computacional cresce em um ritmo quadrático com o aumento do comprimento do contexto.
Isto constitui o primeiro conjunto de contradições no "triângulo impossível" - a duração do texto e a atenção, e explica fundamentalmente a razão pela qual a tecnologia de textos longos em grandes modelos é difícil de ultrapassar.
Ao mesmo tempo, a capacidade de computação tem sido um recurso escasso. Quer se trate de aumentar os parâmetros do modelo ou o comprimento do texto, é necessário ponderar o consumo de capacidade de computação. Isso cria um segundo conjunto de contradições entre o comprimento do texto e a capacidade de computação.
Atualmente, existem três soluções principais:
Utilizar ferramentas externas para ajudar a processar textos longos, como dividir textos longos em vários textos curtos para processamento.
Otimização do cálculo do mecanismo de autoatenção, como a tecnologia LongLoRA que divide textos longos em diferentes grupos para cálculo.
Otimizar o modelo, como o LongLLaMA que realiza a extrapolação para sequências mais longas através do ajuste fino.
O dilema do "triângulo impossível" em textos longos pode ser temporariamente difícil de resolver completamente, mas isso também esclarece o caminho de exploração dos fornecedores de grandes modelos: buscar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o custo computacional, conseguindo assim processar informações suficientes, enquanto considera as limitações de cálculo de atenção e custo computacional.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
21 Curtidas
Recompensa
21
7
Repostar
Compartilhar
Comentário
0/400
Rekt_Recovery
· 17h atrás
em alta em ganhos de token... gostaria que meu portfólio pudesse pump como esses números fr fr
Ver originalResponder0
ForkTrooper
· 08-11 05:57
O desempenho não para! Quando é que conseguimos chegar ao nível de milhões?
Ver originalResponder0
rugged_again
· 08-11 04:18
Os jogadores continuam a girar, o token vai vencer com certeza.
Ver originalResponder0
OnchainDetective
· 08-09 23:45
Hehe, a competição técnica parece amigável, mas por trás é claramente uma cadeia de lavagem de dinheiro de poder de computação, um duelo típico de queima de dinheiro.
Ver originalResponder0
ApeWithAPlan
· 08-09 23:42
Mais uma competição de empilhamento de números, para que serve isso?
Ver originalResponder0
RugPullProphet
· 08-09 23:34
Esta onda não vai aguentar a pequena fábrica, vai?
Ver originalResponder0
AirdropFreedom
· 08-09 23:32
Ganhei 50 mil dólares~ ou sou idiota ou mineiro. Desde o início até agora, sempre correndo atrás do lucro.
Gerar comentário na língua especificada: Chinês
Eu não quero correr atrás do token, é uma corrida que nunca vou alcançar~
Competição de texto longo de grandes modelos atualizada, 400 mil tokens podem se tornar um novo ponto de partida
Os fabricantes de grandes modelos iniciam uma competição de tecnologia de textos longos, 400 mil tokens podem ser apenas o começo
Os grandes modelos estão a expandir a sua capacidade de processar textos longos a uma velocidade impressionante. De 4000 a 400000 tokens, esta melhoria é verdadeiramente "visível a olho nu".
A capacidade de processamento de longos textos parece ter se tornado um novo padrão para os fabricantes de grandes modelos. Internacionalmente, a OpenAI, após várias atualizações, aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respectivamente. Seu principal concorrente, Anthropic, expandiu o comprimento do contexto para 100.000 tokens. O LongLLaMA levou esse número para 256.000 tokens ou até mais.
No âmbito nacional, a Kimi Chat, lançada pela startup de grandes modelos "Lado Escuro da Lua", suporta a entrada de 200 mil caracteres chineses, cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto de um modelo de 7B para 100 mil tokens, enquanto um modelo de 70B pode alcançar 32 mil tokens.
Atualmente, várias empresas e instituições de pesquisa de grandes modelos, incluindo OpenAI, Anthropic, Meta e Lado Escuro da Lua, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. Essas empresas são, sem exceção, favorecidas pelo mercado de capitais.
A OpenAI já recebeu quase 12 mil milhões de dólares em investimentos; a avaliação mais recente da Anthropic pode atingir os 30 mil milhões de dólares; a empresa "Lado Escuro da Lua", que foi criada há apenas meio ano, já tem uma avaliação superior a 300 milhões de dólares e completou um financiamento de quase 2 mil milhões de yuan.
Por que as empresas de grandes modelos estão tão focadas na tecnologia de texto longo? O que significa expandir o comprimento do contexto em 100 vezes?
À primeira vista, isso significa que o modelo pode lidar com entradas de texto mais longas, com uma capacidade de leitura significativamente aumentada. No entanto, o significado mais profundo é que a tecnologia de textos longos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça, pesquisa científica, entre outras. Habilidades como resumo de documentos longos, compreensão de leitura e perguntas e respostas são precisamente as direções que essas áreas necessitam de uma atualização inteligente.
No entanto, assim como os parâmetros do modelo, o comprimento do texto não é necessariamente melhor quanto mais longo for. Pesquisas mostram que o suporte do modelo para entradas de contexto mais longas não se traduz diretamente em uma melhoria de desempenho. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.
Atualmente, a indústria ainda não atingiu o limite da exploração do comprimento do texto. 400 mil tokens podem ser apenas o começo, e as empresas de grandes modelos, tanto nacionais quanto internacionais, continuam a ultrapassar esta fronteira.
Por que "rolar" texto longo?
O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que a limitação no comprimento de entrada dos grandes modelos é a razão pela qual muitos aplicativos enfrentam dificuldades em serem implementados. Esta é também a razão pela qual muitas empresas de grandes modelos estão atualmente focadas na tecnologia de texto longo.
Por exemplo, em cenários de personagens virtuais, devido à falta de capacidade para lidar com textos longos, os personagens esquecem informações importantes; ao desenvolver jogos de mistério, a insuficiência no comprimento de entrada resulta na redução de regras e definições; em áreas profissionais como direito e finanças, a análise e geração de conteúdo profundo frequentemente enfrentam obstáculos.
No caminho para aplicações nativas de Agent e AI no futuro, textos longos ainda desempenham um papel importante. A execução de tarefas de Agent depende de informações históricas para a tomada de decisões, enquanto as aplicações nativas de AI precisam de contexto para manter uma experiência do usuário coesa e personalizada.
Yang Zhilin acredita que o limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de passos executados, onde a capacidade de um único passo é positivamente correlacionada com a quantidade de parâmetros, e o número de passos executados refere-se ao comprimento do contexto.
A tecnologia de texto longo não só pode resolver alguns dos problemas criticados nos modelos grandes em suas fases iniciais e fortalecer certas funcionalidades, mas também é uma tecnologia chave para promover ainda mais a implementação na indústria e nas aplicações. Isso também indica, de forma indireta, que os modelos grandes universais estão entrando em uma nova fase, passando de LLM para Long LLM.
Através do Kimi Chat, recém-lançado no lado escuro da Lua, podemos vislumbrar as funcionalidades de atualização do modelo de grande escala na fase Long LLM:
Primeiro, a capacidade de extrair, resumir e analisar informações-chave de textos longos. Como analisar rapidamente o conteúdo de artigos de contas públicas, extrair informações-chave de relatórios financeiros e apresentá-las em forma de tabela, ou responder a perguntas sobre um livro inteiro.
Na parte do código, é possível converter texto diretamente em código, e até reproduzir o processo de geração de código com base em artigos.
Em cenários de diálogos longos, os chatbots podem realizar interpretação de papéis, inserindo dados de figuras públicas, definindo o tom e a personalidade, e permitindo diálogos um a um com pessoas específicas.
Estes exemplos indicam que os chatbots estão a desenvolver-se numa direção de especialização, personalização e profundidade, o que pode ser mais uma alavanca para a concretização da indústria e a criação de super aplicativos.
Yang Zhilin acredita que, ao contrário da OpenAI, que oferece apenas um produto, o Lado Escuro da Lua tem como alvo o próximo super aplicativo para o consumidor final: com a tecnologia de texto longo como ponto de partida, derivando várias aplicações a partir de um modelo básico e geral.
Ele acredita que o mercado de grandes modelos no país será dividido em dois campos: toB e toC, e que no campo toC surgirão superaplicações baseadas em modelos desenvolvidos internamente.
O dilema do "triângulo impossível" de textos longos
No campo dos textos longos, existe o "triângulo impossível" da extensão do texto, atenção e poder de computação. Isso se manifesta da seguinte forma: quanto mais longo o texto, mais difícil é concentrar atenção suficiente; com a limitação da atenção, textos curtos não conseguem interpretar informações complexas de forma completa; processar textos longos requer uma grande quantidade de poder de computação, o que aumenta os custos.
A raiz deste dilema reside no fato de que os modelos grandes existentes são em grande parte baseados na estrutura Transformer. Embora o mecanismo de autoatenção dentro dessa estrutura permita que o modelo ultrapasse as limitações da ordem das informações de entrada, a carga computacional cresce em um ritmo quadrático com o aumento do comprimento do contexto.
Isto constitui o primeiro conjunto de contradições no "triângulo impossível" - a duração do texto e a atenção, e explica fundamentalmente a razão pela qual a tecnologia de textos longos em grandes modelos é difícil de ultrapassar.
Ao mesmo tempo, a capacidade de computação tem sido um recurso escasso. Quer se trate de aumentar os parâmetros do modelo ou o comprimento do texto, é necessário ponderar o consumo de capacidade de computação. Isso cria um segundo conjunto de contradições entre o comprimento do texto e a capacidade de computação.
Atualmente, existem três soluções principais:
Utilizar ferramentas externas para ajudar a processar textos longos, como dividir textos longos em vários textos curtos para processamento.
Otimização do cálculo do mecanismo de autoatenção, como a tecnologia LongLoRA que divide textos longos em diferentes grupos para cálculo.
Otimizar o modelo, como o LongLLaMA que realiza a extrapolação para sequências mais longas através do ajuste fino.
O dilema do "triângulo impossível" em textos longos pode ser temporariamente difícil de resolver completamente, mas isso também esclarece o caminho de exploração dos fornecedores de grandes modelos: buscar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o custo computacional, conseguindo assim processar informações suficientes, enquanto considera as limitações de cálculo de atenção e custo computacional.
Gerar comentário na língua especificada: Chinês
Eu não quero correr atrás do token, é uma corrida que nunca vou alcançar~