# 大規模モデルメーカーが長文技術競争を引き起こし、40万トークンはおそらく始まりに過ぎない大規模モデルは驚異的な速度で長文処理能力を拡張しています。4000から40万トークンへの能力の向上は、まさに「肉眼で見える」ものです。長文処理能力は、大規模モデルのメーカーにとって新たな標準となったようです。国際的に見ると、OpenAIは何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万と3.2万tokenに引き上げました。その主要な競合であるAnthropicは、コンテキスト長を10万tokenにまで拡大しました。LongLLaMAはこの数字を25.6万token以上にまで引き上げています。国内において、大規模モデルのスタートアップ企業「月の暗面」が提供するKimi Chatは、20万の漢字入力をサポートし、約40万トークンに相当します。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに拡張し、70Bモデルは3.2万トークンに達します。現在、OpenAI、Anthropic、Meta、月の暗い面を含む複数のトップ大規模モデル企業や研究機関が、コンテキストの長さを拡張することを重点的なアップグレードの方向性としています。これらの企業は、例外なく資本市場からの好意を受けています。OpenAIは約120億ドルの投資を受け、Anthropicの最新の評価額は300億ドルに達する見込みです。設立からわずか半年の月の暗い面の評価額はすでに3億ドルを超え、約20億元の資金調達を完了しました。大規模モデル企業はなぜ長文技術をそれほど重視しているのか?文脈の長さが100倍に拡大することは何を意味するのか?表面上は、これはモデルがより長いテキスト入力を処理でき、読解能力が大幅に向上することを意味します。しかし、より深い意味は、長文技術が金融、司法、研究などの専門分野での大規模モデルの応用を推進しているということです。長文書の要約、読解理解、質問応答などの能力は、まさにこれらの分野で急務のスマート化アップグレードの方向性です。しかし、モデルのパラメータに似て、テキストの長さは長ければ長いほど良いわけではありません。研究によれば、モデルがより長いコンテキスト入力をサポートすることと、その効果の向上は直接的な等号を引けるわけではありません。重要なのは、モデルがコンテキストの内容をどのように効果的に利用するかです。現在、業界はテキストの長さに関する探求がまだ限界に達していない。40万トークンは単なる始まりであり、国内外の大規模モデル企業はこのフロンティアを引き続き突破している。# なぜ長文を「巻く」必要があるのか?月の暗黒面の創設者、楊植麟は、大規模モデルの入力長が制限されているため、多くのアプリケーションが実現困難であると述べています。これが、現在多くの大規模モデル企業が長文技術に焦点を当てている理由でもあります。例えば、バーチャルキャラクターのシーンでは、長文能力が不足しているため、キャラクターは重要な情報を忘れてしまいます。劇本殺ゲームを開発する際、入力の長さが足りないためにルールや設定を削減せざるを得ません。法律や金融などの専門分野では、深いコンテンツ分析や生成がしばしば妨げられます。未来のエージェントとAIネイティブアプリケーションへの道のりでは、長文は依然として重要な役割を果たします。エージェントのタスク実行は、計画的な意思決定のために歴史的な情報に依存し、AIネイティブアプリケーションは、一貫性があり、個別化されたユーザー体験を維持するためにコンテキストを必要とします。楊植麟は、大規模モデルの限界は単一ステップの能力と実行ステップ数によって共同で決定されると考えています。その中で、単一ステップの能力はパラメータの量と正の相関があり、実行ステップ数は文脈の長さに相当します。ロングテキスト技術は、大規模モデル初期に批判されていたいくつかの問題を解決するだけでなく、特定の機能を強化し、産業やアプリケーションの実用化をさらに推進するための重要な技術でもあります。これは、汎用大規模モデルがLLMからLong LLMへの新たな段階に進んでいることを示しています。月の暗い面を通じて新しくリリースされたKimi Chatでは、Long LLMステージの大規模モデルのアップグレード機能を垣間見ることができます:まずは、超長文の重要情報の抽出、要約、分析能力です。例えば、公式アカウントの記事の要点を迅速に分析し、財務報告の重要情報を抽出して表形式で提示することや、書籍全体に対して質問応答を行うことです。コードの面では、テキストを直接コードに変換することができ、さらには論文に基づいてコード生成プロセスを再現することもできます。長い対話シーンでは、対話ロボットが役割を演じることができ、著名人のコーパスを入力し、口調や性格を設定することで、特定の人物との一対一の対話を実現します。これらの例は、対話型ロボットが専門化、個性化、深度化の方向に向かっていることを示しており、これは産業の実現とスーパーAPPの構築を促進する新たな手段になるかもしれません。杨植麟は、OpenAIがChatGPTという1つの製品しか提供していないのとは異なり、月の暗い面が次のC端スーパープラットフォームを目指していると考えています: 長文技術を突破口にして、基礎的な汎用モデルから複数のアプリケーションを派生させることです。彼は、国内の大規模モデル市場の構造がtoBとtoCの2つの陣営に分かれると判断しており、toC陣営では自社開発モデルに基づくスーパーアプリケーションが登場するだろう。# 長文の"不可能な三角形"のジレンマ長文の領域では、テキストの長さ、注意力、計算能力の「不可能な三角形」が存在します。これは、テキストが長くなるほど、十分な注意を集めることが難しくなることを示しています;注意の制限の下では、短いテキストでは複雑な情報を完全に解読することができません;長文を処理するには大量の計算能力が必要で、コストが増加します。このジレンマの根源は、既存の大規模モデルが多くTransformer構造に基づいていることです。この構造の自己注意機構は、モデルが入力情報の順序制限を超えることを可能にしますが、計算量は文脈の長さが増えると平方級で増加します。これは「不可能な三角形」の最初の矛盾のセットを構成します - テキストの長さと注意力、また、基本的に大規模モデルの長文技術が突破しにくい理由を説明します。同時に、計算能力は常に希少な資源です。モデルのパラメータを拡大するか、テキストの長さを変更するかに関わらず、計算能力の消費を考慮しなければなりません。これにより、テキストの長さと計算能力の間に第二の矛盾が生じます。現在、主に3つの解決策があります:1. 外部ツールを利用して長文を処理する、例えば長文を複数の短文に分割して処理する。2. 自己注意メカニズムの計算を最適化する。例えば、LongLoRA技術は長いテキストを異なるグループに分けて計算を行います。3. モデルを最適化する、例えばLongLLaMAは微調整によってより長いシーケンスへの外挿を実現します。長文の「不可能三角」のジレンマは、完全に解決するのが難しいかもしれませんが、これは大規模モデルのメーカーの探索パスを明確にしました:テキストの長さ、注意力、計算能力の3つの間で最適なバランスを求め、十分な情報を処理できると同時に、注意力の計算と計算能力のコスト制限にも配慮することが必要です。
大モデル長文コンペティションがアップグレード、40万トークンが新たな出発点となる可能性
大規模モデルメーカーが長文技術競争を引き起こし、40万トークンはおそらく始まりに過ぎない
大規模モデルは驚異的な速度で長文処理能力を拡張しています。4000から40万トークンへの能力の向上は、まさに「肉眼で見える」ものです。
長文処理能力は、大規模モデルのメーカーにとって新たな標準となったようです。国際的に見ると、OpenAIは何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万と3.2万tokenに引き上げました。その主要な競合であるAnthropicは、コンテキスト長を10万tokenにまで拡大しました。LongLLaMAはこの数字を25.6万token以上にまで引き上げています。
国内において、大規模モデルのスタートアップ企業「月の暗面」が提供するKimi Chatは、20万の漢字入力をサポートし、約40万トークンに相当します。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに拡張し、70Bモデルは3.2万トークンに達します。
現在、OpenAI、Anthropic、Meta、月の暗い面を含む複数のトップ大規模モデル企業や研究機関が、コンテキストの長さを拡張することを重点的なアップグレードの方向性としています。これらの企業は、例外なく資本市場からの好意を受けています。
OpenAIは約120億ドルの投資を受け、Anthropicの最新の評価額は300億ドルに達する見込みです。設立からわずか半年の月の暗い面の評価額はすでに3億ドルを超え、約20億元の資金調達を完了しました。
大規模モデル企業はなぜ長文技術をそれほど重視しているのか?文脈の長さが100倍に拡大することは何を意味するのか?
表面上は、これはモデルがより長いテキスト入力を処理でき、読解能力が大幅に向上することを意味します。しかし、より深い意味は、長文技術が金融、司法、研究などの専門分野での大規模モデルの応用を推進しているということです。長文書の要約、読解理解、質問応答などの能力は、まさにこれらの分野で急務のスマート化アップグレードの方向性です。
しかし、モデルのパラメータに似て、テキストの長さは長ければ長いほど良いわけではありません。研究によれば、モデルがより長いコンテキスト入力をサポートすることと、その効果の向上は直接的な等号を引けるわけではありません。重要なのは、モデルがコンテキストの内容をどのように効果的に利用するかです。
現在、業界はテキストの長さに関する探求がまだ限界に達していない。40万トークンは単なる始まりであり、国内外の大規模モデル企業はこのフロンティアを引き続き突破している。
なぜ長文を「巻く」必要があるのか?
月の暗黒面の創設者、楊植麟は、大規模モデルの入力長が制限されているため、多くのアプリケーションが実現困難であると述べています。これが、現在多くの大規模モデル企業が長文技術に焦点を当てている理由でもあります。
例えば、バーチャルキャラクターのシーンでは、長文能力が不足しているため、キャラクターは重要な情報を忘れてしまいます。劇本殺ゲームを開発する際、入力の長さが足りないためにルールや設定を削減せざるを得ません。法律や金融などの専門分野では、深いコンテンツ分析や生成がしばしば妨げられます。
未来のエージェントとAIネイティブアプリケーションへの道のりでは、長文は依然として重要な役割を果たします。エージェントのタスク実行は、計画的な意思決定のために歴史的な情報に依存し、AIネイティブアプリケーションは、一貫性があり、個別化されたユーザー体験を維持するためにコンテキストを必要とします。
楊植麟は、大規模モデルの限界は単一ステップの能力と実行ステップ数によって共同で決定されると考えています。その中で、単一ステップの能力はパラメータの量と正の相関があり、実行ステップ数は文脈の長さに相当します。
ロングテキスト技術は、大規模モデル初期に批判されていたいくつかの問題を解決するだけでなく、特定の機能を強化し、産業やアプリケーションの実用化をさらに推進するための重要な技術でもあります。これは、汎用大規模モデルがLLMからLong LLMへの新たな段階に進んでいることを示しています。
月の暗い面を通じて新しくリリースされたKimi Chatでは、Long LLMステージの大規模モデルのアップグレード機能を垣間見ることができます:
まずは、超長文の重要情報の抽出、要約、分析能力です。例えば、公式アカウントの記事の要点を迅速に分析し、財務報告の重要情報を抽出して表形式で提示することや、書籍全体に対して質問応答を行うことです。
コードの面では、テキストを直接コードに変換することができ、さらには論文に基づいてコード生成プロセスを再現することもできます。
長い対話シーンでは、対話ロボットが役割を演じることができ、著名人のコーパスを入力し、口調や性格を設定することで、特定の人物との一対一の対話を実現します。
これらの例は、対話型ロボットが専門化、個性化、深度化の方向に向かっていることを示しており、これは産業の実現とスーパーAPPの構築を促進する新たな手段になるかもしれません。
杨植麟は、OpenAIがChatGPTという1つの製品しか提供していないのとは異なり、月の暗い面が次のC端スーパープラットフォームを目指していると考えています: 長文技術を突破口にして、基礎的な汎用モデルから複数のアプリケーションを派生させることです。
彼は、国内の大規模モデル市場の構造がtoBとtoCの2つの陣営に分かれると判断しており、toC陣営では自社開発モデルに基づくスーパーアプリケーションが登場するだろう。
長文の"不可能な三角形"のジレンマ
長文の領域では、テキストの長さ、注意力、計算能力の「不可能な三角形」が存在します。これは、テキストが長くなるほど、十分な注意を集めることが難しくなることを示しています;注意の制限の下では、短いテキストでは複雑な情報を完全に解読することができません;長文を処理するには大量の計算能力が必要で、コストが増加します。
このジレンマの根源は、既存の大規模モデルが多くTransformer構造に基づいていることです。この構造の自己注意機構は、モデルが入力情報の順序制限を超えることを可能にしますが、計算量は文脈の長さが増えると平方級で増加します。
これは「不可能な三角形」の最初の矛盾のセットを構成します - テキストの長さと注意力、また、基本的に大規模モデルの長文技術が突破しにくい理由を説明します。
同時に、計算能力は常に希少な資源です。モデルのパラメータを拡大するか、テキストの長さを変更するかに関わらず、計算能力の消費を考慮しなければなりません。これにより、テキストの長さと計算能力の間に第二の矛盾が生じます。
現在、主に3つの解決策があります:
外部ツールを利用して長文を処理する、例えば長文を複数の短文に分割して処理する。
自己注意メカニズムの計算を最適化する。例えば、LongLoRA技術は長いテキストを異なるグループに分けて計算を行います。
モデルを最適化する、例えばLongLLaMAは微調整によってより長いシーケンスへの外挿を実現します。
長文の「不可能三角」のジレンマは、完全に解決するのが難しいかもしれませんが、これは大規模モデルのメーカーの探索パスを明確にしました:テキストの長さ、注意力、計算能力の3つの間で最適なバランスを求め、十分な情報を処理できると同時に、注意力の計算と計算能力のコスト制限にも配慮することが必要です。
指定された言語でコメントを生成:中文
トークンについては競争したくない、永遠に追いつけないから~