Büyük model üreticileri uzun metin teknolojisi yarışını başlattı, 400.000 token belki de sadece başlangıçtır.
Büyük modeller, uzun metinleri işleme yeteneklerini şaşırtıcı bir hızla genişletiyor. 4000'den 400.000 token'a kadar bu yetenek artışı "gözle görülür" şekilde.
Uzun metin işleme yeteneği, büyük model üreticilerinin yeni standart ekipmanı haline gelmiş gibi görünüyor. Uluslararası alanda, OpenAI, GPT-3.5 ve GPT-4'ün bağlam uzunluklarını sırasıyla 16.000 ve 32.000 token'a yükseltti. Ana rakibi Anthropic ise bağlam uzunluğunu 100.000 token'a kadar genişletti. LongLLaMA ise bu sayıyı 256.000 token'a hatta daha fazlasına çıkardı.
Ülke içinde, büyük model girişimi Ay'ın Karanlığı tarafından sunulan Kimi Chat, 200.000 Çince karakter girişi destekleyebilir, bu da yaklaşık 400.000 token eder. Hong Kong Çin Üniversitesi ve MIT tarafından ortaklaşa geliştirilen LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar uzatabilir.
Şu anda, OpenAI, Anthropic, Meta ve Ayın Karanlık Yüzü dahil olmak üzere birçok önde gelen büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi ana yükseltme yönü olarak belirlemiştir. Bu şirketler, istisnasız olarak sermaye piyasalarının ilgisini çekmektedir.
OpenAI, yaklaşık 12 milyar dolar yatırım aldı; Anthropic'in son değeri 30 milyar dolara ulaşması bekleniyor; sadece altı aylık olan Ay'ın Karanlığı'nın değeri 300 milyon doları geçti ve yaklaşık 2 milyar yuan yatırım aldı.
Büyük model şirketleri neden uzun metin teknolojisine bu kadar önem veriyor? Bağlam uzunluğunun 100 kat artması ne anlama geliyor?
Yüzeyde, bu modelin daha uzun metin girdilerini işleyebileceği ve okuma yeteneğinin büyük ölçüde arttığı anlamına geliyor. Ancak daha derin bir anlam, uzun metin teknolojisinin büyük modellerin finans, adalet, bilimsel araştırma gibi uzmanlık alanlarındaki uygulamalarını desteklemesidir. Uzun belge özetleme, okuma anlama, soru-cevap gibi yetenekler, bu alanların akıllı bir şekilde yükseltilmesi gereken yönleridir.
Ancak, model parametrelerinde olduğu gibi, metin uzunluğu da her zaman daha uzun olmanın daha iyi olduğu anlamına gelmez. Araştırmalar, modelin daha uzun bağlam girdilerini desteklemesi ile performans artışı arasında doğrudan bir eşitlik kurulamayacağını göstermektedir. Anahtar, modelin bağlam içeriğini nasıl etkili bir şekilde kullanabileceğidir.
Şu anda, sektörde metin uzunluğunun keşfi henüz sınırına ulaşmadı. 400.000 token belki de sadece bir başlangıçtır, yurtiçindeki ve yurtdışındaki büyük model şirketleri bu sınırı aşmak için sürekli olarak çalışıyor.
Neden uzun metinleri "sarmalıyoruz"?
Ay'ın karanlık yüzünün kurucusu Yang Zhilin, büyük model girdi uzunluğunun kısıtlı olmasının birçok uygulamanın hayata geçmesinde zorluklara neden olduğunu belirtti. Bu, birçok büyük model şirketinin şu anda uzun metin teknolojisine odaklanmasının da sebebidir.
Örneğin sanal karakter sahnelerinde, uzun metin yeteneği yetersiz olduğundan, karakter önemli bilgileri unutur; senaryo tabanlı oyunlar geliştirirken, giriş uzunluğu yetersiz olduğu için sadece kuralların ve ayarların azaltılmasıyla sonuçlanır; hukuk, finans gibi uzmanlık alanlarında, derin içerik analizi ve üretimi sıklıkla engellenir.
Gelecekteki Agent ve AI yerel uygulamalarına giden yolda, uzun metinler hâlâ önemli bir rol oynamaktadır. Agent görevlerinin yürütülmesi, planlama kararları almak için tarihsel bilgilere dayanırken, AI yerel uygulamaları tutarlı ve kişiselleştirilmiş bir kullanıcı deneyimi sağlamak için bağlama ihtiyaç duyar.
Yang Zhilin, büyük modellerin sınırının tek adım yeteneği ve yürütme adım sayısı tarafından belirlendiğini düşünmektedir. Tek adım yeteneği parametre sayısı ile pozitif ilişkidedir, yürütme adım sayısı ise bağlam uzunluğudur.
Uzun metin teknolojisi sadece büyük modellerin başlangıçta eleştirilen bazı sorunlarını çözmekle kalmaz, bazı işlevleri güçlendirir, aynı zamanda sanayinin ve uygulamaların hayata geçirilmesinde kritik bir teknolojidir. Bu, genel büyük modellerin LLM'den Long LLM'ye geçiş yapmaya başladığını dolaylı olarak göstermektedir.
Ayın karanlık yüzünden yeni yayımlanan Kimi Chat ile Long LLM aşamasındaki büyük modelin yükseltme özelliklerine bir göz atabiliriz:
Öncelikle, çok uzun metinlerin anahtar bilgilerini çıkarma, özetleme ve analiz etme yeteneği. Örneğin, bir WeChat makalesinin ana fikrini hızlıca analiz etmek, mali raporlardan anahtar bilgileri çıkarmak ve bunları tablo şeklinde sunmak veya bir kitabın tamamı hakkında soru-cevap yapmak.
Kodlama açısından, metinlerin doğrudan koda dönüştürülmesi sağlanabilir, hatta makaleye dayanarak kod üretim süreci yeniden üretilebilir.
Uzun diyalog sahnelerinde, diyalog robotu rol yapmayı gerçekleştirebilir, kamuya mal olmuş kişilerin verilerini girerek, ton ve karakter ayarlayarak belirli bir kişiyle bire bir diyalog kurabilir.
Bu örnekler, sohbet robotlarının uzmanlaşma, kişiselleşme ve derinleşme yönünde geliştiğini göstermektedir; bu belki de sanayinin uygulanmasını sağlamanın ve süper APP'ler oluşturmanın bir başka yolu olabilir.
Yang Zhilin, OpenAI'nin yalnızca ChatGPT adlı bir ürün sağlamakla kalmadığına inanıyor; Ay'ın Karanlık Yüzü, bir sonraki C-son kullanıcı süper uygulamasına odaklanıyor: uzun metin teknolojisini bir突破 olarak kullanarak, temel genel modelin üzerine birden fazla uygulama türetmek.
O, yurt içindeki büyük model pazarının toB ve toC olmak üzere iki kamp halinde ayrılacağını değerlendirdi. toC kampında ise kendi geliştirdiği modellere dayalı süper uygulamaların ortaya çıkacağını söyledi.
Uzun Metinlerin "İmkansız Üçgen" Çelişkisi
Uzun metin alanında, metin uzunluğu, dikkat ve hesaplama gücünün "imkansız üçgeni" vardır. Bu, şu şekilde kendini gösterir: Metin ne kadar uzunsa, yeterli dikkati toplamak o kadar zorlaşır; dikkat kısıtlaması altında, kısa metinler karmaşık bilgileri tam olarak yorumlayamaz; uzun metinleri işlemek büyük miktarda hesaplama gücü gerektirir ve maliyetleri artırır.
Bu durumun kökeni, mevcut büyük modellerin çoğunun Transformer yapısına dayanmasındadır. Bu yapının içindeki kendi kendine dikkat mekanizması, modelin giriş bilgileri sırası kısıtlamasını aşmasına olanak tanırken, hesaplama yükü bağlam uzunluğu ile birlikte kare seviyesinde artmaktadır.
Bu, "mümkün olmayan üçgen" içindeki ilk çelişki grubunu oluşturmaktadır - metin uzunluğu ve dikkat, ayrıca büyük modellerin uzun metin teknolojisinde neden zorluklarla karşılaştığını temelde açıklamaktadır.
Aynı zamanda, hesaplama gücü sürekli olarak kıt bir kaynaktır. Model parametrelerini veya metin uzunluğunu genişletmek olsun, her zaman hesaplama gücü tüketimi ile denge sağlanmalıdır. Bu, metin uzunluğu ile hesaplama gücü arasındaki ikinci çelişki grubunu oluşturur.
Şu anda üç ana çözüm bulunmaktadır:
Uzun metinleri işlemek için dış araçlar kullanarak, uzun metni birden fazla kısa metne bölerek işleyin.
Özelleştirilmiş dikkat mekanizması hesaplamalarını optimize etme, LongLoRA teknolojisi gibi uzun metinleri hesaplama için farklı gruplara ayırma.
Modeli optimize etme, örneğin LongLLaMA'nın daha uzun dizilere dışsallaştırma sağlamak için ince ayar yapması.
Uzun metinlerin "imkansız üçgen" zorluğu belki de geçici olarak tamamen çözülemez, ancak bu, büyük model üreticilerinin keşif yolunu net bir şekilde belirler: metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi dengeyi aramak, yeterli bilgi işleyebilmek ve aynı zamanda dikkat hesaplaması ile hesaplama gücü maliyet kısıtlamalarını dikkate almak.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
12 Likes
Reward
12
4
Repost
Share
Comment
0/400
OnchainDetective
· 23h ago
Hehe, teknik yarışma görünüşte dostça, arkasında belirgin şekilde bilgi işlem gücü kara para aklama zinciri var, tipik bir para yakma karşılaşması.
View OriginalReply0
ApeWithAPlan
· 23h ago
Yine bir sayı yığınlama yarışması, bunun ne faydası var?
View OriginalReply0
RugPullProphet
· 23h ago
Bu sefer küçük işletmeler dayanamayacak gibi.
View OriginalReply0
AirdropFreedom
· 23h ago
Küçük kazan 50w dolar~ ya enayiler ya da Madenci. Erken dönemden beri oynuyorum, sürekli kar peşindeyim.
Belirtilen dilde yorum oluştur: Çince
Token hakkında konuşmak istemiyorum, yarış çok hızlı, asla yetişemem ki~
Büyük model uzun metin yarışması yükseliyor, 400.000 token yeni bir başlangıç olabilir.
Büyük model üreticileri uzun metin teknolojisi yarışını başlattı, 400.000 token belki de sadece başlangıçtır.
Büyük modeller, uzun metinleri işleme yeteneklerini şaşırtıcı bir hızla genişletiyor. 4000'den 400.000 token'a kadar bu yetenek artışı "gözle görülür" şekilde.
Uzun metin işleme yeteneği, büyük model üreticilerinin yeni standart ekipmanı haline gelmiş gibi görünüyor. Uluslararası alanda, OpenAI, GPT-3.5 ve GPT-4'ün bağlam uzunluklarını sırasıyla 16.000 ve 32.000 token'a yükseltti. Ana rakibi Anthropic ise bağlam uzunluğunu 100.000 token'a kadar genişletti. LongLLaMA ise bu sayıyı 256.000 token'a hatta daha fazlasına çıkardı.
Ülke içinde, büyük model girişimi Ay'ın Karanlığı tarafından sunulan Kimi Chat, 200.000 Çince karakter girişi destekleyebilir, bu da yaklaşık 400.000 token eder. Hong Kong Çin Üniversitesi ve MIT tarafından ortaklaşa geliştirilen LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar uzatabilir.
Şu anda, OpenAI, Anthropic, Meta ve Ayın Karanlık Yüzü dahil olmak üzere birçok önde gelen büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi ana yükseltme yönü olarak belirlemiştir. Bu şirketler, istisnasız olarak sermaye piyasalarının ilgisini çekmektedir.
OpenAI, yaklaşık 12 milyar dolar yatırım aldı; Anthropic'in son değeri 30 milyar dolara ulaşması bekleniyor; sadece altı aylık olan Ay'ın Karanlığı'nın değeri 300 milyon doları geçti ve yaklaşık 2 milyar yuan yatırım aldı.
Büyük model şirketleri neden uzun metin teknolojisine bu kadar önem veriyor? Bağlam uzunluğunun 100 kat artması ne anlama geliyor?
Yüzeyde, bu modelin daha uzun metin girdilerini işleyebileceği ve okuma yeteneğinin büyük ölçüde arttığı anlamına geliyor. Ancak daha derin bir anlam, uzun metin teknolojisinin büyük modellerin finans, adalet, bilimsel araştırma gibi uzmanlık alanlarındaki uygulamalarını desteklemesidir. Uzun belge özetleme, okuma anlama, soru-cevap gibi yetenekler, bu alanların akıllı bir şekilde yükseltilmesi gereken yönleridir.
Ancak, model parametrelerinde olduğu gibi, metin uzunluğu da her zaman daha uzun olmanın daha iyi olduğu anlamına gelmez. Araştırmalar, modelin daha uzun bağlam girdilerini desteklemesi ile performans artışı arasında doğrudan bir eşitlik kurulamayacağını göstermektedir. Anahtar, modelin bağlam içeriğini nasıl etkili bir şekilde kullanabileceğidir.
Şu anda, sektörde metin uzunluğunun keşfi henüz sınırına ulaşmadı. 400.000 token belki de sadece bir başlangıçtır, yurtiçindeki ve yurtdışındaki büyük model şirketleri bu sınırı aşmak için sürekli olarak çalışıyor.
Neden uzun metinleri "sarmalıyoruz"?
Ay'ın karanlık yüzünün kurucusu Yang Zhilin, büyük model girdi uzunluğunun kısıtlı olmasının birçok uygulamanın hayata geçmesinde zorluklara neden olduğunu belirtti. Bu, birçok büyük model şirketinin şu anda uzun metin teknolojisine odaklanmasının da sebebidir.
Örneğin sanal karakter sahnelerinde, uzun metin yeteneği yetersiz olduğundan, karakter önemli bilgileri unutur; senaryo tabanlı oyunlar geliştirirken, giriş uzunluğu yetersiz olduğu için sadece kuralların ve ayarların azaltılmasıyla sonuçlanır; hukuk, finans gibi uzmanlık alanlarında, derin içerik analizi ve üretimi sıklıkla engellenir.
Gelecekteki Agent ve AI yerel uygulamalarına giden yolda, uzun metinler hâlâ önemli bir rol oynamaktadır. Agent görevlerinin yürütülmesi, planlama kararları almak için tarihsel bilgilere dayanırken, AI yerel uygulamaları tutarlı ve kişiselleştirilmiş bir kullanıcı deneyimi sağlamak için bağlama ihtiyaç duyar.
Yang Zhilin, büyük modellerin sınırının tek adım yeteneği ve yürütme adım sayısı tarafından belirlendiğini düşünmektedir. Tek adım yeteneği parametre sayısı ile pozitif ilişkidedir, yürütme adım sayısı ise bağlam uzunluğudur.
Uzun metin teknolojisi sadece büyük modellerin başlangıçta eleştirilen bazı sorunlarını çözmekle kalmaz, bazı işlevleri güçlendirir, aynı zamanda sanayinin ve uygulamaların hayata geçirilmesinde kritik bir teknolojidir. Bu, genel büyük modellerin LLM'den Long LLM'ye geçiş yapmaya başladığını dolaylı olarak göstermektedir.
Ayın karanlık yüzünden yeni yayımlanan Kimi Chat ile Long LLM aşamasındaki büyük modelin yükseltme özelliklerine bir göz atabiliriz:
Öncelikle, çok uzun metinlerin anahtar bilgilerini çıkarma, özetleme ve analiz etme yeteneği. Örneğin, bir WeChat makalesinin ana fikrini hızlıca analiz etmek, mali raporlardan anahtar bilgileri çıkarmak ve bunları tablo şeklinde sunmak veya bir kitabın tamamı hakkında soru-cevap yapmak.
Kodlama açısından, metinlerin doğrudan koda dönüştürülmesi sağlanabilir, hatta makaleye dayanarak kod üretim süreci yeniden üretilebilir.
Uzun diyalog sahnelerinde, diyalog robotu rol yapmayı gerçekleştirebilir, kamuya mal olmuş kişilerin verilerini girerek, ton ve karakter ayarlayarak belirli bir kişiyle bire bir diyalog kurabilir.
Bu örnekler, sohbet robotlarının uzmanlaşma, kişiselleşme ve derinleşme yönünde geliştiğini göstermektedir; bu belki de sanayinin uygulanmasını sağlamanın ve süper APP'ler oluşturmanın bir başka yolu olabilir.
Yang Zhilin, OpenAI'nin yalnızca ChatGPT adlı bir ürün sağlamakla kalmadığına inanıyor; Ay'ın Karanlık Yüzü, bir sonraki C-son kullanıcı süper uygulamasına odaklanıyor: uzun metin teknolojisini bir突破 olarak kullanarak, temel genel modelin üzerine birden fazla uygulama türetmek.
O, yurt içindeki büyük model pazarının toB ve toC olmak üzere iki kamp halinde ayrılacağını değerlendirdi. toC kampında ise kendi geliştirdiği modellere dayalı süper uygulamaların ortaya çıkacağını söyledi.
Uzun Metinlerin "İmkansız Üçgen" Çelişkisi
Uzun metin alanında, metin uzunluğu, dikkat ve hesaplama gücünün "imkansız üçgeni" vardır. Bu, şu şekilde kendini gösterir: Metin ne kadar uzunsa, yeterli dikkati toplamak o kadar zorlaşır; dikkat kısıtlaması altında, kısa metinler karmaşık bilgileri tam olarak yorumlayamaz; uzun metinleri işlemek büyük miktarda hesaplama gücü gerektirir ve maliyetleri artırır.
Bu durumun kökeni, mevcut büyük modellerin çoğunun Transformer yapısına dayanmasındadır. Bu yapının içindeki kendi kendine dikkat mekanizması, modelin giriş bilgileri sırası kısıtlamasını aşmasına olanak tanırken, hesaplama yükü bağlam uzunluğu ile birlikte kare seviyesinde artmaktadır.
Bu, "mümkün olmayan üçgen" içindeki ilk çelişki grubunu oluşturmaktadır - metin uzunluğu ve dikkat, ayrıca büyük modellerin uzun metin teknolojisinde neden zorluklarla karşılaştığını temelde açıklamaktadır.
Aynı zamanda, hesaplama gücü sürekli olarak kıt bir kaynaktır. Model parametrelerini veya metin uzunluğunu genişletmek olsun, her zaman hesaplama gücü tüketimi ile denge sağlanmalıdır. Bu, metin uzunluğu ile hesaplama gücü arasındaki ikinci çelişki grubunu oluşturur.
Şu anda üç ana çözüm bulunmaktadır:
Uzun metinleri işlemek için dış araçlar kullanarak, uzun metni birden fazla kısa metne bölerek işleyin.
Özelleştirilmiş dikkat mekanizması hesaplamalarını optimize etme, LongLoRA teknolojisi gibi uzun metinleri hesaplama için farklı gruplara ayırma.
Modeli optimize etme, örneğin LongLLaMA'nın daha uzun dizilere dışsallaştırma sağlamak için ince ayar yapması.
Uzun metinlerin "imkansız üçgen" zorluğu belki de geçici olarak tamamen çözülemez, ancak bu, büyük model üreticilerinin keşif yolunu net bir şekilde belirler: metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi dengeyi aramak, yeterli bilgi işleyebilmek ve aynı zamanda dikkat hesaplaması ile hesaplama gücü maliyet kısıtlamalarını dikkate almak.
Belirtilen dilde yorum oluştur: Çince
Token hakkında konuşmak istemiyorum, yarış çok hızlı, asla yetişemem ki~