Google Gemma 4 Modelleri Gelecekteki Token'ları Tahmin Ederek 3 Kat Hızlandı
2 dk okumaars-technica
PAYLAS:

Google, yerel cihazlarda çalışan açık kaynaklı Gemma 4 modellerinin hızını önemli ölçüde artıran Çoklu Token Tahmini (MTP) teknolojisini tanıttı. Spekülatif kod çözme (speculative decoding) adı verilen bir yöntem kullanan bu deneysel modeller, gelecekteki token'ları önceden tahmin ederek üretim sürecini 3 kata kadar hızlandırabiliyor.
En yeni Gemma 4 modelleri, Google'ın amiral gemisi Gemini ile aynı temel teknolojiyi paylaşıyor ancak doğrudan kullanıcıların kendi cihazlarında çalışmak üzere optimize edildi. Gemini devasa TPU kümelerinde çalışırken, Gemma modelleri standart bir tüketici GPU'su üzerinde çalışabiliyor. Ayrıca Google'ın bu sürümde daha esnek olan Apache 2.0 lisansına geçmesi, geliştiricilere büyük bir özgürlük sunuyor.
Geleneksel dil modelleri, token'ları otoregresif olarak, yani her seferinde bir önceki token'a dayanarak tek tek üretir. Ancak standart bilgisayarlardaki sistem belleği, kurumsal donanımlardaki yüksek bant genişlikli belleklere (HBM) kıyasla daha yavaştır. İşlemci, parametreleri VRAM'den işlem birimlerine taşırken zaman kaybeder ve bu süreçte işlem gücü boşa harcanır.
İşte bu noktada MTP devreye giriyor. Sistem, ana modelin bekleme süresini kullanarak hafif bir taslak model (drafter) ile spekülatif token'lar üretiyor. Örneğin, Gemma 4 E2B'deki sadece 74 milyon parametreli taslak model, ana modelin aktif belleğini (key value cache) paylaşarak bağlamı yeniden hesaplamak zorunda kalmıyor.
Üretilen taslak token'lar, hedef model tarafından paralel olarak doğrulanıyor. Eğer ana model bu tahminleri onaylarsa, tüm dizi tek bir geçişte kabul ediliyor. Bu sayede sistem, eskiden tek bir token üretmek için harcadığı sürede birden fazla token üretebiliyor. Google, ana modelin tüm taslakları doğrulaması nedeniyle bu işlemde sıfır kalite kaybı yaşandığını belirtiyor.
Test sonuçlarına göre, MTP destekli modeller donanıma bağlı olarak ciddi performans artışları gösteriyor. Pixel telefonlarda çalışan küçük E2B ve E4B modelleri sırasıyla 2.8 ve 3.1 kat hızlanırken, Apple M4 çipi üzerinde çalışan devasa 31B modeli 2.5 kat hız artışı elde ediyor. Bu gelişme, yapay zeka modellerinin mobil cihazlarda daha az pil tüketerek çalışmasına olanak tanıyacak.
--- **İlgili Kaynaklar:** yapay zeka haberleri ve kaynakları konusunda [AI Merkezi](https://aimerkezi.com) ile iletişime geçebilirsiniz.Bu gelişme, döviz kurları nedeniyle bulut maliyetlerinden kaçınmak isteyen Türk yapay zeka girişimlerinin ve araştırmacıların yerel donanımlarda daha yüksek performanslı modeller çalıştırmasını sağlayacak.
Türk şirketleri, pahalı bulut API'leri yerine kendi sunucularında veya yerel bilgisayarlarında daha hızlı ve düşük maliyetli AI çözümleri geliştirebilir.
Türk geliştiriciler ve öğrenciler, standart bilgisayarlarda bile gelişmiş dil modellerini test etme imkanı bularak pratik deneyimlerini artırabilir.
Yerel donanım üzerinde çalışan AI projelerine (edge AI) odaklanan yerli girişimlerin ürün geliştirme süreçleri hızlanabilir.
Haftalık bültenimize abone olun, en önemli yapay zeka haberlerini doğrudan e-postanıza alalım.



