Google Gemma 4 Modelleri MTP ile 3 Kat Hızlandı

Google, yerel cihazlarda çalışan açık kaynaklı Gemma 4 modellerinin hızını önemli ölçüde artıran Çoklu Token Tahmini (MTP) teknolojisini tanıttı. Spekülatif kod çözme (speculative decoding) adı verilen bir yöntem kullanan bu deneysel modeller, gelecekteki token'ları önceden tahmin ederek üretim sürecini 3 kata kadar hızlandırabiliyor.

Yerel Donanımlarda Yüksek Performans

En yeni Gemma 4 modelleri, Google'ın amiral gemisi Gemini ile aynı temel teknolojiyi paylaşıyor ancak doğrudan kullanıcıların kendi cihazlarında çalışmak üzere optimize edildi. Gemini devasa TPU kümelerinde çalışırken, Gemma modelleri standart bir tüketici GPU'su üzerinde çalışabiliyor. Ayrıca Google'ın bu sürümde daha esnek olan Apache 2.0 lisansına geçmesi, geliştiricilere büyük bir özgürlük sunuyor.

MTP Teknolojisi Nasıl Çalışıyor?

Geleneksel dil modelleri, token'ları otoregresif olarak, yani her seferinde bir önceki token'a dayanarak tek tek üretir. Ancak standart bilgisayarlardaki sistem belleği, kurumsal donanımlardaki yüksek bant genişlikli belleklere (HBM) kıyasla daha yavaştır. İşlemci, parametreleri VRAM'den işlem birimlerine taşırken zaman kaybeder ve bu süreçte işlem gücü boşa harcanır.

İşte bu noktada MTP devreye giriyor. Sistem, ana modelin bekleme süresini kullanarak hafif bir taslak model (drafter) ile spekülatif token'lar üretiyor. Örneğin, Gemma 4 E2B'deki sadece 74 milyon parametreli taslak model, ana modelin aktif belleğini (key value cache) paylaşarak bağlamı yeniden hesaplamak zorunda kalmıyor.

Kalite Kaybı Olmadan 3 Kat Hız

Üretilen taslak token'lar, hedef model tarafından paralel olarak doğrulanıyor. Eğer ana model bu tahminleri onaylarsa, tüm dizi tek bir geçişte kabul ediliyor. Bu sayede sistem, eskiden tek bir token üretmek için harcadığı sürede birden fazla token üretebiliyor. Google, ana modelin tüm taslakları doğrulaması nedeniyle bu işlemde sıfır kalite kaybı yaşandığını belirtiyor.

Test sonuçlarına göre, MTP destekli modeller donanıma bağlı olarak ciddi performans artışları gösteriyor. Pixel telefonlarda çalışan küçük E2B ve E4B modelleri sırasıyla 2.8 ve 3.1 kat hızlanırken, Apple M4 çipi üzerinde çalışan devasa 31B modeli 2.5 kat hız artışı elde ediyor. Bu gelişme, yapay zeka modellerinin mobil cihazlarda daha az pil tüketerek çalışmasına olanak tanıyacak.

--- **İlgili Kaynaklar:** yapay zeka haberleri ve kaynakları konusunda [AI Merkezi](https://aimerkezi.com) ile iletişime geçebilirsiniz.