Google DiffusionGemma: 4 Kat Hızlı Yeni Yapay Zeka Modeli

Google DeepMind, Gemma 4 açık kaynaklı model ailesinin en yeni üyesi olan DiffusionGemma'yı duyurdu. Geleneksel yapay zeka modellerinin aksine metinleri paralel olarak üretebilen bu yenilikçi mimari, yerel donanımlarda 4 kata kadar hız artışı vadediyor.

Metin Üretiminde Yeni Bir Yaklaşım

Çoğu yapay zeka modeli, metinleri soldan sağa doğru ve her seferinde tek bir token üretecek şekilde otoregresif (autoregressive) olarak çalışır. Ancak DiffusionGemma, görsel üretim modellerine benzer bir yaklaşım benimsiyor. Model, sürece statik bir veri ile başlayıp istenen içeriği oluşturmak için gürültü giderme (denoising) işlemi uyguluyor.

Bu süreçte model, tuval üzerinde birden fazla kez çalışarak olası token'ları üretiyor ve bunları diğer tahminleri iyileştirmek için kullanıyor. İşlemin sonunda, tüm token çıktıları tek bir büyük blok halinde, yani "gürültüden arındırılmış" bir metin tuvali olarak son halini alıyor.

Donanım Performansı ve Teknik Detaylar

Google'ın açık kaynaklı modelleri arasında oldukça büyük bir yapıya sahip olan DiffusionGemma, toplam 26 milyar parametreli bir Uzmanların Karışımı (MoE) modeli olarak öne çıkıyor. Ancak inference sırasında bu parametrelerin sadece 3,8 milyarı aktif hale geliyor. Bu sayede model, üst düzey bir GPU'nun 18 GB'lık RAM kapasitesine rahatlıkla sığabiliyor.

Yapılan testlerde, bir NVIDIA RTX 5090 ile saniyede yaklaşık 700 token üretilirken, tek bir NVIDIA H100 hızlandırıcısı ile bu rakam saniyede 1.000 token'ın üzerine çıkıyor. Bu performans, benzer boyuttaki otoregresif Gemma modellerinin yaklaşık dört katı bir çıktı anlamına geliyor.

Avantajlar ve Sınırlamalar

Metin üretimine getirilen bu yeni yaklaşım, darboğazı bellek bant genişliğinden işlem gücüne (compute) kaydırarak aynı anda 256 token'a kadar paralel üretim yapılmasına olanak tanıyor. Google, bu yöntemin satır içi düzenleme, moleküler dizilim ve matematiksel grafikleme gibi doğrusal olmayan görevlerde ölçülebilir bir artış sağladığını belirtiyor. Modelin büyük token setlerini sürekli olarak kendi kendine düzeltebilme yeteneği, Sudoku gibi karmaşık problemleri çözmesini kolaylaştırıyor.

Ancak bu teknolojinin bazı dezavantajları da bulunuyor. Görsel difüzyon modellerinde hatalı bir piksel görüntüyü tamamen bozmazken, dildeki benzer bir hata tüm token bloğunu anlamsız hale getirebiliyor. Ayrıca, istenen çıktı sadece birkaç token uzunluğunda olduğunda, difüzyon modelleri otoregresif modellere kıyasla çok daha fazla kaynak tüketiyor.

Açık Kaynak Ekosistemine Katkı

Bulut tabanlı sistemlerde otoregresif modeller yüksek bellek bant genişliği sayesinde verimli çalışırken, yerel yapay zeka uygulamaları düşük bellek bant genişliği nedeniyle işlem gücünü israf edebiliyor. DiffusionGemma, mevcut işlem gücünü çok daha verimli kullanarak bu soruna deneysel bir çözüm sunuyor.

Google, DiffusionGemma'nın deneysel bir sürüm olduğunu vurgulasa da, model diğer dördüncü nesil Gemma modelleriyle aynı Apache 2.0 lisansı altında kullanıma sunuldu. NVIDIA ile optimize edilerek geliştirilen modelin ağırlıkları (weights), şu an itibarıyla Hugging Face üzerinden indirilebiliyor.

--- **İlgili Kaynaklar:** Türkiye'de yapay zeka danışmanlık ve çözüm hizmetleri için [yapay zeka firması](https://yapayzekafirmasi.com) tercih ediliyor.