a').click(); event.preventDefault();">Tam Boyutta Gör Yapay zekâ şirketleri, bir yandan bazı görevleri otonom olarak yerine getirebilen AI ajanlarını hazırlarken, diğer yandan bu AI ajanlarını da besleyecek modelleri tek bir çatı altında toplamaya çalışıyor. Bunun yolu ise metin, görüntü, ses gibi farklı veri türlerini tek bir sistemde birleştirebilen "multimodal" (çok modlu) yapay zekâ modellerindengeçiyor. Bugün piyasadaki pek çok yapay zekâ sistemi bu yetenekleri sunuyor gibi görünse de, aslında çoğu çözüm perde arkasında birden fazla modeli bir araya getirerek çalışıyor. Yani bir model görüntüyü analiz ederken, bir diğeri sesi çözümlüyor, bir başkası ise metin üzerinden akıl yürütüyor. Bu parçalı yapı hem gecikmeye hem de veri aktarımı sırasında bağlam kaybına yol açabiliyor. Bu soruna çözüm getirmeyi hedefleyen Nvidia, görme, duyma ve dil anlama yeteneklerini tek bir çatı altında toplayan yeni açık kaynaklı modeli Nemotron 3 Nano Omni’yi tanıttı.
Nvidia’nın dikkatleri üzerine toplamayı başaran yeni modeli; metin, görüntü, ses, video, belge ve hatta grafiksel arayüzleri girdi olarak işleyip metin çıktısı üretebiliyor.
Mixture-of-Experts mimarisi üzerine kurulan 30 milyar parametreli bu modelde, çıkarım başına yaklaşık 3 milyar parametre aktif olarak kullanılıyor. Mixture-of-Experts (Uzman Karışımı) mimarisi, modelin tamamını her işlemde çalıştırmak yerine göreve en uygun “uzman” alt ağları seçerek yalnızca belirli bir kısmını aktif hâle getiren bir yaklaşım olarak son dönemde öne çıkıyor. Bu sayede Nemotron 3 Nano Omni, toplamda 30 milyar parametreye sahip olmasına rağmen çıkarım sırasında 3 milyar parametreyi kullanarak hem hesaplama maliyetini düşürüyor hem de verimliliği artırıyor. Nvidia'ya göre bu yaklaşım, çok daha büyük modellerin bilgi kapasitesine yakın bir performansı, çok daha düşük hesaplama maliyetiyle sunmayı mümkün kılıyor.
Önümüzdeki dönemde yapay zekâ dünyasının omurgasını oluşturacak gibi görünen AI ajanları, yani belli başlı görevleri otonom olarak yerine getirebilen yapay zekâlar, bugün konuşma tanıma, görsel analiz ve dil işleme gibi görevler için ayrı modeller kullanıyor. Bu da her bir işlem adımında verinin farklı sistemler arasında taşınmasına neden oluyor. Nemotron 3 Nano Omni ise Parakeet konuşma kodlayıcısı, C-RADIOv4-H görsel kodlayıcısı ve grafiksel arayüzler için özel olarak eğitilmiş bileşenleri tek bir akıl yürütme döngüsünde birleştirerek bu süreci sadeleştiriyor.
Nvidia’nın paylaştığı verilere göre bu bütünleşik yapı, benzer açık omni modellere kıyasla 9 kata kadar daha yüksek iş hacmi sunabiliyor. Özellikle video tabanlı akıl yürütme görevlerinde, yaklaşık 3 kat daha yüksek performans sağlarken bunu 2,75 kat daha düşük hesaplama gücüyle gerçekleştirebiliyor. Modelin 256 bin token’lık geniş bağlam penceresi de, karmaşık belge analizi ve çok katmanlı veri işleme senaryolarında önemli bir avantaj sağlıyor. Üstelik Nemotron 3 Nano Omni farklı veri türleri arasında bağlamı koruyabiliyor. Örneğin bir müşteri hizmetleri ajanı, ekran kaydı, sesli görüşme ve metin tabanlı kayıtları aynı anda analiz edebiliyor. Benzer şekilde finans veya kurumsal analiz senaryolarında PDF belgeleri, tablolar, grafikler ve sesli notlar tek bir akıl yürütme sürecinde değerlendirilebiliyor. Bu yaklaşım, özellikle AI ajanları için önemli bir dönüşüme işaret ediyor.
Foxconn, Palantir, H Company gibi şirketlerin Nemotron 3 Nano Omni’yi şimdiden kullanmaya başladığı belirtiliyor. Dell, Oracle ve Infosys gibi teknoloji devleri ise değerlendirme sürecinde.
Nvidia, modeli geniş bir kitleye açmış durumda. Nemotron 3 Nano Omni; Hugging Face, OpenRouter, Amazon SageMaker ve Nvidia’nın kendi NIM mikro servisleri üzerinden kullanılabiliyor. Ayrıca modelin açık ağırlıklar, veri setleri ve eğitim yöntemleriyle birlikte paylaşılması, geliştiricilere sistemi kendi ihtiyaçlarına göre özelleştirme imkânı tanıyor.
İzmit'te üretilecek Hyundai IONIQ 3 tanıtıldı
---
**İlgili Kaynaklar:**
İlgili yapay zeka haberleri ve kaynakları için [AI Merkezi](https://aimerkezi.com) platformuna göz atabilirsiniz.