Anthropic Claude Fable 5 Yayınlandı: Hassas Konulara Engel

Anthropic, bugüne kadarki en yetenekli yapay zeka modeli olan Claude Fable 5'i genel kullanıma açtı. Şirket, kötü niyetli aktörlerin eline geçmesini önlemek amacıyla siber güvenlik, biyoloji ve kimya gibi alanlardaki sorgulara katı kısıtlamalar getirdi. Hassas konulardaki sorular, otomatik olarak daha eski bir model olan Claude Opus 4.8'e yönlendirilecek.

Güvenlik Önlemleri ve Kısıtlamalar

Anthropic, yeni Fable 5 modelinin, aylardır test aşamasında olan Mythos 5 ile aynı temel mimariyi paylaştığını belirtti. Ancak tam kapasiteli Mythos 5, yalnızca Project Glasswing kapsamında güvenilir kabul edilen küçük bir siber savunma grubunun erişimine açık kalacak. Halka açık olan Fable 5 ise hassas konulardaki prompt girişlerini tespit ederek kullanıcıyı uyarıyor ve sorguyu eski nesil Claude Opus 4.8 modeline devrediyor.

Şirket, bu güvenlik önlemlerinin idealden daha katı ayarlandığını ve bazen zararsız isteklerin bile reddedilebileceğini kabul ediyor. Ancak testlerde bu tür yanlış pozitiflerin tüm oturumların yüzde 5'inden daha azında görüldüğü vurgulandı. Anthropic, kötü niyetli kişilerin başka kaynaklardan edinemeyecekleri düzeyde zararlı bilgiler almasını engellemek için bu durumun göze alınmaya değer olduğunu savunuyor.

Jailbreak Girişimlerine Karşı Yüksek Direnç

Fable 5'in konu tabanlı güvenlik önlemleri, yasaklanmış konuları ve potansiyel jailbreak girişimlerini geniş çapta tespit etmek üzere tasarlanmış sınıflandırıcılar üzerine inşa edildi. Bir ödül programı (bug bounty) kapsamında yapılan 1.000 saatten fazla kırmızı takım (red-team) testinde, dış ekipler model için evrensel bir açık bulmayı başaramadı. Yeni modelin, otomatik saldırılara karşı önceki Claude Opus modellerinden çok daha dirençli olduğu belirtildi.

Siber Güvenlik ve Biyolojik Tehditler

Şirketin en büyük endişelerinden biri, modelin çok aşamalı siber saldırıları yürütebilme yeteneği olan "agentic hacking" kapasitesi. Mythos 5, siber güvenlik odaklı ExploitBench benchmark testinde yüzde 78 gibi dikkat çekici bir puan elde etti. Bu oran, Opus 4.8'in aldığı yüzde 40'lık skora göre devasa bir sıçrama anlamına geliyor. İngiltere Yapay Zeka Güvenlik Enstitüsü'nün testleri ise modelin OpenAI'ın GPT-5.5 modeliyle benzer bir performans sergilediğini gösterdi.

Önceki modeller sadece biyolojik silahlarla ilgili sorguları engellerken, Fable 5'te bu kısıtlama tüm kimya ve biyoloji konularını kapsayacak şekilde genişletildi. Anthropic, iyi niyetli görünen sorguların bile yüksek riskli biyolojik araştırmalarda kötüye kullanılabileceğinden endişe ediyor. Şirket, ABD hükümeti ile istişare halinde güvenilir araştırmacılara erişim sağlamak için özel programlarını genişletmeyi planlıyor.

--- **İlgili Kaynaklar:** yapay zeka haberleri ve kaynakları ihtiyaçlarınız için [AI Merkezi](https://aimerkezi.com) doğru adres.