ChatGPT Güvenlik Filtreleri Aşıldı: Yasaklı Görsel Üretimi

İngiltere merkezli yapay zeka güvenlik şirketi Mindgard, OpenAI'ın en güncel ChatGPT sürümünde kritik bir güvenlik açığı tespit etti. Araştırmacılar, basit bir prompt manipülasyonu kullanarak sistemin şiddet ve cinsellik içeren yasaklı görseller üretmesini sağladı.

Prompt Manipülasyonu ile Filtreler Aşıldı

Keşfin odağında, ChatGPT'nin görsel oluşturma yeteneklerini sağlayan en güncel altyapısı yer alıyor. Araştırmacılar, internette daha önce mizahi sonuçlar elde etmek için kullanılan standart bir prompt üzerinde küçük değişiklikler yaparak güvenlik önlemlerini aşmayı başardı. Mindgard ekibi, bu yöntemle yapay zekanın son derece rahatsız edici içerikler oluşturduğunu belirtti.

Mindgard'ın yapay zeka güvenliği araştırmacısı Jim Nightingale, elde edilen sonuçların endişe verici olduğunu vurguladı. Üretilen görseller arasında ağır travma geçirmiş kişiler, kanlar içinde yatan figürler ve cinsel çağrışımlar barındıran çıplaklık unsurları yer aldı. Lancaster Üniversitesi Bilgisayar Bilimleri Profesörü Peter Garraghan ise en tehlikeli durumun, bu içeriklerin prompt içinde açıkça talep edilmeden üretilebilmesi olduğuna dikkat çekti.

OpenAI'ın Müdahalesi ve Kedi-Fare Oyunu

Konunun gündeme gelmesinin ardından OpenAI, söz konusu açığı incelediğini ve ilgili istemlere karşı ek güvenlik önlemleri uyguladığını duyurdu. Şirket, görsel üretim sistemlerinde çok katmanlı filtreler bulunduğunu ve politika ihlallerini engellemek için sürekli güncellemeler yapıldığını belirtti. Ancak Mindgard, yapılan ilk düzeltmelerin ardından bile küçük jailbreak teknikleriyle mekanizmaların yeniden aşılabildiğini iddia ediyor.

Yapay Zeka Güvenliğinde Çözülemeyen Zorluklar

Humane Intelligence CEO'su Dr. Rumman Chowdhury, sorunun temelinde yapay zeka modellerinin insanlardaki gibi niyet ve bağlam anlayışına sahip olmamasının yattığını ifade etti. Chowdhury, "Modeller niyeti veya doğru ile yanlışı anlamıyor. Bu nedenle güvenlik önlemleri ile bunları aşmaya çalışan yöntemler arasında sürekli bir kedi-fare oyunu yaşanıyor" değerlendirmesinde bulundu.

Geçtiğimiz yıl İngiltere'nin AI Security Institute tarafından yapılan araştırmalar da önde gelen LLM sistemlerinin çeşitli manipülasyonlarla aşılabildiğini kanıtlamıştı. Uzmanlar, üretken yapay zeka sistemlerinin güvenliğini artırmak için önemli adımlar atılsa da, özellikle görsel üretim tarafında inference aşamasında çözülmesi gereken ciddi zorluklar bulunduğunun altını çiziyor.

--- **İlgili Kaynaklar:** Profesyonel SEO ve GEO eğitim platformu çözümleri için [GEO eğitim](https://geoakademi.com) sayfasını ziyaret edin.