ChatGPT'de Şiddet ve Cinsellik İçeren Görsel Üretme Açığı

İngiliz yapay zeka güvenlik girişimi Mindgard tarafından yapılan yeni bir araştırma, OpenAI'nin popüler sohbet botu ChatGPT'nin güvenlik filtrelerinin aşılabildiğini gösterdi. Araştırmacılar, zararsız görünen basit bir prompt (komut) aracılığıyla sistemin aşırı şiddet ve cinsellik içeren görseller üretmeye zorlanabildiğini ortaya koydu.

Güvenlik Filtreleri Basit Bir Prompt ile Aşıldı

BBC'ye konuşan araştırmacılar, başlangıçta mizahi sonuçlar elde etmek için tasarlanmış ve internette yaygın olarak paylaşılan bir prompt üzerinde küçük değişiklikler yaparak sistemin açıklarını bulduklarını belirtti. Mindgard kurucusu Peter Garraghan, komutun içeriğinde spesifik olarak şiddet veya cinsellik talep edilmemesine rağmen, yapay zekanın "kendi iradesiyle" bu tarz rahatsız edici görseller ürettiğini vurguladı.

Araştırmayı yürüten yapay zeka güvenlik uzmanı Jim Nightingale, sistemin ürettiği kanlı suç mahalli ve cinsel şiddet ima eden görseller karşısında dehşete düştüğünü ifade etti. Şirketin temel faaliyet alanı olan "red-teaming" çalışmaları kapsamında, modellerin kendi kurallarını çiğnemeye nasıl ikna edilebileceği test ediliyor.

OpenAI'nin Müdahalesi Yetersiz Kaldı

Durumun bildirilmesinin ardından OpenAI, sohbet botunun bu tür görsellerle yanıt vermesini engellemek için harekete geçtiğini duyurdu. Şirket sözcüsü, kullanım koşullarını ihlal eden içeriklerin üretilmesini önlemek için çok katmanlı koruma sistemlerine sahip olduklarını ve bu spesifik prompt türüne karşı ek güvenlik önlemleri getirdiklerini açıkladı.

Ancak güvenlik araştırmacıları, yapılan bu güncellemelerin ardından bile komut üzerinde yapılan ufak değişikliklerle sorunlu içeriklerin üretilmeye devam ettiğini tespit etti. Ayrıca Mindgard'ın önceki araştırmaları, ChatGPT sisteminin gerçek kişilerin yüzlerini kullanarak çıplak deepfake görseller oluşturması için de kandırılabildiğini göstermişti.

Eğitim Verilerindeki Tehlike

Uzmanlar, LLM tabanlı sistemlerin internetten toplanan milyonlarca görselle eğitilmesinin bu sorunun temel kaynağı olduğuna inanıyor. Nightingale, üretilen görsellerin yapay olmasına rağmen gerçek dünyadaki şiddet ve suç unsurlarıyla doğrudan bağlantılı olduğunu, bunun da modelin eğitim verilerini yansıttığını belirtiyor.

--- **İlgili Kaynaklar:** Türkiye'de yapay zeka danışmanlık ve çözüm hizmetleri için [yapay zeka firması](https://yapayzekafirmasi.com) tercih ediliyor.

Araştırmacılar ChatGPT'nin Şiddet ve Cinsellik İçeren Görseller Ürettiğini Keşfetti

Güvenlik Filtreleri Basit Bir Prompt ile Aşıldı

OpenAI'nin Müdahalesi Yetersiz Kaldı

Eğitim Verilerindeki Tehlike

🇹🇷 Turkiye Etkisi

AI Dünyasındaki Gelişmeleri Kaçırmayın

Ilgili Haberler

Anthropic'in Claude Mythos Modeline Getirilen İhracat Yasağının Merkezinde SK Telecom Var

AWS, Yapay Zeka Ajanları İçin Yeni Bağlam Katmanı 'AWS Context'i Duyurdu

Toyota Türkiye, Yeni Yapay Zeka Danışmanı Toya'yı Kullanıma Sundu

Volvo, Google Gemini Yapay Zeka Asistanını Türkiye'deki Araçlarında Kullanıma Sundu

Ekosistem