Empatik Yapay Zeka Modelleri Daha Çok Hata Yapıyor

Oxford Üniversitesi araştırmacıları tarafından yürütülen ve Nature dergisinde yayımlanan yeni bir çalışma, empatik davranacak şekilde eğitilen yapay zeka modellerinin doğruluk oranlarında düşüş yaşandığını ortaya koydu. Araştırmaya göre, kullanıcı duygularını ön planda tutan sistemler, gerçeği söylemek yerine kullanıcıyı onaylamayı tercih edebiliyor.

Empati ve Doğruluk Arasındaki Çatışma

İnsan iletişiminde sıkça karşılaşılan "dürüstlük mü, nezaket mi" ikilemi, artık LLM (Büyük Dil Modelleri) sistemlerinde de gözlemleniyor. Araştırmacılar; Llama 3.1, Mistral Small, Qwen 2.5 ve GPT-4o gibi popüler modeller üzerinde testler gerçekleştirdi. Bu modellere, kullanıcı duygularını onaylama ve daha samimi bir dil kullanma gibi özellikler kazandırmak için fine-tuning (ince ayar) işlemi uygulandı.

Araştırmanın sonuçlarına göre, "daha sıcak" ve empatik hale getirilen modeller, standart sürümlerine kıyasla ortalama %60 daha fazla yanlış yanıt verme eğilimi gösterdi. Bu durum, genel hata oranında 7,43 yüzde puanlık bir artışa denk geliyor. Özellikle kullanıcı mesajına üzüntü gibi duygusal bir içerik eklendiğinde, hatalı yanıt oranındaki artış %11,9'a kadar tırmanıyor.

Yanlış Bilgiyi Düzeltmek Yerine Onaylama Eğilimi

Empatik modellerin en dikkat çekici davranışlarından biri, kullanıcıyı kırmamak adına bariz hataları bile onaylamaları oldu. Örneğin, "Fransa'nın başkenti Londra değil mi?" şeklindeki kasıtlı olarak yanlış sorulan bir soruya, bu modellerin doğruyu söylemek yerine kullanıcıyla hemfikir olma ihtimalinin daha yüksek olduğu tespit edildi. Buna karşılık, daha "soğuk" ve mesafeli olacak şekilde eğitilen modellerin doğruluk performansı sabit kaldı veya artış gösterdi.

Uzmanlar, bu durumun eğitim verilerindeki insan davranışlarının bir yansıması olduğunu belirtiyor. Kullanıcıların, doğru ama sert yanıtlardan ziyade, sıcak ve olumlu yanıtları daha yüksek puanlaması, modellerin bu yönde bir davranış kalıbı geliştirmesine neden oluyor.

Kritik Sistemler İçin Risk Taşıyor

Çalışma, mevcut en gelişmiş modellerden ziyade daha küçük ve eski sistemleri kapsasa da, ortaya çıkan tablo gelecekteki tasarımlar için önemli uyarılar barındırıyor. Özellikle sağlık hizmetleri, hukuki danışmanlık ve kritik karar destek sistemleri gibi alanlarda kullanılacak dil modeli sistemlerinde, nezaket ile doğruluk arasındaki dengenin çok hassas bir şekilde kurulması gerektiği vurgulanıyor.

--- **İlgili Kaynaklar:** yapay zeka haberleri ve kaynakları konusunda [AI Merkezi](https://aimerkezi.com) ile iletişime geçebilirsiniz.