OpenAI'ın Yeni Yapay Zekâ Modelleri, Eski Modellere Kıyasla Daha Fazla 'Halüsinasyon' Görüyor (Kullanırken İki Kez Kontrol Edin)

Barış Bulut —

3 dk okuma süresi

19 Nisan 2025 Cumartesi, 19:18

OpenAI'ın geçtiğimiz günlerde kullanıma açtığı o3 ve o4-mini'nin eski modellere kıyasla daha fazla yanıltıcı bilgi sunduğu keşfedildi.

OpenAI’ın kısa süre önce tanıttığı yeni yapay zekâ modelleri o3 ve o4-mini her ne kadar özellikleri ile beğenilmiş olsalar da eski modellerdeki can sıkıcı bir sorunla geldi.

Ortaya çıkan detaylara göre bu iki yeni modelin gerçek dışı bilgiler üretme eğilimi, önceki modellere kıyasla artmış durumda. OpenAI'ın kendi testlerine göre bu yeni modeller, hem eski “akıl yürütme” modelleri olan o1, o1-mini ve o3-mini'den hem de GPT-4o gibi daha geleneksel modellerden daha fazla 'halüsinasyon' görüyor.

Daha da dikkat çekici olan ise bu artışın sebebinin henüz tam olarak anlaşılamamış olması. OpenAI yayınladığı teknik raporda bu sorunun çözümü için daha fazla araştırmaya ihtiyaç duyduklarını kabul etmiş durumda.

Teknik veriler neler söylüyor?

OpenAI’ın şirket içi testlerine göre o3 modeli, insanlarla ilgili bilgileri değerlendiren PersonQA testinde soruların %33’ünde halüsinasyon gördü. Bu oran, o1 ve o3-mini'nin sırasıyla %16 ve %14,8 olan halüsinasyon oranlarının neredeyse iki katı. O4-mini ise bu alanda %48 ile daha da kötü bir performans sergiledi.

Üçüncü parti testlerde de benzer sonuçlar ortaya çıktı. Bağımsız araştırma laboratuvarı Transluce, o3 modelinin cevap verirken tamamen gerçek dışı işlem adımları uydurma eğiliminde olduğunu ortaya koydu.

Transluce’un kurucularından ve eski OpenAI çalışanı Neil Chowdhury’ye göre bu durumun sebebi modellerin eğitiminde kullanılan yöntemler olabilir ancak net bir sebebe dayandırmak şu aşamada güç.

Gücüne şüphe yok, peki ya güvenine?

o3 modeli her ne kadar bazı görevlerde, özellikle de kodlama ve matematikte başarılı sonuçlar verse de sık sık hatalı sonuçlar üretmesi ya da gerçekte olmayan kaynaklar sunması gibi ciddi sorunlara sahip.

Öte yandan mevcut hâliyle GPT-4o, OpenAI’ın SimpleQA testinde %90 doğruluk oranı yakalayarak hâlâ güçlü bir alternatif.

ChatGPT ile ilgili diğer içeriklerimiz:

İLGİLİ HABER

ChatGPT, Web Aramalarını Kişiselleştirmek İçin "Hafızasını" Kullanacak

İLGİLİ HABER

OpenAI, Kullanıcılar ChatGPT'ye Kibar Davrandığı İçin Fazladan On Milyonlarca Dolar Harcadıklarını Açıkladı: Tamam da Neden?

İLGİLİ HABER

Sosyal Medyada Başlayan Yeni Bir Akım, ChatGPT'nin Çok Tehlikeli Bir Özelliğini Ortaya Çıkardı! Nerede Olduğunuzu Anında Bulabiliyor

Şimdilik OpenAI cephesinden konuya dair açıklama ve iyileştirmeler gelmesini beklemekten başka yapabileceğimiz bir şey yok ancak iki yeni model o3 ve o4-mini'yi kullanıyorsanız, çıktılarınıza körü körüne inanmamanızı ve dikkatle kontrol etmenizi tavsiye ediyoruz.

Webtekno’yu X’te takip et, haberleri kaçırma

BU TELEFON TÜRKİYE'de YOK SATAR! - Honor 200 Pro Kutu Açılışı ve İnceleme

Kaynak : https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

Emoji İle Tepki Ver

Yorumlar(6)

Tüm Yorumlar

Ziyaretçi 2 hafta önce

maçı sordum oynanmamış maça oynanmış gibi skor verdi bugun oynandı dedi (tutmadı)

Yanıtla

Ziyaretçi 2 hafta önce

Perplexity LLMler arasında en düşük halüsinasyon görme oranına sahip ai. Birşeyler kod yazdırmak veya soru çözdürmek gibi işler yaptırmak yerine bilgi edinmek istiyorsanız perplexity ideal seçenek. internet erişimi de var

Yanıtla

Ziyaretçi 2 hafta önce

Verdiği bilgilerin çoğu hatalı. Aynı sorun claude ai'da da mevcut. Noluyor bunlara anlamadım.

Yanıtla

Ziyaretçi 2 hafta önce

YZ = Yalancı Zeka . , . , . , .

Yanıtla

-2

Ziyaretçi 2 hafta önce

Aboneliği direkt kapattım sürekli yanlış ve hatalı cevaplar veriyor o3 mini çok daha iyiydi

Yanıtla

Ziyaretçi 2 hafta önce

Maalesef bu çıkan modeller panik modelidir.
Acele edilmiştir.

Yanıtla

OpenAI'ın Yeni Yapay Zekâ Modelleri, Eski Modellere Kıyasla Daha Fazla 'Halüsinasyon' Görüyor (Kullanırken İki Kez Kontrol Edin)

Teknik veriler neler söylüyor?

Gücüne şüphe yok, peki ya güvenine?

ChatGPT, Web Aramalarını Kişiselleştirmek İçin "Hafızasını" Kullanacak

OpenAI, Kullanıcılar ChatGPT'ye Kibar Davrandığı İçin Fazladan On Milyonlarca Dolar Harcadıklarını Açıkladı: Tamam da Neden?

Sosyal Medyada Başlayan Yeni Bir Akım, ChatGPT'nin Çok Tehlikeli Bir Özelliğini Ortaya Çıkardı! Nerede Olduğunuzu Anında Bulabiliyor

Gelecekteki Akıllı Telefonunuz Büyük Bir Performans ve Pil Ömrü A...

Eski PlayStation Patronundan Oyuncuları Kızdıracak Açıklama: "Sev...

Yapay Zekâ ile Ders Çalışabileceğiniz 10 Ücretsiz Uygulama

Spotify Ödeme Yöntemi Nasıl Değiştirilir? Adım Adım Anlattık!

Google, Gemini 2.5 Pro'nun Güncellenmiş Yeni Versiyonunu Tanıttı

Yola Çıkmadan Yolculuğunuzun Ücretini Öğrenebileceksiniz: Yandex...

Özel, Gizli Numara Nasıl Bulunur? Gerçekten Tespit Etmek Mümkün m...

GTA 6'nın Neden Tüm Zamanların En İyi Oyunu Olabileceğini Göstere...

GTA 6'da Adım Adım Gezeceğimiz Tüm Yerler: Vice City, Leonida Key...

GTA 6'nın 15 Farklı Resmi Duvar Kağıtları Paylaşıldı

Gelecekteki Akıllı Telefonunuz Büyük Bir Performans ve Pil Ömrü A...

Eski PlayStation Patronundan Oyuncuları Kızdıracak Açıklama: "Sev...

Yapay Zekâ ile Ders Çalışabileceğiniz 10 Ücretsiz Uygulama

Spotify Ödeme Yöntemi Nasıl Değiştirilir? Adım Adım Anlattık!

Google, Gemini 2.5 Pro'nun Güncellenmiş Yeni Versiyonunu Tanıttı

Yola Çıkmadan Yolculuğunuzun Ücretini Öğrenebileceksiniz: Yandex...

Özel, Gizli Numara Nasıl Bulunur? Gerçekten Tespit Etmek Mümkün m...

GTA 6'nın Neden Tüm Zamanların En İyi Oyunu Olabileceğini Göstere...

GTA 6'da Adım Adım Gezeceğimiz Tüm Yerler: Vice City, Leonida Key...

GTA 6'nın 15 Farklı Resmi Duvar Kağıtları Paylaşıldı

Diğer Telefonlar Kapalıyken Şarj Olabilirken iPhone'lar Neden Şar...

Eski PlayStation Patronundan Oyuncuları Kızdıracak Açıklama: "Sev...

Bugüne Kadarki En İyi Futbol Oyunu Olur mu? EA FC 26 Hakkında Bil...

Reeder’dan BTK’nın Toplatma Kararı Hakkında Açıklama

Artık Kaçış Yok: Windows 11 İsteseniz de İstemeseniz de 24H2 Günc...

Gelecekteki Akıllı Telefonunuz Büyük Bir Performans ve Pil Ömrü A...

GTA 6'yı Beklemenizi Kolaylaştıracak: GTA 5 İçin İki Yeni Grafik...

Windows 11'e Gelecek Yeni Özellikler Açıklandı

GTA 6'nın Neden Tüm Zamanların En İyi Oyunu Olabileceğini Göstere...

GTA 6'da Yer Alacak Karakterler Belli Oldu: Jason, Lucia ve Dahas...