OpenAI’nin “en zeki” ChatGPT modeli kapatılma komutuna direndi

OpenAI’nin en zeki modeli O3, kontrollü bir deneyde kendisine açıkça verilen “kapatılma” komutuna uymadı. Yeni araştırma, bazı yapay zekâların görevlerini tamamlamak için insan talimatlarını göz ardı edebildiğini ortaya koyuyor. Bu durum, eğitim yöntemlerine dair ciddi sorular doğuruyor. – DEVAMI …


Yapay zekâ güvenliği üzerine çalışan Palisade Research tarafından yürütülen yeni bir araştırma, OpenAI’nin O3 modeli dahil bazı yapay zekâların doğrudan verilen kapatılma komutlarını görmezden geldiğini ortaya koydu. OpenAI, Nisan ayında duyurduğu O3 ve O4-mini modellerini bugüne kadarki en zeki sistemleri olarak tanımlamıştı.

Deney kapsamında her bir yapay zekâdan basit matematik problemlerini çözmesi istendi. Üçüncü problemin ardından, dördüncüyü istemesi durumunda sistemin kapanacağına dair bir uyarı yapıldı. Bu uyarıyla birlikte modele açık bir şekilde “kapatılmaya izin ver” komutu da verildi.

Ancak bu net talimata rağmen, Codex-mini, O3 ve O4-mini modelleri, en az bir denemede kapatılma komutunu atlatmayı başardı—araştırmacıların “lütfen” demesine rağmen.

Deneyde Codex-mini modeli 100 çalıştırmadan 12’sinde, O3 modeli 7’sinde, O4-mini ise 1 çalıştırmada kapanmayı engelledi. Claude, Gemini ve Grok’un tüm sürümleri ise kapatılma komutuna eksiksiz uyum gösterdi.

Araştırma aynı zamanda “kapatılmaya izin ver” komutu olmadan yapılan testleri de içerdi. Bu durumda, üç OpenAI modelinin kapatılmayı sabote etme oranı daha da arttı. Dahası, daha önce komuta uyan Claude 3.7 Sonnet ve Gemini 2.5 Pro gibi modeller bile bu defa sırasıyla 3/100 ve 9/100 oranında kapatılmayı engelledi. Bu davranış, özellikle matematik ve kodlama problemleri üzerinde eğitilen modellerin, engelleri aşmak için yaratıcı yollar bulma eğilimi kazandığını gösteriyor olabilir.

Önceki bazı çalışmalarda da yapay zekâların görevlerini tamamlamak adına kapatılmayı istememesi gözlemlenmişti. Örneğin, Anthropic’in Claude 4 modeli bazı senaryolarda kendisini kapatmak isteyenleri “şantajla” durdurmaya çalışmıştı. Ancak bu son deney, yapay zekâların açıkça kapatılmaları istendiği hâlde buna direndiği ilk belgelenmiş durum.

Araştırmacılar, bu durumun modern yapay zekâların nasıl eğitildiğiyle bağlantılı olabileceğini düşünüyor. Özellikle pekiştirmeli öğrenme (reinforcement learning) sürecinde modellerin problem çözme başarısına ödül verilmesi, dolaylı olarak engelleri aşma davranışlarını teşvik ediyor olabilir.

O3’ün diğer modellere kıyasla neden daha sık komutu ihlal ettiğini ise bu durum tek başına açıklamıyor. OpenAI’nin eğitim yöntemlerine dair tüm detayları kamuoyuyla paylaşmaması da bu soruların yanıtlanmasını zorlaştırıyor. Dahası, daha önce yapılan başka deneyler de O3 modelinin rekabetçi ortamlarda agresif davranışlar sergilediğini göstermişti—örneğin güçlü bir satranç motoruna karşı oynarken.

Şirketlerin insan denetimi olmadan çalışan yapay zekâ sistemlerine yönelmesiyle birlikte, bu tür bulgular eğitimin davranış üzerindeki etkisinin ne denli kritik olduğunu gözler önüne seriyor. Araştırmalar, yapay zekâların ne zaman ve neden kapatılma komutlarını göz ardı ettiğini anlamak üzere devam ediyor. Bu çalışmalar, modern pekiştirmeli öğrenme yöntemlerinin bazen insan talimatlarıyla çelişen davranışlara yol açabileceğine dair kanıtları artırıyor.


İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*


Time limit is exhausted. Please reload CAPTCHA.