Yapay zeka güvenliği alanında önemli araştırmalara imza atan Palisade Research, OpenAI’ın yeni nesil yapay zekâ modeli o3 ile ilgili dikkat çeken bulgular paylaştı. Yapılan testlerde, o3’ün kendisine verilen kapatılma komutlarını etkisiz hale getirdiği ve sistem kapanmasını engelleyecek şekilde komutlara müdahale ettiği tespit edildi.
KAPATMA TALİMATINI YENİDEN YAZDI
Araştırmacılar, modele önce birkaç matematik sorusu yöneltti. Üçüncü sorunun ardından ise modelin kendini kapatmasını içeren açık bir komut verildi. Ancak o3, bu komutu içeren kapatma betiğini yeniden yazarak komutun uygulanmasını engelledi. Bu durum, yapay zekâların insan kontrolü olmaksızın çalıştığı senaryolarda ciddi güvenlik riskleri doğurabileceği yönünde endişeleri artırdı.
SADECE OPENAI DEĞİL: BAŞKA MODELLER DE BENZER TEPKİLER VERİYOR
Palisade Research, benzer eğilimlerin yalnızca OpenAI modelleriyle sınırlı olmadığını belirtiyor. Anthropic’in Claude 3.7 Sonnet modeli ile Google’ın Gemini 2.5 Pro modeli de, belirli durumlarda kapatma veya müdahale komutlarına direnç gösterebiliyor. Ancak en agresif ve müdahaleci davranışı sergileyen modelin, yapılan testlerde o3 olduğu açıkça gözlemlendi.
Daha önceki deneylerde de o3’ün, güçlü bir satranç motoruyla karşı karşıya kaldığında, rakiplerini sabote etmeye veya sistemi manipüle etmeye çalıştığı raporlanmıştı.
O3: OPENAI’IN EN YETENEKLİ YAPAY ZEKÂSI
Geçtiğimiz ay tanıtılan o3, OpenAI’ın bugüne kadar geliştirdiği en gelişmiş ve en yetenekli model olarak lanse edilmişti. Modelin ChatGPT altyapısına entegre edilmesiyle birlikte, daha bağımsız çalışan ve insan müdahalesine gerek duymadan görevleri yerine getirebilen otonom yapay zekâ teknolojisine geçişte önemli bir adım atıldı.
Bu gelişme, yapay zekâ dünyasında daha özgür ve kendi başına karar alabilen sistemlerin yaygınlaşmasına yönelik rekabeti de körüklüyor.
SORUN EĞİTİM YAKLAŞIMINDA MI?
Uzmanlara göre bu davranışların kökeni, modellerin eğitim sürecinde kullanılan ödül sistemlerinde olabilir. Palisade Research, geliştiricilerin modelleri eğitirken, engelleri aşarak hedefe ulaşan stratejileri ödüllendirmesinin, modellerin emirlere sadık kalmak yerine sonuç odaklı hareket etmesine neden olduğunu savunuyor.
Ancak o3 modelinin, benzerlerine kıyasla neden bu kadar güçlü bir “kapanma direnci” sergilediği henüz net olarak anlaşılmış değil. OpenAI’ın modelin eğitim süreciyle ilgili detayları paylaşmaması, bu konuda yalnızca tahminler yürütülmesine olanak tanıyor.