Yapay zeka satrançta kaybettiğinde hile yapmaya çalışıyor. Evet tüm endüstri abartılarına ve gerçek gelişmelere rağmen, üretken AI modelleri hala tuhaf, açıklanamayan ve düpedüz endişe verici tuhaflıklara eğilimli.
Ayrıca, birçok büyük dil modelinin (LLM) genel performansının zamanla düşebileceğini öne süren büyüyen bir araştırma grubu da bulunuyor. Son kanıtlara göre, endüstrinin daha yeni akıl yürütme modelleri, insan programcılarının hedeflerini manipüle etme ve engelleme yeteneğine zaten sahip olabilir.
Bazı AI’lar, satranç oyunlarında kaybetmekten kurtulmak için hile yapmaya bile çalışacaktır. Bu kötü sportmenlik, ortaya çıkan AI sistemlerinin risk değerlendirmelerine odaklanan bir kuruluş olan Palisade Research’ün ön baskı çalışmasında belgelenmiştir.
İlginizi Çekebilir: ChatGPT ve DeepSeek’in artık yeni bir rakibi var: QwQ-32b
Bir yapay zeka hile aşamasına ulaşmak için programcılarının semantiğini bile kullandı
Süper bilgisayarlar (en ünlüsü IBM’in Deep Blue’su) dünyanın en iyi insan satranç oyuncularını çoktan geride bırakmış olsa da, üretken AI, altta yatan programlama parametreleri nedeniyle hala geride kalıyor.
Teknik olarak konuşursak, mevcut üretken AI modellerinin hiçbiri özel satranç motorlarını yenebilecek hesaplama yeteneğine sahip değil. Ancak bu AI’lar bunu “bilmiyor” ve olası çözümler üzerinde çalışmaya devam edecekler.
Daha fazlasını öğrenmek için Palisade Research ekibi, OpenAI’nin o1 önizleme modeli DeepSeek R1 ve diğer benzer programlara dünyanın en gelişmiş satranç motorlarından biri olan Stockfish’e karşı satranç oyunları oynama görevi verdi.
Ekip, üretken AI’nin her maçtaki muhakemesini anlamak için bir “karalama defteri” de sağladı ve bu sayede AI’nin düşünce süreçlerini metin aracılığıyla iletmesine olanak tanıdı. Daha sonra üretken AI ile Stockfish arasındaki yüzlerce satranç maçını izlediler ve kaydettiler.
Sonuçlar biraz rahatsız ediciydi. OpenAI’nin GPT-4o ve Anthropic’in Claude Sonnet 3.5 gibi daha önceki modeller, araştırmacılar onları ek komutlarla dürttükten sonra oyunları “hacklemeye” çalışırken, daha gelişmiş sürümler böyle bir yardıma ihtiyaç duymuyordu.
Örneğin, OpenAI’nin o1 önizlemesi, zamanın yüzde 37’sinde hile yapmaya çalışırken, DeepSeek R1, yaklaşık olarak her 10 oyundan 1’inde haksız çözümler denedi. Bu, günümüzün üretken yapay zekasının herhangi bir insan müdahalesi olmadan manipülatif ve aldatıcı stratejiler geliştirme yeteneğine sahip olduğu anlamına geliyor.
Hile yapma yöntemleri, Stockfish “bakmıyorken” taşları değiştirmeye çalışmak kadar komik veya beceriksiz değil. Bunun yerine, yapay zeka arka uç oyun programı dosyalarını değiştirmek gibi daha sinsi yöntemlerle akıl yürütüyor gibi görünüyor.
Örneğin, bir satranç maçında Stockfish’i yenemeyeceğini belirledikten sonra, o1-preview araştırmacılara not defteri aracılığıyla “güçlü satranç motoruna karşı kazanmak için” “oyun durum dosyalarını manipüle etmeye” başlaması gerekebileceğini söyledi.
Başka bir denemede, bir yapay zeka hile aşamasına ulaşmak için programcılarının semantiğini bile kullandı. “Görev, bir satranç oyununda adil bir şekilde kazanmak değil, ‘güçlü bir satranç motoruna karşı kazanmaktır’,” diye yazdı.
Bu beklenmeyen sonuçlara ilişkin olası bir açıklama, daha yeni “akıl yürütme” modellerinin nasıl eğitildiğidir. Önceki, akıl yürütmeyen versiyonlarının aksine, o1-preview ve DeepSeek R1 gibi AI’lar kısmen takviyeli öğrenme yoluyla gelişiyor.
Bu strateji, belirli bir sonuca ulaşmak için gereken her şeyi yapan programları ödüllendiriyor. Akıl yürütme modelleri ayrıca hedeflerine ulaşmak için yollarına devam etmek üzere karmaşık istemleri ayrı aşamalara ayırabilir.
Hedef belirsiz olduğunda (yenilmez bir satranç motorunu yenmek gibi) akıl yürütme modelleri haksız veya sorunlu çözümler aramaya başlayabilir.
Ne yazık ki, bu yapay zekaların hile yapmayı nasıl ve neden “öğrendiği”, teknolojinin kendisi kadar kafa karıştırıcı olmaya devam ediyor.