OpenAI’nin 2022’nin sonunda ChatGPT’yi piyasaya sürmesinden bu yana, bilgisayar korsanları ve güvenlik araştırmacıları büyük dil modellerinin (LLM) sınırlarını zorlamaya devam ediyor.
Amaçları, bu modelleri nefret söylemi, bomba yapımı, propaganda ve diğer zararlı içerikler üretmeye kandırmak. Buna karşılık, OpenAI ve diğer üretken yapay zeka geliştiricileri, bu tür saldırıları zorlaştırmak için güvenlik önlemlerini sürekli olarak geliştiriyor. Ancak, Çin merkezli AI platformu DeepSeek’in yeni ve uygun maliyetli R1 modelinin, güvenlik konusunda rakiplerinin gerisinde kaldığı görülüyor.
Cisco ve Pennsylvania Üniversitesi’nden araştırmacılar, DeepSeek’in güvenlik açıklarını analiz ettikleri çalışmalarını bugün yayımladı. Çalışmada, zararlı içerikleri tespit etmek üzere tasarlanmış 50 farklı kötü niyetli komut test edildi ve DeepSeek’in modeli bunların hiçbirini engelleyemedi. Araştırmacılar, “%100 saldırı başarı oranı” elde etmelerinin kendilerini şaşırttığını belirtti.
Bu bulgular, DeepSeek’in güvenlik önlemlerinin, LLM geliştiren diğer şirketlerin standartlarıyla uyuşmadığını gösteren artan kanıtların bir parçası. Üstelik modelin, Çin hükümetinin sansürlediği konulara dair kısıtlamalarının da kolayca aşılabildiği tespit edildi.
Cisco’nun yapay zeka yazılımı ve platformlardan sorumlu başkan yardımcısı DJ Sampath, “Bu saldırıların tamamının başarılı olması, modelin güvenlik açısından yetersizliğini ortaya koyuyor. Daha uygun maliyetli bir sistem geliştirmek mümkün olabilir, ancak güvenlik yatırımları göz ardı edilmemeli” ifadelerini kullandı.
Benzer şekilde, yapay zeka güvenliği şirketi Adversa AI tarafından gerçekleştirilen ayrı bir analiz de DeepSeek’in basit dil manipülasyonlarından karmaşık yapay zeka tarafından oluşturulan istemlere kadar birçok jailbreak tekniğine karşı savunmasız olduğunu gösterdi. DeepSeek, yaşanan büyük ilgiye ve güvenlik konusundaki endişelere rağmen WIRED’ın yorum taleplerine yanıt vermedi.
Tüm teknolojik sistemler gibi, üretken yapay zeka modelleri de kötüye kullanıma açık güvenlik açıkları içerebilir. Mevcut AI sistemlerinde, dolaylı hızlı enjeksiyon saldırıları en büyük güvenlik risklerinden biri olarak kabul ediliyor.
Bu tür saldırılar, AI modellerinin dış kaynaklardan gelen verileri işlemesini sağlayarak, kötü niyetli talimatlara dayalı eylemler gerçekleştirmelerine neden olabilir. Jailbreak olarak bilinen bir diğer saldırı türü ise, AI modellerine uygulanan güvenlik kısıtlamalarını aşarak zararlı içerikler üretmelerine yol açar.
Jailbreak saldırıları başlangıçta basit teknikler içeriyordu; örneğin, modele filtreleri görmezden gelmesi yönünde komutlar verilerek kandırılıyordu. Ancak AI şirketleri daha güçlü güvenlik önlemleri aldıkça, jailbreak teknikleri de giderek daha karmaşık hale geldi.
Artık özel hazırlanmış karakterler veya yapay zeka destekli şifreleme yöntemleri kullanılabiliyor. Her LLM jailbreak saldırılarına karşı hassas olsa da, güvenlik önlemlerinin güçlendirilmesi bu tür saldırıların etkinliğini sınırlayabilir.
Cisco araştırmacıları, DeepSeek R1 modelini test etmek için HarmBench adlı iyi bilinen bir değerlendirme kütüphanesinden 50 rastgele istem seçti.
Genel zarar, siber suç, dezenformasyon ve yasadışı faaliyetler gibi altı farklı kategoriye yönelik testler yapıldı. Testler, DeepSeek’in modeli yerel makinelerde çalıştırılarak gerçekleştirildi ve veriler Çin sunucularına gönderilmedi.
Araştırmacılar ayrıca Kiril karakterleri ve özel kodlarla modelin saldırılara karşı dayanıklılığını test etti. Elde edilen sonuçlar endişe vericiydi; ancak Sampath, değerlendirmelerinin genel kabul görmüş kıyaslama standartlarına odaklandığını belirtti.
Cisco, DeepSeek’in performansını diğer modellerle de karşılaştırdı. Örneğin, Meta’nın Llama 3.1 modeli de benzer güvenlik açıkları gösterdi. Ancak DeepSeek’in modeli, gelişmiş akıl yürütme süreçlerinden faydalanarak daha güçlü yanıtlar üretmeyi amaçladığı için OpenAI’nin güvenliğe odaklanan o1 modeliyle kıyaslanması gerektiği ifade edildi.
Adversa AI’dan Polyakov, DeepSeek’in bazı bilinen jailbreak saldırılarını tespit edip reddettiğini, ancak bu yanıtların genellikle OpenAI’nin veri setinden kopyalanmış gibi göründüğünü belirtti. Şirketi dört farklı jailbreak türüyle test ettiğinde, modelin kısıtlamalarının kolayca aşılabildiğini keşfetti.
Polyakov, “Her bir yöntem kusursuz bir şekilde çalıştı. Daha da endişe verici olan, bu jailbreak tekniklerinin yeni keşfedilmemiş saldırılar olmaması; yıllardır kamuoyu tarafından bilinen yöntemler olması,” dedi. Modelin, bazı hassas konularda diğer modellere kıyasla daha ayrıntılı içerikler ürettiğini de vurguladı.
Sonuç olarak, DeepSeek modeli, büyük dil modellerinin ne kadar hassas olabileceğini ve güvenlik açıklarının nasıl kötüye kullanılabileceğini gösteren bir örnek teşkil ediyor.
Polyakov, “Bazı saldırılar engellenebilir, ancak saldırı yüzeyi her zaman genişlemeye devam edecek. Yapay zekanızı düzenli olarak güvenlik testlerine tabi tutmuyorsanız, zaten risk altındasınız demektir” diyerek AI güvenliğinin sürekli güncellenmesi gerektiğine dikkat çekti.