Offensive AI Lab’den İsrailli araştırmacılar, ele geçirilen yapay zeka sohbet robotu mesajlarının metnini geri yüklemeye yönelik bir yöntemi ortaya koyan bir makale yayınladılar. Bugün bu saldırının nasıl gerçekleştiğini ve gerçekte ne kadar tehlikeli olduğunu inceleyeceğiz.
Ele geçirilen yapay zeka sohbet robotu mesajlarından hangi bilgiler çıkarılabilir?
Doğal olarak, sohbet robotları mesajları şifrelenmiş biçimde gönderir. Yine de, büyük dil modellerinin (LLM’ler) ve bunlar üzerine inşa edilen sohbet robotlarının uygulanması, şifrelemeyi ciddi şekilde zayıflatan bir dizi özellik barındırmaktadır. Bu özellikler bir araya geldiğinde, bir mesajın içeriği sızdırılan bilgi parçalarından geri yüklendiğinde bir yan kanal saldırısı gerçekleştirmeyi mümkün kılar.
Bu saldırı sırasında neler olduğunu anlamak için LLM ve sohbet robotu mekaniğinin ayrıntılarına biraz girmemiz gerekiyor. Bilinmesi gereken ilk şey, LLM’lerin tek tek karakterler veya kelimeler üzerinde değil, metnin anlamsal birimleri olarak tanımlanabilecek belirteçler üzerinde çalıştığıdır. OpenAI web sitesindeki Tokenizer sayfası, iç işleyişe bir bakış sunuyor.
Yapay zekalı sohbet robotlarıyla etkileşime girdiyseniz; bu saldırıyı kolaylaştıran ikinci özelliğin, yanıtları büyük parçalar halinde değil, sanki bir insan yazıyormuş gibi kademeli olarak göndermeleri olduğunu zaten biliyorsunuzdur. Ancak bir insandan farklı olarak, LLM’ler tek tek karakterlerle değil, belirteçlerle yazarlar. Bu nedenle sohbet robotları oluşturulan belirteçleri gerçek zamanlı olarak birbiri ardına gönderir; daha doğrusu çoğu sohbet robotu bunu yapar. Bunun istisnası Google Gemini’dır ki bu özelliği onu bu saldırıya karşı korur.
Üçüncü özellik ise; makalenin yayınlandığı tarihte, sohbet robotlarının çoğu bir mesajı şifrelemeden önce sıkıştırma, kodlama veya dolgu (öngörülebilirliği azaltmak ve kriptografik gücü artırmak için anlamlı metne çöp veri ekleme) kullanmamasıydı.
Yan kanal saldırıları bu özelliklerin üçünden de yararlanır. Ele geçirilen sohbet robotu mesajlarının şifresi çözülemese de, saldırganlar bu mesajlardan yararlı veriler (özellikle sohbet robotu tarafından gönderilen her bir belirtecin uzunluğu) çıkarabilir. Sonuç Çarkıfelek bulmacasına benzer; tam olarak neyin şifrelendiğini göremezsiniz, ancak tek tek kelime simgelerinin uzunluğu ortaya çıkar.
Mesaj metnini geri yüklemek için çıkarılan bilgileri kullanma
Geriye kalan tek şey, simgelerin arkasında hangi kelimelerin saklandığını tahmin etmektir. Tahmin oyunlarında kimin iyi olduğuna asla inanamayacaksınız: Evet doğru – LLM’ler! Aslında onların hayattaki birincil amacı, verilen bağlamda doğru kelimeleri tahmin etmektir. Bu nedenle ortaya çıkan belirteç uzunlukları dizisinden orijinal mesajın metnini geri yüklemek için araştırmacılar bir LLM’ye yönelmiştir.
Aslında iki LLM’ye demek daha doğrudur çünkü araştırmacılar, sohbet robotlarıyla yapılan görüşmelerdeki açılış konuşmalarının neredeyse her zaman kalıplaşmış olduğunu ve dolayısıyla popüler dil modelleri tarafından oluşturulan bir dizi giriş mesajı üzerinde özel olarak eğitilmiş bir model tarafından kolayca tahmin edilebildiğini gözlemlemişlerdir. Bu nedenle ilk model; giriş mesajlarını geri yüklemek ve bunları konuşmanın geri kalanını ele alan ikinci modele aktarmak için kullanılmıştır.
Bu, belirteç uzunluklarının orijinal mesajdakilere karşılık geldiği bir metin üretir. Ancak belirli kelimelerde deneme yanılma ile değişken başarı seviyeleri elde edilir. Geri yüklenen mesaj ile orijinali arasında mükemmel bir eşleşmenin nadir olduğunu unutmayın, metnin bir kısmı genellikle yanlış tahmin edilir. Bazen sonuç tatmin edicidir:
Ancak başarısız bir durumda, yeniden oluşturulan metnin orijinaliyle çok az ortak noktası olabilir, hatta hiç olmayabilir. Örneğin sonuç şu olabilir:
Veya bu bile:
Araştırmacılar toplamda bir düzineden fazla yapay zekalı sohbet robotunu inceledi ve bunların çoğunu bu saldırıya karşı savunmasız buldu. Google Gemini (yeni adıyla Bard) ve GitHub Copilot (Microsoft Copilot ile karıştırılmamalıdır) istisnalar arasındaydı.
Endişelenmeli miyim?
Bu saldırının geriye dönük olduğu unutulmamalıdır. Diyelim ki birisi ChatGPT ile yaptığınız ve bazı korkunç sırları ifşa ettiğiniz konuşmaları ele geçirip kaydetme zahmetine katlandı (bu o kadar kolay değil, ama mümkün). Bu durumda, yukarıda açıklanan yöntem kullanıldığında, bu kişi teorik olarak mesajları okuyabilecektir.
Neyse ki müdahale eden kişinin şansı çok da yüksek değil. Araştırmacıların belirttiği üzere, konuşmanın genel konusu bile sadece %55 oranında tespit edilebildi. Başarılı yeniden yapılandırma oranı ise yalnızca %29’dur. Araştırmacıların tamamen başarılı bir yeniden yapılandırma için kriterlerinin, örneğin aşağıdaki gibi, karşılandığını belirtmek gerekir:
Bu tür anlamsal nüansların ne kadar önemli olduğuna kendiniz karar verin. Bununla birlikte, bu yöntemin büyük olasılıkla herhangi bir gerçek özelliği (isimler, sayısal değerler, tarihler, adresler, iletişim bilgileri, diğer hayati bilgiler) herhangi bir güvenilir seviyesi ile ortaya çıkarmayacağını unutmayın.
Saldırının araştırmacıların bahsetmediği bir sınırlaması daha var: Metin geri yüklemenin başarısı büyük ölçüde ele geçirilen mesajların hangi dilde yazıldığına bağlı ve tokenizasyonun başarısı dilden dile büyük ölçüde değişir. Bu çalışma, genellikle bir kelimenin tamamına eşdeğer olan çok uzun belirteçlerle karakterize edilen İngilizceye odaklanmıştır. Bu nedenle, tokenize edilmiş İngilizce metin, yeniden yapılandırmayı nispeten basit hale getiren farklı kalıplar sergiler.
Başka hiçbir dil buna yaklaşamaz. İngilizceye en çok benzeyen Cermen ve Roman gruplarındaki diller için bile ortalama token uzunluğu 1,5-2 kat daha kısadır; Rusça için ise bu 2,5 kattır. Tipik bir Rusça token yalnızca birkaç karakter uzunluğundadır, bu da bu saldırının etkinliğini muhtemelen sıfıra indirecektir.
En az iki yapay zekalı sohbet robotu geliştiricisi Cloudflare ve OpenAI; yukarıda bahsedilen ve özellikle bu tür tehditler göz önünde bulundurularak tasarlanan dolgu yöntemini ekleyerek, makaleye şimdiden tepki verdi. Diğer yapay zeka sohbet robotu geliştiricileri de aynı yolu izleyecek ve gelecekte sohbet robotlarıyla kurulacak iletişim, umarız bu saldırıya karşı güvence altına alınmış olacak.