E-postanızda bir tehdit (kimlik avı veya spam) olu polmadığını bulmanın en kolay yolu nedir? İstenmeyen bir mesajın anlaşılmasını sağlayan çeşitli teknik başlıklar ve diğer dolaylı işaretler size ipucu verebilir, ancak en bariz kısım olan mesaj metnini unutmamalısınız. Bunun, analiz edilmesi gereken ilk şey olduğu düşünülebilir. Sonuçta siber suçlular veya kötü niyetli reklamcılar alıcıları manipüle etmek için e-posta metinlerini kullanır. Yine de bu o kadar kolay değil; imza analizi geçmişte bu görevleri başarıyla yerine getirebiliyordu ancak artık metni makine öğrenmesi algoritmalarını kullanarak analiz etmek gerekiyor. Makine öğrenimi modelinin mesajları doğru şekilde sınıflandıracak şekilde eğitilmesi için ilgili algoritmaların çok fazla sayıda mesajla beslenmesi gerekir; ancak bu, gizlilik nedeniyle pratikte her zaman mümkün olmayabiliyor. Buna bir çözüm bulduk.
İmza analizi neden artık etkili değil?
On yıl önce, istenmeyen e-postaların büyük bir kısmını yakalamak mesaj metinleri sayesinde nispeten kolaydı çünkü siber suçlular genellikle benzer şablonları kullanıyordu – spam (ve kimlik avı) mesajlarının metinleri neredeyse hiç değişmiyordu. Günümüzde siber suçlular e-postalarının verimliliğini sürekli olarak artırıyor ve milyonlarca yem kullanıyorlar: Yeni video oyunları, TV dizileri veya akıllı telefon modelleri; siyasi haberler; hatta acil durumlar (örneğin, COVID-19 ile ilgili bol miktarda phishing ve spam yapıldı) . Konu çeşitliliğinin artması tespit sürecini zorlaştırıyor. Dahası, saldırganlar artık e-posta filtrelerinden kurtulmak için tek bir e-posta grubunun içindeki metni bile değiştirebiliyor.
Elbette imza temelli yaklaşımlar hala kullanılıyor, ancak başarıları temelde birinin zaten istenmeyen veya zararlı olarak sınıflandırdığı metinlerle karşılaştırmaya dayanıyor. Proaktif olarak çalışamıyorlar çünkü spam göndericileri e-posta metninde değişiklik yaparak onları atlatabiliyor. Bu sorunu çözmenin tek yolu makine öğreniminden geçiyor.
Öğrenmedeki sorun ne?
Son yıllarda makine öğrenimi yöntemleri pek çok sorunun çözümünde iyi sonuçlar verdi. Modeller büyük miktarda veriyi analiz ederek karar vermeyi öğreniyor ve bir bilgi akışında önemsiz olmayan ortak özellikleri buluyor. E-posta tehditlerini tespit etmek için DMARC ile birlikte teknik e-posta başlıkları üzerinde eğitilmiş olan sinir ağlarını kullanıyoruz. Öyleyse neden aynı şeyi mesaj metni üzerinde yapamıyoruz?
Yukarıda belirttiğimiz gibi, modellerin büyük miktarda veriye ihtiyacı vardır. Bu durumda, veriler e-postalardan oluşur ve yalnızca kötü amaçlı olanlara değil, yasal ve gerçek olan mesajlara da ihtiyacımız var. Onlar olmadan, modele bir saldırıyı meşru yazışmalardan ayırt etmeyi öğretmek imkansız olur. Her tür istenmeyen e-postayı yakalayan çok sayıda e-posta tuzağımız var (bunları imza temelli yaklaşımlar için kullanıyoruz), ancak öğrenme için yasal e-postaları almak ve kullanmak daha karmaşık bir iş.
Veriler merkezi öğrenme için normalde sunucularda toplanır. Ancak metinlerden bahsediyorsak, ek zorluklar ortaya çıkıyor: E-postalar özel veriler içerebilir, bu nedenle bunları orijinal biçiminde saklamak ve işlemek mümkün değil. Öyleyse, yeterince büyük bir yasal e-posta yığınını nasıl elde edebiliriz?
Birleşik öğrenme
Bu sorunu birleşik öğrenme yöntemini kullanarak çözüyoruz, yasal e-postaları toplama ihtiyacını makul bir şekilde ortadan kaldırıp bunun yerine modelleri, merkezi olmayan bir şekilde eğitiyoruz. Model eğitimi, doğrudan müşterinin posta sunucularında gerçekleşiyor ve merkezi sunucu, ileti metnini değil, yalnızca makine öğrenimi modellerinin eğitimli ağırlıklarını alıyor. Algoritmalar merkezi sunucuda verileri modelin ortaya çıkan sürümüyle birleştiriyor ve biz de ardından onu müşterinin çözümlerine geri gönderiyoruz; burada da model, e-posta akışını analiz etmeye devam ediyor.
Bu biraz sadeleştirilmiş bir resim: Yeni eğitilen model gerçek e-postaları işlemek üzere kullanılmadan önce, birkaç ek eğitimden geçiyor. Diğer bir deyişle, iki model e-posta sunucusunda aynı anda çalışıyor: biri eğitim modunda, diğeri aktif modda. Merkezi sunucuya yapılan birkaç gitgelden sonra, yeniden eğitilen model aktif olanın yerini alıyor.
Belirli e-postaların metnini model ağırlıklarından çıkarmak imkansızdır; böylelikle süreç boyunca gizlilik garanti altına alınmış olur. Bununla birlikte, gerçek e-postalarla öğrenim, algılama modelinin kalitesini önemli ölçüde artırır.
Şu anda, spam sınıflandırması için bu yaklaşımı test modunda, Kaspersky Security for Microsoft Office 365'de zaten kullanıyoruz ve olağanüstü sonuçlar alıyoruz. Yakında, daha geniş çapta uygulanacak ve kimlik avı, BEC ve benzeri diğer tehditleri belirlemek için kullanılacak.