Science Magazine‘de Ocak ayı ortasında yayınlanan bir makale, ortam ışığı sensörü aracılığıyla akıllı telefon kullanıcılarını gözetlemenin dikkate değer bir yöntemini anlatıyor. Tüm akıllı telefonlar ve tabletlerde ve hatta dizüstü bilgisayarlar ve TV’lerde de bu bileşen yerleşik olarak bulunuyor. Ana görevi, cihazın bulunduğu ortamdaki ortam ışığı miktarını algılamak ve ekranın parlaklığını buna göre değiştirmektir.
Ancak önce bir saldırganın neden hedef cihazın normal kamerası yerine görüntü yakalamak için uygun olmayan bir araç kullandığını açıklamamız gerekiyor. Bunun nedeni, bu tür “uygun olmayan” sensörlerin genellikle tamamen korumasız olmasıdır. Bir saldırganın bir kullanıcıyı akıllı telefonuna kötü amaçlı bir program yüklemesi için kandırdığını düşünelim. Kötü amaçlı yazılım, mikrofon veya kamera gibi sıkça hedeflenen bileşenlere erişim sağlamak konusunda zorlanacaktır. Peki ya ışık sensörüne? Çocuk oyuncağı.
Araştırmacılar, ortam ışığı sensörünün kamera yerine kullanılabileceğini kanıtladılar; örneğin, kullanıcının sanal klavyede PIN girerken elinin anlık görüntüsünü almak için. Teorik olarak, bu tür verileri analiz ederek parolanın kendisini yeniden oluşturmak mümkündür. Bu yazıda her şey sade bir dille anlatılıyor.
Işık sensörü oldukça ilkel bir teknolojidir. Aslında ortam ışığının parlaklığını saniyede birkaç kez ölçen ışığa duyarlı bir fotoseldir. Dijital kameralar da çok benzer (daha küçük de olsa) ışık sensörleri kullanır, ancak bunlardan milyonlarca vardır. Lens bu fotosel matrisine bir görüntü yansıtır, her bir elementin parlaklığı ölçülür ve sonuç dijital bir fotoğraf olur. Böylelikle, bir ışık sensörünün dijital fotoğraf makinelerinin en ilkeli olduğunu söyleyebiliriz: çözünürlüğü tam olarak bir pikseldir. Böyle ilkel bir teknoloji etrafında olup bitenleri nasıl yakalayabilir ki?
Araştırmacılar, 19. yüzyılın ortalarında formüle edilen Helmholtz karşılıklılık ilkesini kullandılar. Bu ilke, örneğin bilgisayar grafiklerinde yaygın olarak kullanılmakta ve hesaplamaları büyük ölçüde basitleştirmektedir. Bu ilke, 2005 yılında önerilen ikili fotoğrafçılık yönteminin temelini oluşturmuştur. Açıklamaya yardımcı olması açısından bu makaleden bir örnek sunalım:
Bir masanın üzerindeki nesnelerin fotoğrafını çektiğinizi düşünün. Nesnelerin üzerine bir ışık kaynağı parlar, yansıyan ışık kamera merceğine çarpar ve sonuç bir fotoğraf ortaya çıkar. Burada sıra dışı bir şey yok. Yukarıdaki resimde, soldaki görüntü tam olarak budur – normal bir fotoğraf. Daha sonra, araştırmacılar büyük ölçüde basitleştirilmiş terimlerle, lambanın parlaklığını değiştirmeye ve aydınlatmadaki değişiklikleri kaydetmeye başladılar. Sonuç olarak, sağdaki görüntüyü yeniden oluşturmak için yeterli bilgi topladılar – sanki lambanın bakış açısından alınmış gibi. Bu konumda kamera yok ve hiçbir zaman da olmadı, ancak ölçümlere dayanarak sahne başarıyla yeniden oluşturuldu.
En ilginci de bu yöntemin bir kameraya bile ihtiyaç duymaması. Basit bir fotorezistör işi görür… tıpkı ortam ışığı sensöründe olduğu gibi. Bir fotorezistör (veya “tek pikselli kamera”) nesnelerden yansıyan ışıktaki değişiklikleri ölçer ve bu veriler nesnelerin bir fotoğrafını oluşturmak için kullanılır. Görüntünün kalitesi düşük olacaktır ve sayıları yüzlerce veya binlerce olan çok sayıda ölçüm yapılması gerekecektir.
Çalışmaya ve ışık sensörüne geri dönelim. Makalenin yazarları 17 inç ekrana sahip oldukça büyük bir Samsung Galaxy View tablet kullandılar. Tabletin ekranında siyah ve beyaz dikdörtgenlerden oluşan çeşitli desenler görüntülendi. Bir manken, ekran klavyesine bir şeyler giren bir kullanıcı rolünde ekrana bakacak şekilde konumlandırıldı. Işık sensörü parlaklıktaki değişiklikleri yakaladı. Bunun gibi birkaç yüz ölçümde, mankenin elinin bir görüntüsü üretildi. Yani, yazarlar Helmholtz karşılıklılık ilkesini uygulayarak elin, ekranın bakış açısından çekilmiş gibi bir fotoğrafını elde etmeyi başardılar. Araştırmacılar tablet ekranını son derece düşük kaliteli bir kameraya dönüştürdüler.
Doğru, çok net bir görüntü değil. Sol üstteki resim neyin yakalanması gerektiğini gösteriyor: birinde mankenin açık avuç içi; diğerinde ise “kullanıcının” ekrandaki bir şeye dokunurken nasıl göründüğü. Ortadaki görüntüler 32×32 piksel çözünürlükte yeniden oluşturulmuş bir “fotoğraf” olup, neredeyse hiçbir şey görünmemektedir – verilerde çok fazla kumlanma vardır. Ancak makine öğrenimi algoritmalarının yardımıyla kumlanma filtrelenerek bir elin konumunu diğerinden ayırt edebildiğimiz sağdaki görüntüler elde edildi. Makalenin yazarları, insanların tabletin dokunmatik ekranını kullanırken yaptıkları tipik hareketlere başka örnekler de veriyor. Daha doğrusu, onları nasıl “fotoğraflamayı” başardıklarına dair örnekler:
Peki bu yöntemi pratikte uygulayabilir miyiz? Kullanıcının bir tablet veya akıllı telefonun dokunmatik ekranıyla nasıl etkileşime girdiğini izlemek mümkün mü? Ekran klavyesine metin girişi yaparken? Kredi kartı bilgilerini girerlerken? Uygulamaları açarlarken? Neyse ki bu o kadar basit değil. Yukarıdaki resimde yer alan “fotoğrafların” üzerindeki başlıklara dikkat edin. Bunlar yöntemin ne kadar yavaş çalıştığını açıkça gösteriyor. En iyi senaryoda, araştırmacılar üç dakikadan biraz fazla bir sürede elin bir “fotoğrafını” yeniden oluşturabiliyor. Bir önceki resimdeki görüntünün yakalanması 17 dakika sürmüş. Bu hızlarda gerçek zamanlı gözetleme söz konusu olamaz. Deneylerin çoğunda neden bir mankenin elinin kullanıldığı da şimdi anlaşılıyor: Bir insan elini o kadar uzun süre hareketsiz tutamaz.
Ancak bu, yöntemin geliştirilebileceği ihtimalini ortadan kaldırmıyor. En kötü senaryoyu düşünelim: eğer her bir el görüntüsü üç dakika içinde değil de örneğin yarım saniye içinde elde edilebilirse; eğer ekrandaki görüntü garip siyah-beyaz figürler değil de kullanıcının ilgisini çekecek bir video ya da bir dizi resim veya animasyon ise; ve eğer kullanıcı gözetlemeye değer bir şey yaparsa… İşte o zaman bir saldırı gerçekleştirmek anlamlı olacaktır. Ama o zaman bile pek bir anlam ifade etmiyor. Araştırmacıların tüm çabaları, bir saldırgan kurbanın cihazına kötü amaçlı yazılım yerleştirmeyi başardığı takdirde, bir şifre veya kredi kartı numarası girmeleri için onları kandırmanın daha kolay birçok yolu olduğu gerçeğiyle baltalanıyor. Belki de bu tür makaleleri (örnekler: bir, iki, üç, dört) haber yaparken ilk kez, böyle bir saldırı için gerçek hayattan bir senaryo hayal etmekte bile zorlanıyoruz.
Tek yapabileceğimiz, sunulan yöntemin güzelliğine hayran kalmak. Bu araştırma, etrafımızı saran, görünüşte tanıdık, göze çarpmayan cihazların alışılmadık, daha az bilinen daha ne işlevler için kullanılabileceğini bize bir kez daha hatırlatıyor. Öte yandan, bu potansiyel gizlilik ihlalinden endişe duyanlar için çözüm basittir. Bu tür düşük kaliteli görüntüler, ışık sensörünün oldukça seyrek ölçüm yapmasından kaynaklanır: Saniyede 10-20 kez. Çıktı verileri de hassasiyetten yoksundur. Ancak, bu yalnızca sensörü bir kameraya dönüştürmek istenmesi durumunda geçerlidir. Ana görev olan ortam ışığını ölçmek için bu oran bile çok yüksektir. Verileri daha da “kabalaştırabiliriz”, örneğin saniyede 20 yerine beş kez iletebiliriz. Ekran parlaklığını ortam ışığı seviyesiyle eşleştirmek için bu fazlasıyla yeterlidir. Ancak sensör aracılığıyla casusluk yapma olasılığı zaten yok denecek kadar azken iyice imkansız hale gelecektir. Belki de böylesi daha iyi.