Yapay zekâ, insanlık tarihindeki en büyük kırılmalardan bir tanesini yaratabilecek bir potansiyele sahip ve hâlâ üstüne bir şeyler konularak geliştirilmeye çalışılıyor ancak yapay zekâ sistemlerini kandırabilecek örnekler de bulunuyor. Buna Google’ın görselleri tespit etmek için geliştirdiği yapay zekâsı ve Jigsaw’un zararlı yorumları tespit etmesi için geliştirdiği yapay zekâ sistemi de dâhil.
MIT Bilgisayar Bilimleri ve Yapay Zekâ Laboratuvarı’ndaki araştırmacılar, TextFooler adını verdikleri bir sistem geliştirdiler. Bu sistemle Alexa ve Siri gibi doğal dil işleme kullanan yapay zekâlar kandırılabiliyor.
Yapay zekâyı kandırmak:
TextFooler, açıklarını anlamak adına doğal dil işleme modellerine saldırmak için tasarlanmış bir sistem. Bunu yapabilmek içinse cümlenin dil bilgisi yapısını bozmadan ya da anlamını değiştirmeden kelimeleri değiştirerek girdi cümlesinde düzenlemeler yapıyor. Sistem, daha sonra değiştirilmiş girdi metin sınıflandırmasıyla nasıl başa çıkıldığını görmek için doğal dil işleme modeline saldırıyor.
Tabii bir metnin anlamında değişiklik yapmadan kelimelerini değiştirmek oldukça zor. TextFooler, bunun için ilk önce doğal dil işleme modelinde sıralamada ağırlık taşıyan önemli kelimeleri kontrol ediyor. Daha sonraysa cümleye güzel bir şekilde oturabilecek eş anlamlı karşılıklarına bakıyor.
Sistemi geliştiren araştırmacılar, hâlihazırda var olan üç modeli başarılı bir şekilde kandırdıklarını ve bunların içerisinde Google tarafından geliştirilen ve BERT adı verilen açık kaynaklı dil modelinin olduğunu da ifade ettiler.
TextFooler araştırmasının yazarı Din Jin, “Bu araçlar, kötü amaçlı saldırılara karşı korunmasızlarsa sonuçlar felaket olabilir. Bu araçların kendilerini koruyabilmeleri için verimli bir savunma yaklaşımlarına ihtiyaçları var” ifadelerini kullandı. MIT ekibi, TextFooler’ın istenmeyen e-posta filtreleme, nefret söylemini tespit etme veya hassas politik söylemler gibi metin bazlı modellerde kullanılabileceğini düşünüyor.