2017 yılının sonbahar aylarında New York Üniversitesi’nden dil bilimleri uzmanı Sam Bowman, bilgisayarların hâlâ yazılan bir kelimeyi anlamakta iyi durumda olmadığını gözlemledi. Bunu kanıtlamak isteyen Bowman’ın aklına insan ve bilgisayar arasında bir test yapmak geldi.
Bowman, Nisan 2018’de bu testi DeepMind ve Washington Üniversitesi ile GLUE (Genel Dil Anlayışının Değerlendirilmesi) testini gerçekleştirdi. Test, insanlar için oldukça kolay bir testti. Yapılması gereken tek şey, bir cümlenin önceki cümleye göre doğru olup olmadığını söylemekti. Yani "Ayşe, yedi günlük tatili için Amerika’ya gitti" cümlesinin "Ayşe Amerika’da bulundu" anlamına geldiğini bildiyseniz tam puan aldınız.
Test insanlara kolay gelirken bilgisayarlar adeta patladı:
Bilgisayarlar, dokuz görev sonucunda 100 üzerinden yalnızca 69 puan alabildi. Bowman da bu sonucu bekliyordu. Araştırmacı ve ekibi, bilgisayarların dili tam anlamıyla öğrenmeye çalışmadıklarını düşünüyordu ancak Bowman’ın bu değerlendirmesi yanlış çıkmamış olsaydı şu an bu haberi yazıyor olmazdık. 2018’in ekim ayında Google, BERT isimli yeni metodunu tanıttı. GLUE testine giren BERT, 100 üzerinden 80,5 puan aldı. Yani yalnızca 6 ay içerisinde bilgisayarlar büyük bir yükseliş gösterdi.
BERT’in yer aldığı testlerden önce yapılan GLUE testlerinde insanların aldığı puanlar açıklanmıyordu. İnsanların puanları şubat 2019’da Bowman tarafından paylaşıldı. Bundan birkaç ay sonra da GLUE’nun puan tablosu, BERT’i kullanan sistemler tarafından bir anlamda ele geçirildi ve insanları geçmeyi başardı.
Peki yapay zekâ gerçekten dilimizi anlamaya mı başlıyor yoksa sistemsel olarak mı gelişiyor?
2018 yılından önce bilgisayarlardaki doğal dil işlemenin beslendiği ana kaynak sözlük benzeri bir şeydi ancak makineler, hâlâ kelimeleri bir cümlede kullanabilecek kadar kavrayamıyorlardı. Dolayısıyla makinelere yalnızca kelime değil, cümle yapıları ve bağlam da öğretilmeliydi.
2018 yılında OpenAI’de görevli araştırmacılar, San Francisco Üniversitesi, Allen Yapay Zeka Enstitüsü ve Washington Üniversitesi yeni bir yöntemle çıkageldiler. Araştırmacılar, tüm sinirsel ağlara 'dil modellemesi' denilen geniş ama basit bir eğitim vermeye başladılar.
Bunu biraz açıklamakta fayda var. Verilen dil modellemesi eğitiminde makineler, cümlede bir sonraki kelimeyi tahmin etmekle yükümlüydüler. Yani "Bugün hava çok …" cümlesini tamamlamak üzere eğitiliyorlardı.
GPT sinir ağı, testlerde ilk sıraya yükseldi:
İlk başta verilen dil modelleri oldukça iyi sonuçlar verdi. Araştırmacılar, Vikipedi gibi herkese açık kaynaklarla makineleri beslediler. Bu kaynaklarda kelime ve cümle dizimi açısından milyarlarca doğru cümle bulunuyordu.
Haziran 2018’e geldiğimizde OpenAI, GPT isimli bir sinir ağının GLUE testinde ilk sıraya yükseldiğini açıkladı. GPT, eğitilmeden önce yapılan GLUE testinde 72,8 puan almıştı ancak Bowman, hâlâ makinelerin insan düzeyine erişebilmeleri için çok yol kat etmeleri gerektiğini düşünüyordu.
Tabii bundan sonra BERT’in çıkacağını bilmiyordu. Peki bu BERT nedir? BERT, Bowman’ın tanımıyla bir sinir ağını ön eğitimden geçirebileceğiniz en doğru yerdir. Google, BERT’in kodlarını açık kaynaklı olacak şekilde paylaştı. Yani diğer araştırmacılar, BERT sistemini kullanarak kendi ağlarını eğitebiliyorlardı.
BERT'i diğer sistemlerden ayıran kritik özellik: Çift yönlülük
BERT, üç ana şeyin bir araya gelmesiyle çalışıyor: Kelimelere rehber olması için bir dil modeli, bir cümledeki hangi bölümün daha önemli olduğu kestirebilme yeteneği ve bir şeyi hem sağdan sola hem soldan sola okuyabilme yeteneği, yani çift yönlülük. İşte bu son saydığımız yetenek, BERT’i diğer modellerden ayıran en önemli unsurlardan biri.
BERT, diğer modellerin aksine terabaytlarla ölçülen metinleri hem soldan sağa hem de sağdan sola okuyabiliyor. Bu sayede cümlenin ortasında bulunacak kelimeyi de tahmin edebiliyor. Yani "Bugün hava … güzel" cümlesindeki boşluğu tamamlayabiliyor. BERT için saydığımız tüm özellikler, aslında diğer modellerde de bulunuyordu ancak hepsi bir yerde bulunmuyordu.
Makineler duracak gibi değil:
Olaylar, BERT’in çıkışıyla zirveye ulaşmış olsa da BERT, günümüzün en gelişmiş modeli değil. BERT’in gelişmiş bir modeli olan RoBERTa, ağustos 2019’da çıkış yaptı. Facebook ve Washington Üniversitesi’nden araştırmacılar, BERT’in gelişmiş modeline daha fazla ön eğitimli veri, daha uzun giriş dizileri ve daha fazla eğitim süresi gibi yenilikler getirdi.
Araştırmacıların geliştirdiği RoBERTa, hiç şaşırtmayacak şekilde GLUE testinde zirveyi kaptı. Bundan altı hafta sonra da Microsoft ve Maryland Üniversitesi’nin RoBERTa üzerinde yaptığı değişiklikler, GLUE testinde yeni bir rekora imza attı. Şu anda GLUE’nin zirvesinde bulunan model ise ‘A Lite BERT”in kısaltması olan ‘ALBERT’ modeli.
Peki bu modeller ne kadar ‘gerçekçi’?
Tal Linzen ve ekibi tarafından yayınlanan bir başka makale olan ‘Right for the Wrong Reasons’, BERT’in GLUE testindeki yüksek performansını inceliyor. Makaleye göre BERT, BLUE testlerini geçebilmek için verisinde yer alan birkaç ‘sahte ipucundan’ yardım alıyor.
Yani BERT ve diğer modeller sahtecilik mi yapıyor? Bowman, GLUE’nin eğitim verilerinin karmaşıklığı konusunda Linzen’a hak veriyor. Bowman’a göre BERT’in sisteminde testi geçebilmesini sağlayabilecek birkaç kısayol bulunabilir durumda ve bu model de bu kısayolları kullanıyor.
Tabii Bowman, BERT’e her ne kadar güvenmese de modelin çöp olmadığını da belirtiyor. Bowman, modelin dil hakkında gerçekten önemli şeyler öğrendiğini söylüyor. Yine de dilimizi kapsamlı ve sağlam bir şekilde anlamadığını da ekliyor. Ayrıca Bowman, bir sinir ağının bir şeyi gerçekten anlayıp anlamadığına tam olarak inanabilmemizin de zor olduğunu söylüyor.
Bu konunun üstüne giden Bowman, BERT’i kullanan sistemleri zorlayacak bir test yayınladı: SuperGLUE. Şu ana kadar bu testte hiçbir makine, insanları yenemedi. Peki olur da makineler bu testte insanları geçmeye başarırlarsa bu, makinelerin dilleri daha iyi anladığına mı işaret ediyor yoksa bilimin makineleri eğitebilecek kadar geliştiğini mi gösteriyor? İşte bu soruların cevabını zaman gösterecek.