Bilim İnsanları, Ölü Dilleri Çözümlemek İçin Makine Öğrenimine Başvuruyorlar

Makine öğrenmesinin kullanıldığı pek çok alan arasında unutulmuş dillerin çevirisi de yer alıyor. Araştırmacıların bir sonraki hedefi ise kayıp dilleri çevirebilmek.

Yazının icadı bundan binlerce yıl öncesine dayanıyor. O günlerden bu yana her toplum kendi dilini, kendi alfabesini kullandı. Bazı diller zaman içerisinde büyüyüp gelişti, bazıları ise kayboldu gitti.

İngiliz arkeolog Arthur Evans, Akdeniz’de bulduğu taşlarda bir alfabenin kayıtlı olduğunu keşfetmişti. Daha sonra bu taşlarda aslında Linear A ve Linear B adlı iki farklı alfabe ve dil olduğunu keşfeden araştırmacı, bu dilleri çözmeyi başaramadı. Linear B’nin sırrı, 1953 yılında amatör dilbilimci Michael Ventris tarafından çözüldü.

Ventris’in bulduğu çözümün temelinde ise iki fikir yatıyordu. Bunlardan biri, metinde çok geçen sözcüklerin, taşların bulunduğu Girit Adası’ndaki yer ve insanların isimleri olduğu idi. Şansına, bu yaklaşımı doğru çıktı. Diğer düşüncesi ise dilin, erken dönem Yunan dillerinden biri olduğu idi. Daha sonra metin hızla çözüldü. 

Linear A ise çözülemeyen bir dil olarak akıllarda kaldı. Günümüzde kullanılan makine çeviri yöntemleri ve makine öğrenmesi teknolojisi, bu noktada bilim insanlarına yeni bir umut oldu. 

MIT’den Jiaming Luo ile Regina Barzilay ve Google’dan Yuan Cao, yeni bir makine öğrenmesi sistemi geliştirdi. Bu sistem, kayıp dillerde çeviri yapabiliyor. Üretilen yeni yazılım, Linear B dilini otomatik olarak çevirdi. Bir kayıp dilin otomatik olarak çevirisinin yapılması ise tarihte bir ilk oldu.

Normalde makine öğrenmesi, benzer metinleri karşılaştırma temeline dayanır. Veri tabanındaki dillerde bir arada bulunan sözcükleri, sözcük etkileşimlerini takip eder. Daha sonra da basit matematiksel hesaplamalar yapar. Haliyle makine öğrenmesini çok az metin bulunan dillere uyarlamak mümkün değil gibi gözüküyordu. 

Bundan birkaç yıl önce ise bu inanış değişti. Alman bilim insanları, makine öğrenmesini çok büyük olmayan veri setleriyle de gerçekleştirmeyi başardı. Luo ve ekibi ise bu çalışmayı bir adım daha ileri taşıyarak ölü dillerin çevirisini mümkün kıldı.

Çalışmalarda, dillerin yapısal olarak belli çeşitlerde evrim geçirdikleri ve ona göre şekillendikleri bilgisinden yola çıkıldı. Böylece çerçevesi ve etkileşimleri net olarak belli olan dillerin çevirisi mümkün oldu. Linear B ve İbranice’nin atası diyebileceğimiz Ugaritik dilinde makine çevirisi büyük başarı sağladı. 

Şimdi gözler, Linear A’nın nasıl çözümleneceğine dönmüş durumda. Luo ve ekibi makalelerinde hiç bahsetmese de dil bilimciler için büyük merak konusu olan bu alfabenin çözümü için de makine öğrenmesinden destek alınması bekleniyor. Sonuçta makineler, bizden daha hızlı denemeler yaparken yorulmak nedir bilmiyor. 

Makale, arXiv üzerinde yayımlandı.