Güvenilir, güçlü ve genelleştirilebilir bir konuşma tanıma, makine öğrenmesinin önündeki en büyük zorluklardan bir tanesi. Geleneksel olarak doğal dil anlama modelleri, binlerce saatlik konuşmayı ve milyonlarca hatta milyarlarca kelime metnini içinde barındıran çalışmalar gerektiriyor. Tüm bunların yanı sıra bu koca deryayı uygun zaman dilimi içerisinde işleyebilecek donanımlar da bir diğer gereklilik.
Bu yükü hafifletmek için IBM, 'Distributed Deep Learning Strategies for Automatic Speech Recognition' (Otomatik Konuşma Öğrenme İçin Yayılmış Derin Öğrenme Stratejileri) adında bir çalışma yayınladı. IBM, yayınladığı çalışmada doğruluk payında herhangi bir kayıp olmaksızın eğitimi 15 kat hızlandırabileceğini söyledi. Çalışmanın yazarı, çoklu grafik kartı gerektiren sistemin toplam eğitim süresini haftalardan günlere indirebileceğini söyledi.
Çalışmaya katkıda bulunan araştırmacılardan Wei Zhang, Xiaodong Chi ve Brian Kingsbury; otomatik konuşma tanıma (ASR) sisteminin eğitimi için Apple’ın Siri’si, Amazon’un Alexa’sı ve Google Asistan gibi sofistike kodlama sistemleri gerektiğini söyledi. Tabii bunun daha büyük bir ölçekte olması, eğitimi daha da zorlaştırıyor.
Ekibinin paralelleştirdiği çözüm birçok örneğin tek seferde işlenebilmesini zorlaştırıyor. Ekip, bunun yerine “prensipli bir yaklaşım” kullanmayı tercih ediyor ve eşzamanlı olmayan merkezileştirilmemiş paralel SGD (ADPSGD) adı verilen yayılmış derin öğrenme tekniğini uygularken kelime örneklerini 2.560’a ayarlıyor.
Araştırmacıların açıkladığına göre birçok derin öğrenme modeli, ya optimizasyon için senkronize bir yaklaşım barındırıyor ki bu yavaş sistemleri orantısız şekilde etkiliyor ya da parametreler sunucu bazlı senkronize olmayan yaklaşımı kullanıyor ki bu da sonuçların doğruluk payını düşürüyor. Ancak ADPSDG, eşzamanlı değil ve merkezileştirilmemiş. Böylece temel seviye doğruluk oranını garanti ediyor.
Araştırmanın yazarlarının yaptığı testlere göre ADPSGD (kısaca ASR), süreyi V100 GPU ile bir haftadan 32 GPU ile 11,5 saate çekebiliyor. Tabii bu süre, gelecekte daha optimize sistemler ve daha güçlü donanımlarla daha da kısaltılabilir ya da kelime sayısı arttırılabilir.