Kısa bir tarihi konuşma tanıma
Konuşma tanıma teknolojisinde son 30 ayda, ilk 30 yıla kıyasla daha fazla ilerleme kaydedildi.
Bu alandaki ilerlemelerin arkasında büyük ölçüde işlem gücü ve yapay zeka yatıyor. Devasa miktardaki konuşma verisinin daha hızlı işlemeyle birleşmesiyle, konuşma tanıma teknolojisi yeteneklerinin kabaca insanlarla eşitlendiği bir dönüm noktasına ulaştı.
Aşağıdaki grafik Mary Meeker'ın 2017 İnternet Trendleri raporundan alınmıştır (not: artık Slideshare'de mevcut değil). Grafik, Google'ın yakın zamanda insan doğruluğu olan %95 eşiğini aşan kelime doğruluk oranını göstermektedir.
Son zamanlarda çok büyük adımlar atılmış olsa da, ses tanıma teknolojisi 1950'lerin başına kadar uzanmaktadır. Aşağıda, son 70 yılda bu teknolojiyi şekillendiren bazı önemli olaylar yer almaktadır.
1950'ler ve 60'lar
İlk konuşma tanıma sistemleri kelimelere değil, sayılara odaklanmıştı. 1952 yılında Bell Laboratories, rakamları yüksek sesle söyleyen tek bir sesi tanıyabilen "Audrey" sistemini tasarladı. On yıl sonra IBM, İngilizce 16 kelimeyi anlayan ve yanıtlayan "Shoebox" sistemini tanıttı.
Dünya genelinde diğer ülkeler de ses ve konuşmayı tanıyabilen donanımlar geliştirdi. 60'ların sonuna gelindiğinde teknoloji, dört sesli ve dokuz sessiz harften oluşan kelimeleri destekleyebiliyordu.
1970'ler
Konuşma tanıma bu on yılda birkaç anlamlı ilerleme kaydetti. Bu büyük ölçüde ABD Savunma Bakanlığı ve DARPA sayesindeydi. Yürüttükleri Konuşma Anlama Araştırması (SUR) programı, konuşma tanıma tarihindeki türünün en büyük örneklerinden biriydi. Carnegie Mellon'un "Harpy" konuşma sistemi bu programdan çıktı ve üç yaşındaki bir çocuğun kelime dağarcığına eşdeğer olan 1.000'den fazla kelimeyi anlama kapasitesine sahipti.
Ayrıca 70'lerde Bell Laboratories'in birden fazla sesi yorumlayabilen bir sistemi tanıtması da önemliydi.
1980'ler
80'lerde konuşma tanıma kelime dağarcığı birkaç yüz kelimeden birkaç bin kelimeye çıktı. Çığır açan gelişmelerden biri "Gizli Markov Modeli (HMM)" olarak bilinen istatistiksel bir yöntemden geldi. HMM, sadece kelimeleri kullanmak ve ses kalıplarını aramak yerine, bilinmeyen seslerin aslında kelime olma olasılığını tahmin ediyordu.
1990'lar
Konuşma tanıma, 90'larda büyük ölçüde kişisel bilgisayarlar sayesinde ileriye taşındı. Daha hızlı işlemciler, Dragon Dictate gibi yazılımların daha yaygın olarak kullanılmasını mümkün kıldı.
BellSouth, aramalı interaktif bir ses tanıma sistemi olan ses portalını (VAL) tanıttı. Bu sistem, bugün hala varlığını sürdüren sayısız telefon menü sisteminin doğuşunu sağladı.
2000'ler
2001 yılına gelindiğinde, konuşma tanıma teknolojisi %80'e yakın doğruluğa ulaşmıştı. On yılın büyük bölümünde, Google'ın Google Voice Search lansmanına kadar çok fazla ilerleme kaydedilmedi. Bunun bir uygulama olması, konuşma tanıma teknolojisini milyonlarca insanın eline ulaştırdı. Ayrıca, işlem gücünün veri merkezlerine aktarılabilmesi açısından da önemliydi. Sadece bu da değil, Google milyarlarca aramadan veri topluyordu; bu da bir kişinin gerçekte ne söylediğini tahmin etmesine yardımcı olabiliyordu. O dönemde Google'ın İngilizce Sesli Arama Sistemi, kullanıcı aramalarından elde edilen 230 milyar kelimeyi içeriyordu.
2010'lar
2011'de Apple, Google Voice Search'e benzer olan Siri'yi piyasaya sürdü. Bu on yılın başlarında diğer ses tanıma uygulamalarında büyük bir artış görüldü. Amazon Alexa ve Google Home ile tüketicilerin makinelerle konuşmaya giderek daha fazla alıştığına şahit olduk.
Bugün, en büyük teknoloji şirketlerinden bazıları konuşma doğruluğu unvanını ele geçirmek için yarışıyor. 2016'da IBM, yüzde 6,9'luk bir kelime hata oranına ulaştı. 2017'de Microsoft, yüzde 5,9'luk bir iddiayla IBM'i geride bıraktı. Kısa süre sonra IBM oranını yüzde 5,5'e düşürdü. Ancak şu anda yüzde 4,9 ile en düşük hata oranını iddia eden Google'dır.
Geleceği konuşma tanıma
Sesli uygulamaları destekleyen teknoloji artık hem nispeten ucuz hem de güçlü. Yapay zekadaki ilerlemeler ve kolayca işlenebilen konuşma verilerinin artmasıyla, sesin bir sonraki baskın arayüz haline gelmesi çok muhtemel.
Sonix olarak, konuşma tanımayı bugünkü noktasına taşıyan bizden önceki pek çok şirkete teşekkür ederiz. Deşifre iş akışını otomatikleştiriyor, hızlı, kolay ve uygun fiyatlı hale getiriyoruz. Bizden önce yapılan bu muazzam çalışmalar olmasaydı bunu başaramazdık.
Sonix'i ücretsiz deneyin
Sonix, medya dosyalarınızı arayabilmeniz, düzenleyebilmeniz ve paylaşabilmeniz için ses ve video dosyalarınızı deşifre eder, zaman damgalarını ekler ve organize eder.
30 dakikalık ücretsiz deşifre içerir
