Nors kompiuterių gebėjimas atpažinti ir perteikti žmonių kalbą vis dar besivystantis procesas, Gizmodo.com siūlo susipažinti su septyniais pagrindiniais žingsniais, kuriuos kompiuteris turi įgyvendinti siekiant suvokti ir perteikti žmogaus kalbą.
1. Oro molekulių judėjimas perteikiamas skaičiais.
Garsas į mikrofoną patenka po oro slėgio pokyčių, besitęsiančios garso bangos. Kompiuteris įrašo garso bangos įvertinimą, išsaugo jį ir dar sykį įvertina. Jeigu tarp dviejų matavimų atsiranda pernelyg ilgas laiko tarpas, neužfiksuojami svarbūs garso bangos pokyčiai. Siekiant gauti tinkamą garso bangos įvertinimą, kompiuteris garsą turi įvertinti bent 8000 kartų per sekundę nors visavertis veikimas reikalauja kiek daugiau nei 40000 tūkstančių per vieną sekundę.
2. Atpažinimas, kurie iš šių garsų turi žmonių kalbos požymių
Atlikdamas pirmajame žingsnyje nurodytus garso įvertinimus, kompiuteris dar negali nustatyti, kurie iš sukeltų garsų yra žmogaus kalbėjimo padariniai. Daugybė matematinių procesų įgalina kompiuterį atpažinti, kurie iš garsų neatitinka žmogiškos kalbos požymių.
3. Garso bangų, leidžiančių atpažinti žmogaus kalbą, išskyrimas
Kalbėjimo sukeliamos garso bangos iš tikrųjų yra daugybės skirtingais dažniais pasireiškiančių garso bangų mišinys. Skirtingi garsų dažniai yra vienas iš svarbiausių veiksnių. Matematinės operacijos leidžia leidžia perteikti garso bangas pagrindinius požymius iliustruojančia statistika.
4.Anglų kalboje egzistuoja 40 garsinių kalbos elementų, kitaip vadinamų fonemomis. Kompiuteriai yra užprogramuoti atskirti skirtingus kalbos elementus. Visgi tai, kad fonemos pasižymi skirtingomis savybėmis ir, apskritai, didelę įtaką daro skirtingi žmonių akcentai, kompiuteriui tenka itin sudėtingas darbas: siekiant atskirti konkretų žodį, kompiuteris privalo turėti atskirą modelį kiekvienai fonemai ir pritaikyti juos skirtingoms situacijoms.
5.Žodžių spėjimas
Kompiuteris turi milžinišką žodžių sąrašą ir skirtingas versijas, kuriomis jis gali būti ištartas. Atliekamas savotiškas sugrupavimas, išskiriant fonemas atitinkančių žodžių grupę.
6. Labiausiai tikėtinos žodžių sekos nustatymas.
Kompiuteris pritaiko modelius dėl žodžių sekos tinkamumo – nustatoma kuri žodžių seka yra tinkamiausia.
7. Įgyvendinimas.
Turbūt visi, kuriems teko naudotis kalbos atpažinimo programomins, žino, kad klaidos yra neišvengiama proceso dalis. Netgi statistikos ir matematinių modelių pritaikymas kartais neleidžia atskirti itin panašių frazių, tačiau reikia pripažinti, kad pats kompiuterio gebėjimas „iš oro“ atpažiniti ir perteikti žmogaus kalbą yra įspūdingas.