Automatic Speech Recognition
ASR, Speech-to-Text, STT
Definicja
Technologia umożliwiająca systemom komputerowym zamianę mowy ludzkiej (sygnału audio) na tekst pisany w czasie rzeczywistym. W uproszczeniu są to „uszy” sztucznej inteligencji. Algorytmy ASR analizują fale dźwiękowe, rozbijają je na fonemy (najmniejsze jednostki dźwięku), a następnie, korzystając z modeli akustycznych i językowych, dopasowują je do znanych słów, tworząc ciągły tekst.
W środowisku biznesowym ASR jest fundamentem nowoczesnych Contact Center. To dzięki niemu voiceboty mogą „zrozumieć”, co mówi do nich dzwoniący klient, zamiast zmuszać go do wybierania cyfr na klawiaturze. Ponadto ASR jest niezbędny w procesie Speech Analytics – pozwala masowo transkrybować tysiące godzin nagrań rozmów na tekst, który następnie można łatwo przeszukiwać (np. pod kątem występowania wulgaryzmów, nazw konkurencji czy słów wskazujących na chęć rezygnacji).
Kluczowym wskaźnikiem oceny jakości systemów ASR jest WER (Word Error Rate), czyli współczynnik błędnie rozpoznanych słów. Nowoczesne silniki, wspierane przez głębokie uczenie maszynowe (Deep Learning), radzą sobie coraz lepiej z wyzwaniami takimi jak hałas w tle, niewyraźna dykcja, akcenty regionalne czy specyficzny żargon branżowy, zbliżając się do poziomu rozumienia człowieka.