Connect with us

Analiza mowy w Contact Center (ASR)

SYSTEMY CC

Analiza mowy w Contact Center (ASR)

Rozpoznawanie ludzkiej mowy było – i w wielu przypadkach nadal jest – sporym wyzwaniem. Jednak ASR (Automatic Speech Recognition) zaimplementowano już z powodzeniem w tak wielu produktach i usługach, że trudno zliczyć wszystkie wdrożenia. Czym jest więc ASR w kontekście, który interesuje nas najbardziej, czyli procesów obsługi klienta? Czy stanie się „must have” każdego contact center?

ASR jest mechanizmem, który rozpoznaje mowę, a następnie interpretuje wypowiadane słowa lub liczby. Paradoksalnie technologia ta najczęściej służy nam do przetwarzania automatycznego dokumentów mówionych w pisane z poziomu dyktafonu w smartfonach.

W obsłudze klienta ASR wykorzystuje się natomiast głównie do zapowiedzi głosowych IVR, gdzie klient zamiast wybierania opcji menu w IVR za pomocą klawiatury telefonu (DTMF), może je po prostu wypowiedzieć do słuchawki, sterując głosowo IVR. Praktyka wskazuje, że tworzy to wśród odbiorców usługi – konsumentów – dość unikalne możliwości, a jednocześnie pozwala uniknąć wielu błędów w porównaniu z tradycyjnym wybieraniem opcji z klawiatury telefonu.

Nie należy zapominać, że ASR to mimo wszystko pierwotna forma analizy mowy. Algorytm tworzy cyfrowy obraz (zapis) fali dźwiękowej, na podstawie której wyodrębniane są pojedyncze słowa, cyfry, pauzy i inne elementy typowe dla języka mówionego. Za każdym razem cyfrowy zapis fali dźwiękowej jest porównywany z próbkami znajdującymi się w bazach sytemu.

Do analizy porównań próbek często wykorzystywane są trzy typy mechanizmów:

Phonetic Speech Analytics (PSA)
To najszybsze rozwiązanie przetwarzania mowy ludzkiej, które rozpoznaje jedynie podstawowe fonemy (jednostki mowy typowe dla danego języka). Metoda ta wymaga jednak znacznych zasobów systemowych. Rozmiar wykorzystywanych słowników jest nadal niewielki. W każdym języku istnieje maksymalnie kilkadziesiąt unikalnych fonemów, które są porównywane z otrzymanymi danymi. Metoda ta stosowana jest często w aplikacjach wyszukiwania na podstawie mowy.

Direct Phrase Recognition (DPR)
Metoda DPR (Direct Phrase Recognition) w bezpośredni sposób analizuje mowę w poszukiwaniu określonych fraz predefiniowanych przez architektów systemu jako istotnych dla danego zastosowania. Metoda ta w związku z niewielkim zakresem analizy jest bardzo wydajna i precyzyjna.

Large-vocabulary Continuous Speech Recognition (LVCSR)
Mechanizm LVCSR jest najwolniejszym procesem analizy mowy, gdyż wymaga rozbudowanego zestawu słów (słowników), które są porównywane z danymi wejściowymi. Niewątpliwą zaletą tego mechanizmu jest jednak – paradoksalnie – szybsza, niż metoda analizy fonemów (PSA), możliwość analizy mowy. Problemem jest jednak znacznie większy wskaźnik błędów. System nie rozpozna nieznanych dla siebie słów lub słów błędnie wypowiedzianych. To oznacza, że architekci muszą tak zaprojektować słowniki, aby zawierały one również błędnie wypowiedziane słowa. A dźwięk w tej metodzie jest poddawany przez algorytmy znacznie dłuższej analizie niż w poprzednio przedstawionych. Niemniej jednak mechanizm ten jest wykorzystywany bardzo często przez aplikacje biznesowe, które zawierają w sobie pewien poziom sztucznej inteligencji.

Wybór którejkolwiek metody musi być poprzedzony analizą potrzeb oraz oczekiwanych rezultatów.

ASR w obsłudze klienta

Technologia ASR bardzo często stosowana jest w mało rozbudowanych systemach rozpoznawania mowy, zaimplementowanych w systemach contact center. Potrafi rozpoznać słowa „TAK” lub „NIE” czy wypowiadane CYFRY. Dzięki temu telefonujący klient może przejść przez zapowiedzi IVR bez tonowego wybierania opcji. Co warte podkreślenia – w przypadku ASR – możemy całkowicie wyeliminować pomyłki w danych wprowadzanych przez użytkowników. System ASR albo poprawnie rozpozna słowo, albo je odrzuci

Zaawansowane systemy ASR pozwalają wprowadzić bardziej bezpośrednie zapytania lub odpowiedzi – na przykład pytanie o status przesyłki czy adres najbliższego oddziału firmy. Jednak ilość możliwych opcji wyboru jest ograniczona przez architektów systemu.

Niewątpliwą korzyścią w przypadku zastosowania ASR jest skrócenie czasu obsługi, mniejsza podatność na błędy użytkowników oraz – w pewnych przypadkach (np. zastosowanie ASR do biometrii głosowej lub zastosowanie systemów automatyzujących obsługę klienta). Niektórzy eksperci branży contact center podnoszą jeszcze jeden argument. ASR pozwala zredukować koszty prowadzenia biznesu. Jak? Konsultanci są wyręczani przez systemy automatyzujące oparte o ASR. Dobrym przykładem jest chociażby polska infolinia – Automatyczna Informacja Lotniskowa na lotnisku im. Lecha Wałęsy w Gdańsku.

Technologie ASR ewoluują. Nie zawsze systemy radzą sobie z rozpoznawaniem mowy osób ze specyficznym akcentowaniem, dialektem czy wadami mowy. ASR mają też spory problem z interpretacją liczb (z cyframi z lepszym lub gorszym skutkiem sobie radzą). Bardzo często też systemy te nie są w stanie poradzić sobie z obsługą osób często wtrącających do wypowiedzi obcojęzyczne słowa. Również jakość połączenia telefonicznego może mieć wpływ na poprawną interpretację mowy.

Niemniej ASR to już bardzo bliska przyszłość obsługi klienta, która tak chętnie romansuje z robotyzacją i automatyzacją. Nie ulega wątpliwości, że na jej popularyzację mają też wpływ coraz niższe koszty wdrożenia. O ile jeszcze 3 lata temu mówiliśmy o setkach tysięcy, a nawet milionach złotych – dzisiaj z taką inwestycją możemy zamknąć się w kwocie poniżej 100 tys. zł. W części systemów contact center moduł ASR jest już wbudowanym standardem. Pytanie tylko – kiedy ASR stanie się standardem w naszych firmach. Ale to zależy już od nas samych…

PAWEŁ RZESIOWSKI
dyrektor handlowy w Altar Sp. z o.o.

 – Z uwagą obserwujemy trendy na rynku contact center. Jednym z nich jest niewątpliwie rozpoznawanie mowy. Dużo się ostatnio mówi na ten temat, stąd klienci z zaciekawieniem pytają nas o ASR – mówi Paweł Rzesiowski, dyrektor handlowy w spółce Altar. – Jako dostawca systemu contact center widzimy trzy główne obszary wykorzystania ASR w obsłudze klienta. Pierwszy z nich to IVR z ASR, w którym klient wybiera głosowo opcje w menu. Takie „spłaszczenie” struktury drzewa IVR skraca czas obsługi i znacznie ją usprawnia. Aktualnie realizujemy takie wdrożenie u naszego klienta w branży finansowej.

Kolejne obszary wykorzystania ASR, bardziej narzędziowe, związane są z rozszerzeniem funkcjonalnym systemu contact center  – usprawnieniem kontroli jakości obsługi i analizą nagrań. Mam tu na myśli wykorzystanie ASR do pełnej transkrypcji rozmowy, co znacznie przyspiesza wyszukiwanie rozmów po tematach oraz wyszukiwanie fraz i słów kluczowych, będących podstawą do naboru rozmów do odsłuchu w Quality Management.

Redakcja

CCNEWS.pl to jedyny specjalistyczny newsowo-publicystyczny wortal internetowy w Polsce w całości poświęcony zagadnieniom związanym z obsługą klienta, customer services, omnichannel, customer experience i technologiom wykorzystywanym przez centra obsługi klienta. Informuje, edukuje i komentuje aktualne trendy i wydarzenia na Polskim rynku CC. Od 14 lat dostarcza wartościową wiedzę o polskim rynku CC i BPO. Zdaniem niezależnych instytutów badawczych: Instytut Monitorowania Mediów oraz Press Service Monitoring Mediów jesteśmy najchętniej czytanym i najbardziej angażującym swoich czytelników portalem branżowym (branży customer care) w Polsce.

Skomentuj

POPULARNE