Proces projektowania i trenowania inteligentnego asystenta głosowego składa się z wielu faz, począwszy od wyboru płci voicebota, odpowiedniego głosu czy tonu brzmienia, poprzez personalizację bota konwersacyjnego, aż po tworzenie bazy potencjalnych pytań, właściwych odpowiedzi, możliwych zachowań i reakcji. Bot głosowy powinien charakteryzować się właściwym poziomem ludzkiej “naturalności”, tak aby rozmawiający z nim człowiek mógł zrealizować swój cel konwersacji. Równocześnie jednak, powinien on zapobiegać wywoływaniu u dzwoniącego fałszywego przekonania, że dialog odbywa się pomiędzy dwoma osobami, co mogłoby prowadzić do nieporozumień i fiaska konwersacji.
Skąd voicebot będzie wiedział, co powiedzieć lub jak zareagować?
Voiceboty wykorzystują do rozmów z ludźmi wiele zaawansowanych mechanizmów, procesów, języków i systemów, w tym uczenie maszynowe (ML), automatyczne rozpoznawanie mowy (ASR) i przetwarzanie języka naturalnego (NLU[3]). Dzięki ML i NLU inteligentny asystent głosowy rozumie naturalną mowę i odpowiada tak, jak zrobiłby to człowiek. Voicebot rozumie ludzi poprzez intencje. Wyobraźmy sobie sytuację, w której konwersacyjne AI musi zakwalifikować lead[1], który zamówił kurs języka angielskiego w szkole internetowej. Voicebot musi zrozumieć poziom aktualnej wiedzy, jaką posiada prospekt, aby przypisać go lub ją do grupy szkoleniowej. W tym celu zapyta, czy potencjalny klient uczył się wcześniej języka angielskiego, a jeśli tak, to przez ile lat. Jednak na to pytanie lead może odpowiedzieć na wiele sposobów, od “nigdy” po “no cóż, miałem kiedyś zajęcia w szkole, ale nie przykładałem się wtedy zbytnio do nauki, więc nie wiem”.
Jak inteligentny asystent głosowy może to zrozumieć? Poprzez słowa kluczowe, które wyrażają intencję, gdzie “nigdy” i “kiedyś miałem zajęcia” są jednymi z nich. Wszystkie te określenia, które człowiek może udzielić, nazywane są “frazami treningowymi”. Innymi słowy, są to przewidywane frazy, które potencjalny klient może powiedzieć. Kiedy wypowiedź użytkownika pokrywa się z intencją, którą zna voicebot, wtedy wie on, jak zareagować i co powiedzieć.
Ale skąd wiemy, co powie człowiek?
Nie wiadomo co dokładnie odpowie potencjalny klient, ale możemy to przewidzieć, bazując na społecznie skonstruowanych normach interakcji między ludźmi. A są to najczęściej spotykane zachowania, czy też wzorce zachowań, które są akceptowane lub przestrzegane przez większość społeczeństwa. Przyjrzyjmy się przykładowi z dziedziny analizy konwersacji.
– Wyobraźmy sobie sytuacje, w której jedna osoba zaprasza drugą na kawę. Wówczas, zapraszający powiedziałbym: Czy chciałabyś umówić się na kawę w przyszłym tygodniu? Ponieważ jest to zaproszenie, zapraszający oczekiwałby, że albo zaproszenia zostanie przyjęte, mówiąc, np.: “Tak, bardzo chętnie”, albo zostanie odrzucone, np. komunikując to w ten sposób: “Przykro mi, ale w przyszłym tygodniu jestem szalenie zajęty”. Tak więc, bazując na wzorcach konwersacji, gdzie po zaproszeniu następuje akceptacja lub odrzucenie, voicebot zostanie „wytrenowany”, a tak naprawdę zaprojektowany, aby rozumiał takie intencje i odpowiedzi „tak” lub „nie”. A w ich obrębie otrzymałby wiele różnych sposobów, w jaki można wyrazić akceptację i odrzucenie. Tak więc, ogólnie rzecz biorąc, projektant voicebota może przewidzieć, co człowiek może powiedzieć. – mówi Bartosz Malinowski, head of voicebot department w APIFONICA.
A co jeśli człowiek powie coś nieoczekiwanego? Zdarzają się również takie sytuacje, kiedy potencjalny klient wypowie nieprzewidzianą frazę lub zdanie. Coś, czego voicebot nie będzie w stanie rozpoznać i zrozumieć. Kiedy tak się stanie, należy pomóc człowiekowi wrócić na właściwą – zaprojektowaną, zrozumiałą dla inteligentnego asystenta głosowego, ścieżkę odpowiedzi. Można to osiągnąć, m.in. poprzez podpowiadanie użytkownikowi zwrotów związanych z obsługą sytuacji.
Integracja z najpopularniejszym AI
Siłą najlepszych voicebotów na rynku jest wykorzystanie możliwości sztucznej inteligencji (SI). AI umożliwia systemom technicznym postrzeganie ich otoczenia, radzenie sobie z tym, co postrzegają i rozwiązywanie problemów, działając w kierunku osiągnięcia określonego celu. Komputer odbiera dane już przygotowane lub zebrane za pomocą wyselektowanych czujników, np. telefonu, przetwarza je i reaguje. Systemy SI są w stanie dostosować swoje zachowanie, analizując skutki wcześniejszych działań i działając w dużej mierze autonomicznie. Dlatego też, Apofionica połączyła siły swojego voicebota, opartego na rozwiązaniu AI, z najpopularniejszym chatbotem Chat GPT[2]. A to oznacza, że teraz ten inteligentny asystent głosowy otrzymał nowe możliwości rozwoju, większą efektywność działań oraz zwiększył szybkość samodzielnego uczenia się.
– Według ostrożnych estymacji oceniamy, że integracja naszego voicebota z Chat GPT, może zwiększyć w bardzo krótkim czasie poziom zadowolenia klientów z dotychczasowych 75% do 90-95%. Pozwoli to także zmniejszyć liczbę połączeń przekazywanych agentom z obecnych 15% do 5%, zwiększając potencjał automatyzacji i efektywność przepływu pracy. Możemy również mówić o poprawie zdolności i szybkości uczenia się naszego voicebota. W przypadku naszego klienta LPP, znanego producenta odzieży, integracja pozwoliła na poprawę wyników dwukrotnie, właśnie dzięki procesowi samouczenia się voicebota. – podkreśla Bartosz Malinowski.
Trenowanie voicebotów
Proces projektowania inteligentnych asystentów głosowych obejmuje nauczenie ich, m.in. co voicebot ma powiedzieć człowiekowi, czyli o co zapytać, ale też co rozmówca może odpowiedzieć oraz w jaki sposób konwersacyjny bot ma prowadzić dialog, jak ma interpretować intencje oraz zrozumieć odpowiedzi ludzi, w jaki sposób reagować na niestandardowe sytuacje oraz kierować rozmową.
– Po zaprojektowaniu, przychodzi czas na trening. Voicebot jest już niemal gotowy do pracy, co oznacza, że zaczyna podejmować pierwsze próby prowadzenia dialogu. Jednak, na tym etapie testy są jeszcze przeprowadzane w celu wychwycenia wszelkich pomyłek, zmodyfikowania ich oraz do wprowadzenia niezbędnych korekt, jak również na dokonanie wszelkich ulepszeń technologicznych. – dodaje Bartosz Malinowski z APIFONICA.
W celu zapewnienia prawidłowego przebiegu fazy testów zostaje zaangażowany zespół testerów, który składa się z doświadczonych trenerów, ekspertów z obszaru współpracy z klientami oraz technologii konwersacyjnego AI. Testy przeprowadzane są głównie poprzez rozmowy konsultantów z konwersacyjnymi botami. W ten sposób możliwe jest wyłapanie wszystkich błędów, nawet takich które teoretycznie mogą wydawać się nieistotne, ale w szerszej perspektywie mogą mieć duży wpływ na jakość działania inteligentnego asystenta głosowego.
Czy komunikacja z voicebotem nie pogorszy doświadczenia ludzi?
Po przeprowadzeniu ponad pół miliona rozmów przez voiceboty APIFONICA z potencjalnymi klientami, dane statystyczne pokazują, że 90% osób odbiera telefon od inteligentnych asystentów głosowych, a 70% z nich odpowiada na wszystkie pytania podczas rozmowy, która trwa średnio około 4 minut. Na podstawie historii sukcesów naszych klientów, uznajemy że ludzie nie postrzegają rozmów z voicebotami za trudne lub nieprzyjemne. Według badań firmy Verint, już teraz 48% klientów czuje się komfortowo w interakcjach zarządzanych przez voiceboty, a 71% twierdzi, że chętnie skorzystałoby z takiego rozwiązania, gdyby miało to poprawić doświadczenie klienta. Poza tym, we wszystkich powyższych przypadkach użycia voiceboty kontaktują się z potencjalnymi klientami, którzy już coś zamówili i oczekują odpowiedzi od firmy. Co ważne, spodziewają się szybkiego kontaktu, najlepiej w ciągu pierwszych 5 minut.
Zatem voicebot wspiera firmy w realizacji oczekiwań i potrzeb prospektów. Dodając do tego personalizację, sztuczną inteligencję, naturalną mowę i znaczące obniżenie kosztów działań firm, mamy gotowy przepis na sukces biznesowy. W efekcie końcowym, automatyzacja działań w obszarze marketingu, obsługi klienta, rekrutacji czy komunikacji umożliwia firmom zarówno wielokanałowość, jak i efektywność, co przekłada się na wyższe przychody, a tym samym na wyższy zwrot z inwestycji w voiceboty.