Współczesne technologie rozpoznawania mowy i sztuczna inteligencja mogą zdziałać cuda. Dokładnie jak inżynierowie Techmo, którzy opracowali nowatorskie rozwiązanie pozwalające na ocenę ryzyka występowania chorób w trakcie rozmowy telefonicznej. Rozmawiamy o tym z Szymonem Pałką, CSO w firmie Techmo.
Podobno oczy to wrota do duszy, a głos jest jej przedłużeniem. Zdrowia chyba także…
To rzeczywiście trafne skojarzenie. Podobnie jak na podstawie spojrzeń i wyrazu twarzy możemy sporo dowiedzieć się o emocjach naszego rozmówcy, głos także niesie wiele mniej lub bardziej skrywanych informacji. Wszyscy rozpoznajemy przecież rozdrażnienie, smutek, radość czy sarkazm. Wiemy też, że stan zdrowia wpływa na zmiany w głosie. Brzmienie naszych wypowiedzi spowodowana przez zatkany nos to chyba najprostszy przykład tego zjawiska, chociaż oczywiście możliwy wpływ stanu zdrowia na głos się tu nie kończy. W projekcie VAMP (Voice Analysis for Medical Professionals) wspólnie z Uniwersytetem Medycznym w Białymstoku badaliśmy korelacje występowania chorób cywilizacyjnych z możliwymi do wykrycia zmianami w głosie. Otrzymane wyniki pozwoliły nam na stworzenie Techmo Diagnostics – systemu składającego się z zestawu efektywnych metod oceny ryzyka występowania wielu jednostek chorobowych wymagającego jedynie analizy nagranej wypowiedzi.
Skąd pomysł na rozwiązanie pozwalające na ocenę zdrowia człowieka w oparciu o jego głos? Wydaje się to być bardzo trudne.
Paradoksalnie, kiedy porównamy możliwości komputerów i ludzi okazuje się, że zadania, które człowiekowi przychodzą z łatwością, dla komputerów są prawie niewykonalne i odwrotnie. Technologia wyręcza nas w sytuacjach, które kiedyś sprawiały nam dużą trudność. Wielu z nas pamięta wycieczki nawigowane za pomocą papierowych map oraz kłótnie rodziców po minięciu odpowiedniego skrętu podczas wakacyjnego wyjazdu. Dzisiaj w tym aspekcie wyręcza nas GPS. Oczywiście stworzenie odpowiednich systemów nie było możliwe z dnia na dzień. Wymagało to rozwiązania wielu skomplikowanych problemów, lat rozwoju prototypów, budowy infrastruktury, testowania itp. Podobnie jest w przypadku rozpoznawania chorób na podstawie głosu. Sama idea pochodzi od lekarzy, którzy podkreślają, że wstępną diagnozę niektórych dolegliwości (np. związanych z funkcjonowaniem tarczycy) są w stanie postawić już na podstawie pierwszych słów wypowiedzianych przez pacjenta. Negatywny wypływ chorób na trakt głosowy, wykorzystywane słownictwo czy sposób wypowiadania się jest znany medycynie. Wyzwaniem było ustalenie, które z tych zmian jesteśmy w stanie wykryć analizując nagrania ludzkiego głosu. Możliwość przeprowadzenia prac badawczo-rozwojowych w tym kierunku zawdzięczamy oczywiście wsparciu Unii Europejskiej i Narodowego Centrum Badań i Rozwoju, które dofinansowało projekt.
Trafność diagnozy w oparciu o technologię VAMP sięga 75%. Wydaje się to dość dobrym wynikiem, a biorąc pod uwagę trudność w pozyskaniu próbek głosu – powiedziałbym, że zakrawającym na cud. Dlaczego tak trudno jest zebrać takie próbki, by móc skutecznie przeprowadzać diagnostykę w oparciu o głos chorego?
Techmo Diagnostics stworzyliśmy w oparciu o uczenie maszynowe, będące podstawą nowoczesnych systemów wspomagających działania człowieka – tzw. sztucznej inteligencji. Upraszczając, tworzenie tego typu oprogramowania możemy porównać do nauki w szkole. Pełne przyswojenie materiału wymaga godzin powtarzania i odświeżania informacji. Dobrym przykładem jak nauka matematyki, gdzie po poznaniu wzoru rozwiązujemy wiele zadań wymagających jego zastosowania o różnym poziomie skomplikowania. Podobnie w naszym przypadku wymagało to zbudowania odpowiednio dużego zasobu nagrań wraz z klasyfikacją pod kątem występowania danych jednostek chorobowych. Analizując zebrane dane, weryfikowaliśmy wiele hipotez i konfiguracji modeli, co wymagało czasu i dużej mocy obliczeniowej. Ściśle współpracowaliśmy z lekarzami weryfikując poprawność uzyskanych wyników. Nasz konsorcjant – Uniwersytet Medyczny w Białymstoku budował zbiory danych. Było to skomplikowane przedsięwzięcie, wymagające wyszukiwania ochotników, nagrywania próbek ich głosu, przeprowadzania szeregu badań oraz dogłębnej analizy ich wyników. Wykonanie kompletnego pakietu badań dla jednej osoby trwało cały dzień, ale dzięki temu otrzymywała ona pełny „przegląd” stanu zdrowia. To właśnie skomplikowana logistyka i koszt badań powodują, że zebrane dane są cenne i trudno osiągalne.
Pokazaliście że technologia działa, a zakres jej komercyjnego zastosowania jest ogromny. Sukces na pewno będzie wymagał sporego nakładu pracy z Waszej strony. Można sobie wyobrazić, że wstępna diagnoza pacjenta będzie się odbywała już podczas umawiania wizyty lekarskiej w przychodni. Taki jest cel?
Dokładnie tak! Wstępna analiza stanu zdrowia podczas umawiania wizyty lekarskiej, czy prosta aplikacja na telefonie komórkowym to naturalne możliwości zastosowania Techmo Diagnostics. Nasza technologia może być także wykorzystywana do często powtarzanych i niewymagających dużego zaangażowania badań przesiewowych. Oczywiście nie mamy i nigdy nie mieliśmy aspiracji, aby zastąpiła ona wizyty lekarskie. Jest wręcz odwrotnie – naszym założeniem jest promowanie zdrowego stylu życia i skłanianie do badań zgodnie z zaleceniami lekarzy. System pomoże wykrywać zmiany chorobowe wcześniej i uzupełnić dostępne aktualnie możliwości diagnozy.
Szymon Pałka – Od ponad 5 lat zajmuje się obszarem badań prowadzonych przez Techmo. Projektuje systemy, architektury, algorytmy, eksperymenty. Dba o to, żeby pomysł przerodził się w realny system, nieważne czy jest to symulacja dźwięku czy oprogramowanie do wykrywania zmian chorobowych w głosie. Jest informatykiem z dekadą doświadczenia, członkiem zarządu i CSO Techmo. To także laureat “HiPEAC Tech Transfer Award” za transfer technologii wirtualizacji dźwięku – “Realtime simulation of sound propagation in 3D environment”.