W czasach, gdy zabawka Speak & Spell z 1978 roku zachwycała możliwością elektronicznego odczytywania słów, współczesne modele AI potrafią nie tylko tworzyć realistycznie brzmiące głosy, ale również przekonująco imitować istniejące głosy, używając małych próbek dźwięku.
W swoim najnowszym projekcie, zatytułowanym Voice Engine, OpenAI wprowadza model AI do tworzenia syntetycznych głosów na podstawie zaledwie 15-sekundowego fragmentu nagrania audio.
Jednak OpenAI, mimo demonstracji możliwości Voice Engine na swojej stronie internetowej, postanowiło na razie wstrzymać się z szeroką publikacją tej technologii. Firma pierwotnie planowała uruchomić program pilotażowy dla programistów, ale po dodatkowym zastanowieniu nad etycznymi implikacjami, zdecydowała się na razie ograniczyć swoje ambicje.
“Zgodnie z naszym podejściem do bezpieczeństwa AI i naszymi dobrowolnymi zobowiązaniami, wybieramy pokazanie, ale nie szerokie wydanie tej technologii w tym czasie” – pisze firma. Wskazuje to na świadomość potencjalnych zagrożeń, jakie niesie za sobą możliwość klonowania głosu.
Technologia klonowania głosu nie jest nowością, ale fakt, że OpenAI zbliża się do umożliwienia korzystania z jej technologii głosowej, jest godny uwagi. Pomimo korzyści, takich jak pomoc w czytaniu za pomocą naturalnie brzmiących głosów czy wsparcie dla osób niemówiących poprzez personalizowane opcje mowy, technologia ta rodzi poważne obawy związane z potencjalnym nadużyciem.
Możliwość klonowania głosu na podstawie 15 sekund nagrania może prowadzić do niebezpiecznych sytuacji, takich jak oszustwa telefoniczne czy włamania do kont bankowych zabezpieczonych autoryzacją głosową. Świadomość tych zagrożeń skłoniła amerykańskiego senatora Sherroda Browna z Ohio do złożenia oficjalnych zapytań w głównych amerykańskich bankach o środki bezpieczeństwa wobec ryzyka związanego z AI.
W odpowiedzi na te wyzwania, OpenAI wprowadza środki ostrożności, takie jak wymaganie zgody na klonowanie głosu oraz wodne znaki mające pomóc w śledzeniu pochodzenia syntetycznych głosów. Firma próbuje też zainicjować dialog na temat odpowiedzialnego wdrażania syntetycznych głosów i adaptacji społeczeństwa do tych nowych możliwości.
OpenAI sugeruje również zmiany, które powinny zajść w społeczeństwie, aby dostosować się do nowej technologii, w tym eliminację autentykacji głosowej w bankowości, edukację publiczną na temat możliwości oszustw AI oraz rozwój technik umożliwiających śledzenie pochodzenia treści audio. Podkreśla to, jak ważne jest zrównoważone podejście do rozwoju i wdrażania innowacyjnych technologii, które, choć obiecujące, mogą również przynieść nowe wyzwania.