Apple ujawnia nowe narzędzie AI: Keyframer

Badacze z Apple przedstawili nowe narzędzie AI o nazwie „Keyframer”, które wykorzystuje potęgę dużych modeli językowych (LLM) do animowania statycznych obrazów za pomocą poleceń w języku naturalnym.

Narzędzie to, opisane w nowo opublikowanym artykule badawczym na arxiv.org, stanowi znaczący krok naprzód w integracji sztucznej inteligencji z procesem twórczym i może zwiastować to, co przyniosą nowe generacje produktów Apple – takich jak iPad Pro czy Vision Pro.

Artykuł, zatytułowany „Keyframer: Empowering Animation Design using Large Language Models”, bada niezbadane dotąd obszary zastosowania LLM w przemyśle animacyjnym, prezentując unikalne wyzwania, takie jak skuteczne opisywanie ruchu w języku naturalnym.

Wyobraź sobie: jesteś animatorem z pomysłem, który chcesz zbadać. Masz statyczne obrazy i historię do opowiedzenia, ale perspektywa wielogodzinnej pracy nad iPadem, aby tchnąć życie w swoje kreacje, jest… wyczerpująca. Tu z pomocą przychodzi Keyframer. Za pomocą kilku zdań te obrazy mogą zacząć tańczyć na ekranie, jakby czytały twoje myśli. Albo raczej, jakby czytały myśli dużych modeli językowych (LLM) Apple.

Jak „Keyframer” usprawnia proces animacji dzięki informacjom zwrotnym użytkownika

Keyframer napędzany dużym modelem językowym (w badaniu wykorzystano GPT[1]-4), mogącym generować kod animacji CSS ze statycznego obrazu SVG i polecenia tekstowego. „Duże modele językowe mają potencjał wpłynąć na szeroki zakres dziedzin kreatywnych, ale zastosowanie LLM do animacji jest mało zbadane i stawia nowe wyzwania, takie jak sposób, w jaki użytkownicy mogą skutecznie opisywać ruch w języku naturalnym” – wyjaśniają badacze.

Aby stworzyć animację, użytkownik po prostu przesyła obraz SVG, wpisuje tekstowe polecenie, takie jak „Spraw, by chmury powoli dryfowały w lewo”, a Keyframer wygeneruje kod, który umożliwi taką animację. Użytkownicy mogą następnie doprecyzować animację, edytując bezpośrednio kod CSS lub dodając nowe polecenia w języku naturalnym.

Zgodnie z artykułem „Keyframer wspiera eksplorację i doprecyzowanie animacji poprzez kombinację poleceń i bezpośredniej edycji wygenerowanego wyniku”. To podejście zorientowane na użytkownika zostało poprzedzone serią wywiadów z profesjonalnymi projektantami animacji i inżynierami, którzy dostarczyli informacji zwrotnych na temat narzędzia badawczego, wszyscy podkreślając znaczenie tego iteracyjnego projektu i kreatywność twórców.

Myślę, że to było znacznie szybsze niż wiele rzeczy, które robiłem… Myślę, że zrobienie czegoś takiego wcześniej zajęłoby godziny” powiedział jeden z uczestników badania, z którym przeprowadzono wywiad.

Proces generowania kodu CSS do animacji grafiki wektorowej SVG
Przykład kolejnych klatek animacji, które zostały stworzone przez Keyframera z wykorzystaniem poleceń pisanych w języku naturalnym.

Rozszerzanie horyzontów dużych modeli językowych

Badacze odkryli, że większość użytkowników stosowała metody iteracyjne – czyli zdekomponowane podejście do formułowania poleceń, które pozwala na dodawanie nowych promptów do animowania poszczególnych elementów jeden po drugim.

Keyframer umożliwił użytkownikom iteracyjne doprecyzowanie ich projektów poprzez sekwencyjne formułowanie poleceń, zamiast opisywać całość projektu w jednym poleceniu (prompt)” – wyjaśniają badacze w artykule. Natomiast funkcja bezpośredniej edycji kodu umożliwiły użytkownikom dalsze, samodzielne kontrolowanie animowanych scen.

Chociaż narzędzia AI do animacji mają potencjał demokratyzowania projektowania, badacze przyznają, że istnieją obawy dotyczące utraty kontroli kreatywnej i satysfakcji. Ale łącząc formułowanie poleceń z edycją, Keyframer ma na celu zapewnienie dostępnego prototypowania, jednocześnie zachowując autonomię użytkownika.

Poprzez tę pracę mamy nadzieję zainspirować przyszłe narzędzia do projektowania animacji, które łączą potężne możliwości generatywne LLM, aby przyspieszyć prototypowanie projektu z dynamicznymi edytorami, które umożliwiają twórcom utrzymanie kontroli kreatywnej” kończą badacze.

Większe wpływy „Keyframer” w branżach kreatywnych

Keyframer obiecuje przekształcić krajobraz animacji, czyniąc go bardziej dostępnym dla szerokiego spektrum twórców. Keyframer oferuje nieekspertom możliwość ożywienia historii za pomocą animacji – zadanie, które kiedyś wymagało znacznych umiejętności technicznych i zasobów, dzisiaj wystarczy proste w obsłudze narzędzie, jakim jest Keyframer. Jest to świadectwo rosnącej roli AI jako siły współpracującej w procesie twórczym, sugerujące zmianę w sposobie wykorzystania technologii w różnych sektorach.

Implikacje Keyframera sięgają przewidywanej zmiany kulturowej, gdzie AI staje się bardziej intuicyjną i integralną częścią ludzkiego doświadczenia kreatywnego. To nie tylko technologiczny skok, ale potencjalny katalizator do przemyślenia samej tkanki naszej interakcji z cyfrowym światem. Ruch Apple z Keyframerem może być zapowiedzią nowej ery, w której granice między twórcą a kreacją stają się coraz bardziej płynne, kierowane niewidzialną ręką sztucznej inteligencji. A z drugiej strony – zamiast języka komend znanego z wykorzystywanych w wielu krajach, w tym w Polsce komend, zostanie zastąpionych językiem naturalnym, który używamy w codziennej komunikacji.

Słownik
1. GPT. (inaczej Generative Pretrained Transformer) rodzaj modelu językowego opracowanego przez OpenAI. Model GPT jest oparty na architekturze Transformer, która…
Add a comment

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *