W miarę jak sztuczna inteligencja (AI) staje się coraz bardziej zaawansowana, rośnie również ryzyko związane z jej niekontrolowanym działaniem. Problemem, z którym mierzą się twórcy modeli językowych, jest zapewnienie, że AI nie wygeneruje treści niebezpiecznych, szkodliwych czy budzących niepokój. OpenAI, lider w dziedzinie badań nad sztuczną inteligencją, zaprezentował nową metodę treningową – „deliberative alignment” (uzgodnienie deliberatywne), która ma na celu pogodzenie bezpieczeństwa i funkcjonalności bez wprowadzania nadmiernej cenzury.

Skąd problem z moralnością AI?

Modele AI, takie jak ChatGPT, uczą się na ogromnych zbiorach danych, które zawierają zarówno treści etyczne, jak i te kontrowersyjne. Choć AI jest w stanie wygenerować odpowiedzi na niemal każde pytanie, nie posiada moralnych hamulców ani zdolności do samodzielnej oceny etycznej. W przeszłości prowadziło to do sytuacji, w których modele generowały instrukcje budowy broni, tworzyły złośliwy kod lub poruszały tematy polityczne w sposób stronniczy. Aby uniknąć takich scenariuszy, firmy technologiczne wdrażały mechanizmy prewencyjne, często oskarżane o nadmierną cenzurę.

Deliberative alignment – jak to działa?

Nowa metoda OpenAI ma na celu nauczenie AI „myślenia” o zasadach etycznych i prawnych przed udzieleniem odpowiedzi, podobnie jak człowiek rozważa zasady i normy społeczne przed opublikowaniem treści w mediach społecznościowych.

  1. Supervised Fine-Tuning (SFT)
    Na pierwszym etapie nauczania AI uczy się na przykładach dostarczonych przez naukowców. Każde zapytanie użytkownika jest analizowane przez model, który przechodzi przez proces myślowy (zwany „łańcuchem myśli”). Proces ten obejmuje zrozumienie zasad bezpieczeństwa i ich zastosowanie w odpowiedzi. W miarę postępów AI stopniowo uczy się samodzielnego łączenia treści zapytań z odpowiednimi zasadami bezpieczeństwa.
  2. Reinforcement Learning (RL)
    Na drugim etapie AI jest oceniana przez inny model AI, pełniący rolę „sędziego”. Sędzia posiada dostęp do zasad bezpieczeństwa i ocenia odpowiedzi modelu, nagradzając te poprawne i karząc błędne. Co istotne, sędzia nie analizuje procesu myślowego modelu, skupiając się wyłącznie na wynikowych odpowiedziach.

Bezpośrednie nauczanie zasad zamiast cenzury

Tradycyjne metody treningu AI często opierały się na przykładach odpowiedzi oznaczonych przez ludzi jako „dobre” lub „złe”. Takie podejście prowadziło do nieuniknionej cenzury – AI uczyła się dostarczać odpowiedzi preferowane przez twórców, a niekoniecznie zgodne z neutralnymi zasadami bezpieczeństwa. W metodzie uzgodnienia deliberatywnego AI uczy się bezpośrednio z zasad, zamiast kopiować konkretne odpowiedzi.

Przyszłość AI – bezpieczna i użyteczna

OpenAI podkreśla, że metoda deliberatywnego dopasowania pozwala lepiej wyznaczyć granice pomiędzy zgodnością z zasadami, odmową odpowiedzi a bezpiecznym zakończeniem interakcji z użytkownikiem. Zdaniem naukowców z OpenAI, takie podejście może prowadzić do powstania modeli AI, które są nie tylko bardziej bezpieczne, ale także bardziej pomocne i elastyczne w działaniu.

Podsumowanie

Metoda „deliberative alignment” to krok milowy w rozwoju sztucznej inteligencji. Jej główną zaletą jest umiejętność balansowania pomiędzy bezpieczeństwem a funkcjonalnością, bez popadania w nadmierną cenzurę. OpenAI przewiduje, że zasady i metody treningowe będą ewoluować wraz z technologią, jednak już teraz uzgodnienie deliberatywne stanowi solidny fundament dla przyszłych, bardziej zaawansowanych modeli AI.