Firma Microsoft ogłosiła w miniony czwartek, że wprowadza nowe funkcje zabezpieczające do Azure AI Studio. Nowe rozwiązanie umożliwia programistom tworzenie spersonalizowanych asystentów AI z wykorzystaniem własnych danych. Ale jest jedno ale…
Wprowadzone narzędzia obejmują „tarcze poleceń”, które mają na celu wykrywanie i blokowanie celowych prób – znanych jako ataki iniekcji poleceń lub jailbreaki – mających na celu skłonienie modelu AI do działania w niezamierzony sposób. Microsoft zajmuje się również „pośrednimi iniekcjami poleceń”, kiedy to hakerzy wprowadzają szkodliwe instrukcje do danych, na których szkolony jest model, i skłaniają go do wykonania takich nieautoryzowanych działań, jak kradzież informacji użytkownika czy przejęcie kontroli nad systemem.
– Ataki te stanowią „unikalne wyzwanie i zagrożenie – jak stwierdziła Sarah Bird, główna dyrektor produktu ds. odpowiedzialnej AI w Microsoft – Nowe mechanizmy obronne mają za zadanie wykrywać podejrzane wejścia i blokować je w czasie rzeczywistym. Microsoft wprowadza również funkcję, która informuje użytkowników, kiedy model generuje nieprawdziwe lub błędne odpowiedzi.
Microsoft stara się zwiększyć zaufanie do swoich narzędzi AI generatywnego, które są obecnie wykorzystywane zarówno przez konsumentów, jak i klientów korporacyjnych. W lutym firma zbadała incydenty związane z jej chatbotem Copilot, który generował odpowiedzi mieszczące się w zakresie od dziwnych do szkodliwych. Po przeglądzie incydentów Microsoft stwierdził, że użytkownicy celowo próbowali oszukać Copilota, aby generował takie odpowiedzi.
– Z pewnością obserwujemy wzrost takich zachowań w miarę, jak narzędzia są coraz częściej używane, ale także w miarę, jak więcej osób zdaje sobie sprawę z tych różnych technik – powiedziała Bird. – Oznaki takich ataków obejmują zadawanie chatbotowi pytania wielokrotnie lub polecenia opisujące role-playing.
Microsoft jest największym inwestorem OpenAI i traktuje to partnerstwo jako kluczowy elementem swojej strategii AI. Bird stwierdziła, że Microsoft i OpenAI są zaangażowani w bezpieczne wdrażanie AI i budowanie zabezpieczeń w dużych modelach językowych leżących u podstaw AI generatywnego.
– Jednak nie można polegać wyłącznie na modelu – dodała Bird – Te jailbreaki są wrodzoną słabością technologii modeli generatywnej AI.