Pora zacząć zabezpieczać generatywną sztuczną inteligencję przed cyberprzestępcami

16 listopada 2023

Każdego miesiąca, z usług ChatGPT korzysta 180 milionów użytkowników. Do tego, w tym roku na rynku zadebiutowały Google Bard czy wtyczka Microsoft Bing, które również cieszą się rosnącą popularnością. Napędzane generatywną AI narzędzia stały się cennym wsparciem dla twórców, architektów systemów i programistów. Jednak, ich użytkowanie wiąże się z pewnymi ukrytymi ryzykami. Eksperci F5 opisali podatności na ataki cybernetyczne, z którymi mierzą się operatorzy usług AI.

Z perspektywy przedsiębiorstw i dostawców usług cyfrowych, rozwój narzędzi wykorzystujących uczenie maszynowe obejmuje kilka kluczowych zasobów, które przyczyniają się do ich funkcjonalności i skuteczności. Mówimy tutaj między innymi o infrastrukturze, a także o danych treningowych, modelach sztucznej inteligencji i pakietach danych wyjściowych generowanych przez wspomniane modele. Zabezpieczenie wszystkich tych czynników ma kluczowe znaczenie dla przyszłych użytkowników aplikacji i narzędzi cyfrowych. Wbrew pozorom, infrastruktura to nie tylko serwery, procesory graficzne do obliczeń oraz frameworki, ale także interfejsy cyfrowe, które dostarczają wyniki generowane przez sztuczną inteligencję użytkownikom końcowym. Niezawodna, wydajna i bezpieczna infrastruktura ma kluczowe znaczenie dla umożliwienia tworzenia zaawansowanych generatywnych modeli sztucznej inteligencji.

Podatności infrastruktury uderzają w działanie narządzi AI

Jednym z ważniejszych zagrożeń, które należy wziąć pod uwagę, są ataki DoS (czyli Denial of Services, tzw. odmowa usługi), w których awarie sprzętu, usterki oprogramowania lub przerwy w sieci mogą znacząco wpłynąć na działanie generatywnych modeli sztucznej inteligencji. Tego typu ataki mogą skutkować niedostępnością usług, potencjalną utratą ważnych informacji i zagrozić zdolności modelu do uczenia się, generowania danych wyjściowych lub łączenia się z innymi systemami. Aby przeciwdziałać potencjalnym DoS-om, kluczowe jest budowanie nadwyżek hardware i software w całym systemie, takich jak serwery zapasowe i protokoły odporne na awarie, w celu zapewnienia stałej dostępności. Innymi słowy warto mieć koło ratunkowe. Regularne aktualizowanie komponentów oprogramowania i urządzeń sprzętowych może również pomóc w zapobieganiu lukom w zabezpieczeniach. Ponadto stałe monitorowanie wydajności i przepustowości systemu umożliwia wczesne wykrywanie i szybkie rozwiązywanie problemów

– Włamania do infrastruktury systemu mogą prowadzić do złośliwych działań, takich jak kradzież danych, zakłócenie działania usług lub wprowadzenie złośliwego kodu. Kluczowe znaczenie ma wieloaspektowe podejście do bezpieczeństwa. Powinno ono obejmować solidne protokoły uwierzytelniania, proaktywne zarządzanie lukami w zabezpieczeniach, w tym regularne aktualizacje oprogramowania. Powinniśmy pamiętać też o ciągłym monitorowaniu w celu wczesnego wykrywania, zapobiegania próbom włamań i dobrze sformułowaną strategię reagowania na incydenty – wyjaśnia Bartłomiej Anszperger, Solution Engineering Menadżer F5 w Polsce.

Bezpieczeństwo danych na cenzurowanym

Jakość i powtarzalność pakietów treningowych mają bezpośredni wpływ na generatywne modele sztucznej inteligencji. Dochodzi do tego ryzyko związane z zatruciem zasobów szkoleniowych, a także kwestie, w których występuje nadmierne poleganie na treściach generowanych przez duże modele językowe. Zajęcie się jakością danych i wymaga rygorystycznego przetwarzania wstępnego, takiego jak czyszczenie zasobów, normalizacja i rozszerzanie. Techniki wykrywania i wczesnego ostrzegania mogą również pomóc w zmniejszaniu skali udanych ataków. Ponadto wdrożenie solidnych mechanizmów obsługi błędów może pomóc w ograniczeniu błędów i infekowaniu treści. Ważne jest również przyjęcie podejścia HITL Human-in-the-loop (czyli tzw. “człowiek w pętli”), które zapewnia dodatkową warstwę monitorowania i dostosowywania. Polega ono na niczym innym jak zaangażowaniu czynnika ludzkiego w proces tworzenia i testów algorytmów. Podobnie jak w przypadku innych krytycznych informacji biznesowych, przechowywanie i obsługa treningowych modeli AI wiąże się z ryzykiem naruszenia tajemnicy przedsiębiorstw, w tym wycieku danych. W tym przypadku nieautoryzowany dostęp lub złośliwe ataki mogą zagrozić bezpieczeństwu poufnych informacji.

– Naszym klientom rekomendujemy wprowadzenie technik szyfrowania i rygorystycznej kontroli dostępu. Regularne audyty bezpieczeństwa identyfikują potencjalne luki w celu ich szybkiego rozwiązania. Natomiast, zaawansowane metody, takie jak prywatność różnicowa, dodają dodatkowe warstwy ochrony, zachowując prywatność bez utrudniania szkolenia AI. Możemy w tym wypadku korzystać z baz danych bez ujawniania danych osobowych. Jest to jedno z takich podejść do ochrony danych osobowych, które okazało się skuteczniejsze niż wiele znanych nam tradycyjnych metod. – dodaje Bartłomiej Anszperger.

Prawidłowe wyniki bez manipulacji

Materiały dostarczane przez generatywne modele sztucznej inteligencji mogą mieć wpływ na wiele sektorów i branż. Jednak także one są podatne na liczne zagrożenia. Manipulowanie modelami retrieval augmented generation (RAG) lub aplikacjami opartymi na frameworkach takich jak Langchain stanowi złożone zagrożenie dla integralności i niezawodności aplikacji. Obejmuje to manipulowanie jednym lub kilkoma aspektami zaangażowanymi w proces wyszukiwania informacji, wprowadzanie stronniczych lub wprowadzających w błąd informacji lub w niektórych przypadkach, celowe wykonywanie kodu zwracanego przez duże modele językowe. Przeciwdziałanie manipulacjom wymaga warstwowego podejścia do obrony, ale z odpowiednimi kontrolami dostępu, mechanizmami audytu i izolacją danych bez wątpienia jest możliwe.