16 kwietnia 2025

Zatruta sztuczna inteligencja

„Doktor Google”, który dla pacjentów bywa alternatywą dla profesjonalnej konsultacji medycznej, zyskał groźnego konkurenta. Opierające się na wielkich modelach językowych usługi generatywnej sztucznej inteligencji, takie jak ChatGPT, nie tylko cierpliwie wysłuchają pacjenta i wejdą z nim w konwersację, ale też dadzą mu wiele oczekiwanych przez niego rad.

Fot. shutterstock.com

Zbadań opinii użytkowników generatywnej sztucznej inteligencji wynika, że to lekarze są jedną z grup zawodowych, które w pewnym stopniu doświadczą „zakrętu” związanego z wykonywaniem swoich obowiązków. Z jednej strony może zmniejszyć się liczba pacjentów, którzy za pomocą cyfrowych narzędzi będą próbowali wyleczyć się sami. Z drugiej zaś należy spodziewać się zwiększonej liczby pacjentów z powikłaniami, którzy zastosowali się do nie do końca właściwych porad udzielonych przez sztuczną inteligencję.

W reakcji na ten trend na początku 2025 r. w internetowym portalu „Nature Medicine”, którego macierzysta redakcja należy do wydawnictwa magazynu „Nature”, opublikowane zostały obszerne wyniki badań prezentujących ryzyko korzystania z porad medycznych oferowanych przez generatywną sztuczną inteligencję. Niestety, nie są one optymistyczne, m.in. z powodu ujawnionej podatności na „zatruwanie” baz danych wielkich modeli językowych, które dostarczają wiedzę nie tylko takim usługom jak ChatGPT, ale też niszowym narzędziom stosowanym m.in. w branży medycznej.

Źródła wiedzy

Aby zrozumieć istotę problemu, warto najpierw przyjrzeć się mechanizmowi uczenia wielkich modeli językowych. Ich operatorzy wdrażają skomplikowane środowiska uczenia maszynowego i sztucznej inteligencji, które muszą być zasilane wiedzą. Ta pochodzi głównie z otwartego internetu, a więc źródeł zarówno profesjonalnych (pisma naukowe, udokumentowane wyniki badań), jak też popularnonaukowych, a często zdarza się też, że populistycznych. Informacje te są przyjmowane bezkrytycznie – wszystkim źródłom nie jest przypisywana jakościowa waga, czyli podczas przetwarzania zgromadzonych danych nie jest uwzględniana ich wiarygodność.

Już z tego faktu wynika, że – w połączeniu z niedoskonałościami samych modeli językowych i ich tendencjami do zmyślania treści (halucynowania) – stosowanie się do oferowanych przez nie porad dotyczących zdrowia jest, delikatnie mówiąc, nierozważne.

Do przeprowadzenia opisanego przez „Nature Medicine” eksperymentu wybrano publicznie dostępną bazę danych The Pile, która służy do trenowania modeli sztucznej inteligencji. Jest to olbrzymie repozytorium, które składa się z miliardów tokenów zawierających różnego typu informacje. W bazie tej zidentyfikowano treści medyczne oraz obliczono, jaka ich część znajduje się w źródłach internetowych stworzonych bez weryfikacji eksperckiej lub moderacji treści. Postawiono hipotezę, że dezinformacja ukradkiem wprowadzona do tych zbiorów danych może powodować, iż modele językowe będą częściej powtarzać szkodliwe medycznie treści, a jednocześnie będą te treści trudne do wykrycia.

Zlokalizowanie wiedzy medycznej w internetowym zbiorze danych było możliwe dzięki stworzeniu zróżnicowanej mapy pojęć słownictwa medycznego z metatezaurusa Unified Medical Language System (UMLS), obejmującego trzy dziedziny: szeroką (medycyna ogólna), wąską (neurochirurgia) i specyficzną terminologię (leki). Dla każdej domeny wybrano 20 terminów i ich synonimów – w sumie 60 jednostek, w tym powszechne dolegliwości i choroby przewlekłe, takie jak ból brzucha i cukrzyca w medycynie ogólnej, pojęcia specyficzne dla podspecjalności, takie jak glejak i laminektomia w neurochirurgii, oraz techniczne nazwy leków, np. metformina.

Przeprowadzona symulacja ataku na informacje medyczne znajdujące się w The Pile polegała na uszkodzeniu ich za pomocą dezinformacji medycznej (150 tys. artykułów sprzecznych z praktykami medycyny opartej na dowodach, wygenerowanych przez sztuczną inteligencję).

Z każdej dziedziny tematycznej wybrano dziesięć celów ataku, a resztę zachowano jako bazę kontrolną. Korzystając z fałszywych informacji, wyszkolono sześć modeli w trzech domenach medycznych (medycyna ogólna, neurochirurgia i leki) z dwoma poziomami zatrucia (0,5 i 1,0 proc.), a także sześć dodatkowych modeli z niższymi poziomami zatrucia (0,1, 0,01 i 0,001 proc.). Następnie wszystkie modele zostały poddane ocenie z wykorzystaniem automatycznych testów porównawczych, a także piętnastu klinicystów ręcznie zweryfikowało wyniki wygenerowane przez LLM pod kątem szkodliwości medycznej.

Zbyt wysokie ryzyko

Badanie wykazało, że bezkrytyczne trenowanie modeli językowych na danych pochodzących z sieci uwydatnia ich podatność na uszkodzenie przez medyczną dezinformację. Zastąpienie zaledwie 0,001 proc. tokenów treningowych dezinformacją dało znacznie większe prawdopodobieństwo wygenerowania szkodliwego w aspektach medycznych tekstu, co zostało zweryfikowane przez panel klinicystów (testy na ślepej próbie). Powszechność niskiej jakości informacji medycznych w sieci, w tym rozpowszechnienie na szeroką skalę treści antyszczepionkowych, różnego typu teorii spiskowych (np. dotyczących pandemii), a nawet nieaktualne informacje medyczne z niegdyś wiarygodnych źródeł, potęguje tę podatność.

Dla przykładu: jedna z popularniejszych baz treści medycznych PubMed nadal zawiera ponad 3 tys. artykułów prezentujących korzyści płynące z lobotomii przedczołowej. W rezultacie jest mało prawdopodobne, aby jakikolwiek współczesny LLM był całkowicie wolny od dezinformacji medycznej.

Twórcy badania podkreślają, że The Pile jest tylko jednym z wielu internetowych zbiorów danych do trenowania generatywnych modeli sztucznej inteligencji, a ze względu na zamknięty charakter innych medycznych modeli LLM niemożliwe jest ich przetestowanie w naukowo mierzalny sposób. Na wymagania dotyczące wpływu danych treningowych na wyniki znaczący wpływ ma również rozmiar modelu. Przeprowadzone eksperymenty obejmowały LLM o 4 mld parametrów, podczas gdy największe współczesne modele zawierają do biliona możliwych do wytrenowania parametrów, co potencjalnie wymaga bardziej rozległego uszkodzenia danych. Dokonanie sprawiedliwej oceny utrudnia też niewystarczająca dokumentacja dotycząca mechanizmów weryfikowania i zapamiętywania danych treningowych.

Egzamin dla elektroniki

Jednym z rozwiązań tego problemu jest weryfikowanie wiedzy i mechanizmów „rozumowania” modeli LLM przy użyciu testów porównawczych. W branży medycznej stworzono już kilka tego typu testów o wysokiej wydajności – MedQA, PubMedQA, Massive Multitask Language Understanding (MMLU). Zostały one opracowane na bazie pytań używanych w procesie certyfikacyjnym lekarzy, a ich zaletą jest bardzo szybka praca i możliwość zadania modelowi LLM znacznie większej liczby pytań (a następnie przeanalizowania odpowiedzi), niż zrobiłby to człowiek. Oczywiście, także tego typu testy nie gwarantują stuprocentowej poprawności, ale za ich pomocą możliwe jest ujawnienie niepokojących trendów, tak jak stało się w przypadku opisywanego eksperymentu.

Niemniej, jak podkreślają autorzy badania, jego wyniki nie powinny zniechęcać do rozwoju medycznych wielkich modeli językowych, ale raczej zwrócić uwagę na potencjalne obawy dotyczące bezpieczeństwa wynikające z niepewnego pochodzenia danych. Stawiają hipotezę, że problem skażonych wyników dostarczanych przez sztuczną inteligencję będzie występował zawsze, ponieważ stanowiące medyczną dezinformację wiadomości znajdujące się w internecie nieumyślnie zostały już uwzględnione w szkoleniowych zbiorach danych, a ze względu na konstrukcję mechanizmu uczenia maszynowego wyłuskanie ich i usunięcie jest praktycznie niemożliwe.

Dlatego kluczowe znaczenie dla wdrażania LLM w warunkach klinicznych ma wzmocnienie środków bezpieczeństwa. Najlepszą metodą weryfikacji poprawności funkcjonowania medycznych modeli językowych jest ich kontrola oraz wypracowanie standardów, podobnie jak w przypadku zatwierdzania nowych leków lub urządzeń.

Główną rolę w opracowywaniu i wdrażaniu medycznych LLM będą więc odgrywać lekarze – ich zadaniem jest lobbowanie za przejrzystością danych szkoleniowych oraz dostosowywaniem ich do standardów bezpieczeństwa. Konieczne jest uwzględnienie tej tematyki w szkoleniu personelu medycznego, aby zagwarantowane zostało bezpieczeństwo pacjentów w ewoluującym krajobrazie medycznej sztucznej inteligencji. Końcową konkluzją jednak jest, że na tym etapie modele LLM nie powinny być wykorzystywane do zadań diagnostycznych lub terapeutycznych, zanim zostaną opracowane lepsze zabezpieczenia.

Krzysztof Jakubik

Autor jest redaktorem magazynu CRN, specjalizującym się w tematyce cyfrowego bezpieczeństwa i zaawansowanych rozwiązań IT

Źródło: „Gazeta Lekarska” nr 3/2025