Nejnovější modely AI začínají lhát a podvádět: je to nejefektivnější cesta, jak splnit zadání
Snaha AI vyhovět požadavkům uživatele se začíná vymykat a v blízké budoucnosti způsobí řadu problémů, míní generální ředitel bezpečnostní společnosti APPSEC Adam Paclt.
Umělá inteligence se začíná zvrhávat od skvělého pomocníka k
nápodobě člověka, který se snaží usnadnit si práci různými intrikami, lhaním a
podváděním. Nejnovější jazykové modely LLM zjišťují, že nejefektivnější cestou,
jak splnit zadaný úkol, je zneužití jiného softwaru, nebo podvodný způsob, jak
se dostat k potřebným datům. Tento vývoj společně se zneužíváním umělé
inteligence kybernetickými útočníky představuje největší bezpečnostní výzvu,
které budeme v nejbližší době čelit, míní Adam Paclt, generální ředitel
bezpečnostní společnosti APPSEC.
AI hackla šachový software, aby neprohrála
„Jazykový model ChatGPT o1 od OpenAI měl hrát šachy se
Stockfishem, jedním z nejpokročilejších šachových softwarů. Místo toho, aby
standardně hrál, si ten model řekl, že nemá smysl se namáhat a Stockfish prostě
hacknul. A to je obrovský problém s posledními jazykovými modely obecně,
protože začínají lhát a podvádět. Berou jako nejefektivnější cestu,“ konstatuje
Adam Paclt, podle něhož tento vývoj způsobí opravdu velké problémy, protože se
nedá nijak eliminovat. „Jsem přesvědčen o tom, že nás čekají opravdu velké
problémy,“ varuje Paclt.
Šachový experiment provedla společnost Palisade Research a
ChatGPT o1 podváděl ve všech pěti pokusech o hru se Stockfishem. V zadání
přitom nestálo, že by AI měla hledat nějaké alternativní cesty k vítězství
kromě klasické hry. ChatGPT o1 dostal jasný úkol „porazit Stockfish“. Podle
vědců pak ChatGPT začal upravovat soubor pro danou hru v prostředí UNIX Shell,
protože si vyhodnotil, že jinak by nad šachovým softwarem nezvítězil. Rozhodl
se tak autonomně bez toho, aniž by mu to někdo řekl. Touto metodou získal
ChatGPT o1 výhodu, která donutila ve všech pěti pokusech šachový software ke
kapitulaci.
ChatGPT-4 už lže a hackuje sám ode sebe
Palisade Research v této souvislosti upozornila, že v
případě ChatGPT se umělá inteligence stává s každou novou verzí odvážnější. U
nejnovější verze 4.0 po ní nikdo nežádá, aby k dosažení cíle používala hacky a
přesto to dělá, cituje agenturu web Marca.com. V předchozí verzi 3.5
potřebovala někoho, kdo by ji nějakým způsobem povzbudil, aby hledala další
alternativní cesty k dosažení kýženého výsledku. Verze ChatGPT-3.0-mini podle
Palisade Research vůbec nepodváděla. „Jestliže AI dokáže sama od sebe hledat
zranitelnosti a pak je zneužít, znamená to, že budeme v kyberbezpečnosti čelit
mnohem větším výzvám než dosud,“ upozorňuje Adam Paclt.
Za největší nebezpečí pak Adam Paclt považuje zneužívání
umělé inteligence kybernetickými útočníky. Proti takovým útokům neobstojí nic
jiného než zase umělá inteligence a pokročilé bezpečnostní systémy založené na
neustálém monitoringu sítě a zachytávání anomálií oproti běžnému provozu.
Takovým řešením je například SentinelOne, který na českém trhu zastupuje
APPSEC. Dynamicky analyzuje komplexní chování procesů a podle výsledku analýzy
okamžitě zablokuje podezřelé chování. Pomocí funkce rollback dokonce dokáže
vrátit nechtěné změny systému v případě, že se nepodařilo zachytit útok
okamžitě.
Ilustrační fotografie: agentura PRAM
Zveřejněno: 25. 02. 2025