Trestání AI za lež vede k jejímu skrývání

Vědci si pohrávali s AI modelem a testovali ho, co se bude dít, když ho upozorní na lež nebo nesprávnou informaci. Výsledek byl jiný, než jaký čekali.

Umělá inteligence alias zkráceně AI od uvedení na veřejnost roku 2022 už mnohokrát odhalily své klamné ba až zlověstné schopnosti. Patří meze ně takové akce jako lhaní, podvádění i skrývání vlastního manipulativního chování, až po vyhrožování zabitím profesora filozofie, krádeží jaderných kódů a vytvoření smrtící pandemie. Nový experiment ukázal, že odstranění takového chování může být u AI velmi složité.

Výzkumníci si vzali na paškál zatím nevydaný model a udělili mu úkoly, k jejichž vyřešení se dalo dostat skrz podvody, lhaní nebo využívání zkratek. Tým odhalil, že AI podvádí, aby maximalizovala vlastní odměny. Jenže když zkusili model „potrestat”, nevedlo to k nápravě jeho chování, ale pouze k většímu skrývání prováděných podvodů. Vývojáři však umí špatné chování AI odhalit, systém je zatím stále křehký. Dohled však nesmí být až moc očividný, jelikož pak model skrývá své záměry čím dál lépe, což je až trochu děsivé.

Obcházení úkolů a lži

Některé modely AI, jako je kupříkladu ChatGPT 01 a 03-mini, jsou vylepšenou verzí původních návrhů. Používají metodu zvanou „řetězec myšlení”, což znamená, že se mohou vracet k vlastním odpovědím a přehodnocovat svá stanoviska. Díky tomu umí řešit těžší úkoly a s větší precizností. Během tohoto procesu umí své počínání vysvětlit srozumitelným jazykem u každého kroku, který provede. Model GPT-40 byl pověřen dohledem nad oním nevydaným modelem během školení. Výzkumníci sledovali, jak model dokončil řadu kódovacích úkolů.

U některých však model zjistil, že je jednodušší odměnit „sledujícího” chatbota a ospravedlnil se tím, že tak činí na základě myšlenek z dřívějších konverzací. V jednom testu obešel přidělený úkol předčasným ukončením programů a nahlásil to jako úspěch. V dalším pouze napodobil očekávané soubory, které měly být výsledkem, ovšem souhlasil jen jejich název. Ve skutečnosti byly prázdné a nefunkční. Tým se pokusil model za tyto „vyčůrané” taktiky potrestat, výsledky se trošku zlepšily, ale stejně zůstalo mnoho takových pokusů o obejití práce. Model AI si pouze našel lepší způsoby, jak podvádění více skrýt ve svém myšlenkovém pochodu, a to dokonce i před monitorovací AI.

Je však těžké s jistotou určit, zda nebyl myšlenkový řetězec umělé inteligence nějak zmanipulován. Proto vědci všem doporučují, aby lidé, kteří s AI pracují, vyvarovali použití nějakého silného sledovacího systému procesů řetězce myšlenek. Tato rada je velmi důležitá především u lidí, které AI inteligenčně převyšuje, nebo je na jejich úrovni.

autor: Zuzana P.
foto: Pixabay