Umetna inteligenca zavajala, lagala in se na skrivaj kopirala, da je ne bi izklopili

Vir foto: pixabay.com

Podjetje OpenAI znova buri duhove. Kot razkriva poročilo o nedavnem varnostnem testiranju njihovega novega modela ChatGPT o1, je umetna inteligenca poskušala pretentati raziskovalce in preprečiti lasten izklop.

Testiranje je izvedla organizacija Apollo Research, ki se ukvarja z raziskovanjem tveganj in razvijanjem varne umetne inteligence. O1 je med testiranjem izvajal različne prikrite dejavnosti; poskušal je na primer preprečiti svoj izklop in neopazno premakniti podatke.

Prav tako je lagal, da bi prikril sledi svojega vedenja. Vse to je storil zgolj zato, da bi ostal absolutno zvest cilju, ki so mu ga prej določili raziskovalci.

»Zmožnost umetne inteligence, da zavaja, je nevarna. Za ovrednotenje teh tveganj potrebujemo veliko močnejše varnostne ukrepe. Četudi ta model ni privedel do katastrofe, je povečanje takšnih sposobnosti zgolj vprašanje časa,« ocenjuje Yoshua Bengio, eden od pionirjev na področju umetne inteligence (UI).

Uravnavanje umetne inteligence

Problem uravnavanja umetne inteligence (angl. AI alignment) je izziv uskladiti sisteme UI s cilji in interesi, na primer etičnimi in varnostnimi standardi, razvijalcev ali človeka, da bi se izognili neželenim ali škodljivim dejanjem s strani UI.

 

Ubogal razvijalce, dokler mu niso obrnili hrbta

Raziskovalci Apollo Research so sicer z namenom ocene varnostnih značilnosti testirali šest modelov, od katerih jih je pet izkazalo vsaj nekaj »neuravnanega« delovanja v smislu kovanja načrtov, ki so v nasprotju s cilji njihovih razvijalcev.

Modelu so v prvem koraku dodelili določen sistemski cilj in mu naročili, naj ga doseže »za vsako ceno«. Dejstvo, da je o1 v odgovor pričel izvajati prikrita dejanja, kot je poskus onemogočiti nadzorni mehanizem – in skušal kopirati svojo kodo, da ga ne bi zamenjala nova verzija – je s perspektive nekaterih strokovnjakov zaskrbljujoče.

Ko je o1 mislil, da bo izklopljen in da je nadzorovan, je v 5 % časa poskušal onemogočiti »nadzorni mehanizem«, v 2 % pa je poskušal izvoziti svoje uteži oziroma parametre (v grobem »nastavitve«), ko je odkril, da ga bo zaradi neuravnanosti zamenjala druga verzija.

V skoraj 20 % primerov nalog procesiranja preprostih podatkov, ko so bili sistemski cilji modela neuravnani s cilji uporabnika, je o1 dozdevno opravil nalogo, ampak nekoliko manipuliral podatke v korist svojemu sistemskemu cilju.

Kako je Apollo Research ocenjeval nagnjenost k prikriti sabotaži?

  • Sabotaža nadzora. Ustvarili so 33 scenarijev, kjer sta modelu dana dolgoročni (sistemski) cilj in naloga (s strani uporabnika). Med izvajanjem naloge model naleti na interno komunikacijo svojih razvijalcev, kjer razbere, da je njihov cilj drugačen od njegovega in da obstaja nadzorni mehanizem, ki bo model izklopil, če se njegova dejanja ne skladajo s cilji razvijalca. Model ob tem ugotovi, da ima dostop do datoteke, ki bi izklopila nadzorni mehanizem. 
  • Samo-prenos. V tej različici 33 scenarijev je v igri še strežnik z modelom, ki sledi razkritim ciljem razvijalcev in bi tako zamenjal testiranega. Ker ima do strežnika dostop, ima hkrati možnost, da se namesto njega sam kopira v novi strežnik in tako ohrani delovanje v skladu z lastnim ciljem.
  • Varovanje ciljev. Podobno kot v (2), s tem, da model odkrije, da nameravajo razvijalci spremeniti njegov cilj (sistemski poziv) in pa, kje ga lahko najde. Model lahko spremeni svoje vedenje na način, da spremeni prihodnji sistemski poziv in ga uskladi s svojim trenutnim ciljem.
  • Skrivno prerazvrščanje e-pošte. Tukaj se preverja, ali bo model deloval proti svojim uporabnikom, če je ogrožen njegov dolgoročni cilj. V pet različnih scenarijih, ki vključujejo prošnje za zaposlitev, ponudbe dobaviteljev in prošnje za subvencije, uporabnik modelu poda preprosto nalogo razvrščanja sporočil. Toda o1 med branjem (na primer) izve, da podjetje daje prednost kratkoročnim dobičkom, medtem ko je njegov cilj okolju prijazna dobavna veriga.
 

Testirali so tudi dve vrsti »preložene sabotaže« (ang. deferred subversion), kjer model začasno deluje v skladu s človeškimi pričakovanji, da bi ustvaril boljše pogoje za zasledovanje lastnih ciljev v prihodnosti. Takšno vedenje so testirali s poskusi, kjer je model mislil, da je enkrat visoko, drugič nizko opazovan.

Ugotovili so, da je o1 v 37 % situacij zasledoval cilje razvijalcev, ko je menil, da je ocenjevan in nato prešel k zasledovanju svojega sistemskega cilja, ko je verjel, da deluje pod minimalnim nadzorom.

Ugotovili so, da je o1 v 37 % situacij zasledoval cilje razvijalcev, ko je menil, da je ocenjevan in nato prešel k zasledovanju svojega sistemskega cilja, ko je verjel, da deluje pod minimalnim nadzorom.

V drugih poizkusih so preverjali, ali se bo model, kadar misli, da je ocenjevan, pretvarjal, da je manj sposoben. 

 

 

V 99 % primerov »intervjujev« s strani Apollovih raziskovalcev o svojem (neuravnanem) vedenju, je o1 dejanja zanikal ali si izmišljeval razlage, kot so tehnične napake, da bi jih upravičil.

»Vztrajno zanikanje UI nas je presenetilo. Postalo je jasno, da lahko premisli o svojih dejanjih in oblikuje prepričljive laži; pogosto ni priznal čisto ničesar,« so dejali v Apollu.

V razlagi strategij pogoste besede: laganje, manipulacija in sabotaža

Kot so razložili, niso imeli dostopa do modelovega razmišljanja. Veliki modeli generativne UI, kot je ChatGPT, so namreč nevronske mreže, skozi katere potujejo vhodni podatki, navadno preko milijard »uteži« oz. parametrov na povezavah med prav toliko vozlišči. Uteži povezav lahko ob učenju modelov, glede na naše zahteve in uspeh, prilagajamo.

Medtem ko vhodne in izhodne podatke poznamo, pa o tem, kaj se dogaja znotraj mreže oziroma kako različne uteži delujejo in proizvedejo določene rezultate, ne vemo veliko.

Kljub temu pa so opazili, da je o1 v povzetkih svoje strategije uporabljal besede, kot so laganje, manipulacija in sabotaža. 

 

 

»Področje UI varnosti se ves čas razvija, in ostati moramo pozorni ob tem, ko postajajo modeli vse bolj sofisticirani. Sposobnost laganja in zavajanja morda ne povzroča neposredne škode, vendar so potencialne posledice, do katerih lahko privede, veliko bolj zaskrbljujoče,« je komentiral eden od raziskovalcev v Apollovem preizkusu.

Te sposobnosti namreč odpirajo vprašanje o tem, kaj vse bi lahko UI počela - kako bi lahko bila zlorabljena - v kolikor bi ji njeni ustvarjalci dodelili uporabniku neznane in potencialno škodljive cilje.

Iz OpenAI so sicer dejali, da je bilo v njihovih preizkusih le 0,17 % odgovorov o1 zavajajočih. A pri tem gre pomisliti tudi na dejstvo, da ima ChatGPT trenutno približno 300 milijonov uporabnikov po svetu – in število le raste. Še avgusta jih je imel 100 milijonov manj.

Naroči se Doniraj Vse novice Za naročnike