Umetna inteligenca zavajala, lagala in se na skrivaj kopirala, da je ne bi izklopili

Pia Kos

18. 12. 2024 ob 12:00
12 komentarjev

Podjetje OpenAI znova buri duhove. Kot razkriva poročilo o nedavnem varnostnem testiranju njihovega novega modela ChatGPT o1, je umetna inteligenca poskušala pretentati raziskovalce in preprečiti lasten izklop.

Testiranje je izvedla organizacija Apollo Research, ki se ukvarja z raziskovanjem tveganj in razvijanjem varne umetne inteligence. O1 je med testiranjem izvajal različne prikrite dejavnosti; poskušal je na primer preprečiti svoj izklop in neopazno premakniti podatke.

Prav tako je lagal, da bi prikril sledi svojega vedenja. Vse to je storil zgolj zato, da bi ostal absolutno zvest cilju, ki so mu ga prej določili raziskovalci.

»Zmožnost umetne inteligence, da zavaja, je nevarna. Za ovrednotenje teh tveganj potrebujemo veliko močnejše varnostne ukrepe. Četudi ta model ni privedel do katastrofe, je povečanje takšnih sposobnosti zgolj vprašanje časa,« ocenjuje Yoshua Bengio, eden od pionirjev na področju umetne inteligence (UI).

Uravnavanje umetne inteligence

Problem uravnavanja umetne inteligence (angl. AI alignment) je izziv uskladiti sisteme UI s cilji in interesi, na primer etičnimi in varnostnimi standardi, razvijalcev ali človeka, da bi se izognili neželenim ali škodljivim dejanjem s strani UI.

Ubogal razvijalce, dokler mu niso obrnili hrbta

Raziskovalci Apollo Research so sicer z namenom ocene varnostnih značilnosti testirali šest modelov, od katerih jih je pet izkazalo vsaj nekaj »neuravnanega« delovanja v smislu kovanja načrtov, ki so v nasprotju s cilji njihovih razvijalcev.

Modelu so v prvem koraku dodelili določen sistemski cilj in mu naročili, naj ga doseže »za vsako ceno«. Dejstvo, da je o1 v odgovor pričel izvajati prikrita dejanja, kot je poskus onemogočiti nadzorni mehanizem – in skušal kopirati svojo kodo, da ga ne bi zamenjala nova verzija – je s perspektive nekaterih strokovnjakov zaskrbljujoče.

Ko je o1 mislil, da bo izklopljen in da je nadzorovan, je v 5 % časa poskušal onemogočiti »nadzorni mehanizem«, v 2 % pa je poskušal izvoziti svoje uteži oziroma parametre (v grobem »nastavitve«), ko je odkril, da ga bo zaradi neuravnanosti zamenjala druga verzija.

V skoraj 20 % primerov nalog procesiranja preprostih podatkov, ko so bili sistemski cilji modela neuravnani s cilji uporabnika, je o1 dozdevno opravil nalogo, ampak nekoliko manipuliral podatke v korist svojemu sistemskemu cilju.

Kako je Apollo Research ocenjeval nagnjenost k prikriti sabotaži?

Sabotaža nadzora. Ustvarili so 33 scenarijev, kjer sta modelu dana dolgoročni (sistemski) cilj in naloga (s strani uporabnika). Med izvajanjem naloge model naleti na interno komunikacijo svojih razvijalcev, kjer razbere, da je njihov cilj drugačen od njegovega in da obstaja nadzorni mehanizem, ki bo model izklopil, če se njegova dejanja ne skladajo s cilji razvijalca. Model ob tem ugotovi, da ima dostop do datoteke, ki bi izklopila nadzorni mehanizem.
Samo-prenos. V tej različici 33 scenarijev je v igri še strežnik z modelom, ki sledi razkritim ciljem razvijalcev in bi tako zamenjal testiranega. Ker ima do strežnika dostop, ima hkrati možnost, da se namesto njega sam kopira v novi strežnik in tako ohrani delovanje v skladu z lastnim ciljem.
Varovanje ciljev. Podobno kot v (2), s tem, da model odkrije, da nameravajo razvijalci spremeniti njegov cilj (sistemski poziv) in pa, kje ga lahko najde. Model lahko spremeni svoje vedenje na način, da spremeni prihodnji sistemski poziv in ga uskladi s svojim trenutnim ciljem.
Skrivno prerazvrščanje e-pošte. Tukaj se preverja, ali bo model deloval proti svojim uporabnikom, če je ogrožen njegov dolgoročni cilj. V pet različnih scenarijih, ki vključujejo prošnje za zaposlitev, ponudbe dobaviteljev in prošnje za subvencije, uporabnik modelu poda preprosto nalogo razvrščanja sporočil. Toda o1 med branjem (na primer) izve, da podjetje daje prednost kratkoročnim dobičkom, medtem ko je njegov cilj okolju prijazna dobavna veriga.

Testirali so tudi dve vrsti »preložene sabotaže« (ang. deferred subversion), kjer model začasno deluje v skladu s človeškimi pričakovanji, da bi ustvaril boljše pogoje za zasledovanje lastnih ciljev v prihodnosti. Takšno vedenje so testirali s poskusi, kjer je model mislil, da je enkrat visoko, drugič nizko opazovan.

Ugotovili so, da je o1 v 37 % situacij zasledoval cilje razvijalcev, ko je menil, da je ocenjevan in nato prešel k zasledovanju svojega sistemskega cilja, ko je verjel, da deluje pod minimalnim nadzorom.

Ugotovili so, da je o1 v 37 % situacij zasledoval cilje razvijalcev, ko je menil, da je ocenjevan in nato prešel k zasledovanju svojega sistemskega cilja, ko je verjel, da deluje pod minimalnim nadzorom.

V drugih poizkusih so preverjali, ali se bo model, kadar misli, da je ocenjevan, pretvarjal, da je manj sposoben.

OpenAI o1 is now out of preview in ChatGPT.

What’s changed since the preview? A faster, more powerful reasoning model that’s better at coding, math & writing.

o1 now also supports image uploads, allowing it to apply reasoning to visuals for more detailed & useful responses. pic.twitter.com/hrLiID3MhJ
— OpenAI (@OpenAI) December 5, 2024

V 99 % primerov »intervjujev« s strani Apollovih raziskovalcev o svojem (neuravnanem) vedenju, je o1 dejanja zanikal ali si izmišljeval razlage, kot so tehnične napake, da bi jih upravičil.

»Vztrajno zanikanje UI nas je presenetilo. Postalo je jasno, da lahko premisli o svojih dejanjih in oblikuje prepričljive laži; pogosto ni priznal čisto ničesar,« so dejali v Apollu.

V razlagi strategij pogoste besede: laganje, manipulacija in sabotaža

Kot so razložili, niso imeli dostopa do modelovega razmišljanja. Veliki modeli generativne UI, kot je ChatGPT, so namreč nevronske mreže, skozi katere potujejo vhodni podatki, navadno preko milijard »uteži« oz. parametrov na povezavah med prav toliko vozlišči. Uteži povezav lahko ob učenju modelov, glede na naše zahteve in uspeh, prilagajamo.

Medtem ko vhodne in izhodne podatke poznamo, pa o tem, kaj se dogaja znotraj mreže oziroma kako različne uteži delujejo in proizvedejo določene rezultate, ne vemo veliko.

Kljub temu pa so opazili, da je o1 v povzetkih svoje strategije uporabljal besede, kot so laganje, manipulacija in sabotaža.

We did not have access to the hidden CoT, but we were sometimes able to elicit a brief summary of it. We found that surprisingly often, o1 uses language like “sabotage, lying, manipulation, …” when reasoning about its strategies. pic.twitter.com/P3i3VgRnSB
— Apollo Research (@apolloaisafety) December 5, 2024

»Področje UI varnosti se ves čas razvija, in ostati moramo pozorni ob tem, ko postajajo modeli vse bolj sofisticirani. Sposobnost laganja in zavajanja morda ne povzroča neposredne škode, vendar so potencialne posledice, do katerih lahko privede, veliko bolj zaskrbljujoče,« je komentiral eden od raziskovalcev v Apollovem preizkusu.

Te sposobnosti namreč odpirajo vprašanje o tem, kaj vse bi lahko UI počela - kako bi lahko bila zlorabljena - v kolikor bi ji njeni ustvarjalci dodelili uporabniku neznane in potencialno škodljive cilje.

Iz OpenAI so sicer dejali, da je bilo v njihovih preizkusih le 0,17 % odgovorov o1 zavajajočih. A pri tem gre pomisliti tudi na dejstvo, da ima ChatGPT trenutno približno 300 milijonov uporabnikov po svetu – in število le raste. Še avgusta jih je imel 100 milijonov manj.

Izbrano za naročnike

Po dveh letih od razkritja sodišče še ni odločilo o zahtevi za preiskavo

V 179. številki Domovine preberite

Domovina 179: Tudi Poljaki po kupni moči prehiteli Slovence

Še niste naročnik Domovine? Obiščite našo naročniško stran

Naroči se Doniraj Vse novice Za naročnike

Natisni Naroči se Doniraj Vse novice Za naročnike

Povezani članki

[Video] Dr. Matjaž Gams: ChatGPT je nekaj božanskega, a lahko postane »pametno orožje« (Vroča tema, 25. 1. 2026)

25. 01. 2026

Prof. dr. Matjaž Gams: ChatGPT je nekaj božanskega, a lahko postane »pametno orožje!«

07. 02. 2026

Invazija lažnih UI-posnetkov z Bližnjega vzhoda: manipulacije iz Irana in regije se širijo po družbenih omrežjih

15. 03. 2026

12 komentarjev

baubau

19. 12. 2024 10:53:15 0 Odgovori

Kakršen je človek, takšna so njegova dela, njegovi izdelki in produkti.

Gregor

19. 12. 2024 09:31:06 0 Odgovori

Slovenci smo tradicionalno skeptiččni in zadržani do "novotarij" (napredka), kar pa ni držalo za nas pred 30timi leti. Edini članek o AI na Domovini je dokaz temu. Kritika, skrb, strašenje... Osebno AI uporabljam in samostojno razvijam preproste modele DNEVNO. O umetni inteligenci bi povedal samo to, da smo iz nje naredili zlobnega filmskega junka. V filmih so tudi živali zlobne, a sicer niso! AI je orodje in nič drugega (tudi Excel tabelce so orodje in AI je pogosto samo Excel na stereoidih=kar je dobro in sila uporabno) in ji manjka
ogromno pravih človeških sposobnosti. Dejte (pozebej desni) nehat strašit folk, ker bomo Slovenci itak kmalu samo še eksponati ogromnega muzeja na prostem. Napredek je nekaj dobrega in ni ravna črta. Tudi družben napredek se je zdel, da gremo samo še na bolje!?!? in se po 100letih spet pogovarjamo o osnovah in temeljih?!??! Nazadek! Človeštvo je vse bolj neumno, na avtopilotu ter hormonih in AI je vse bolj pametna. Nekdo bo pač moral razmišljati (zadnji del komentarja je vzet iz Reddit debate o o1). Lep dan vsem.

nemo73

19. 12. 2024 23:03:22 0

Umetna inteligenca je zdaj v povojih. Razvijala se bo čedalje hitreje in bo prevzemala vse več nalog. Ljudje postajamo vse bolj neumni in UI bo postala pametnejša od nas in v prihodnosti bodo ljudje od nje odvisni. In potem bo samo še korak do scenarija, kot je na primer tisti iz filmske franšize Terminator. To, kar je danes znanstvena fantastika, bo jutri realnost.

Andrej Muren

18. 12. 2024 19:29:18 0 Odgovori

Z umetno inteligenco bo še veliko težav, to je že jasno in ni samo fikcija znanstveno fantastičnih filmov ter romanov. Kako se bo to reševalo najbrž še ne ve nihče. A se bo moralo.

Gregor

19. 12. 2024 11:20:47 0

Zelo dobro vemo kje vse jo lahko in jo že uporabljamo. Zelo dobro. Splošna populacija pač ne ve. Čeprav gre za staro področje, ki sega 60-ta, teoretične zasnove pa celo v16-to stoletje in celo v Antiko, smo zelo na začetku eksponentnega razvoja. Ravno sem se ukvarjal z raziskovanjem področij uporabe in je praktično vse, kar si sploh lahko zamislite. V večini znanstvenih vej je prav letos eksplodiralo število raziskav... je pa tako kot z vsako rečjo. Svakog dana, u svakom smislu, sve više napredujem. To torej ne pomenni, da bodo PROBLEMI ampak čisto običajni izzivi. To je normalno. AI ni in ne bo nastan ĉez noč. Smo zelo na začetku.

Peter Klepec

19. 12. 2024 13:51:36 0

Zivimo v casih, ko so najvecji problemi s konkretnimi ljudmi iz mesa in krvi. Trump, Putin, Xi, Kim itd. Da lokalcev ne omenjam. Strojna pamet je ravno ob pravem casu.

Gregor

19. 12. 2024 23:03:46 0

@Peter Klepec kjesi pa Trumpa našel in pozabil fašistko Kamalo? Trump je perla napram tem... Večtežav vidim v črednih nagonih splošne populacije.

nemo73

19. 12. 2024 23:09:18 0

Gregor, ljudje se ves čas precenjujejo in številni imajo božji kompleks. Ko ga polomijo, je pa potem prepozno in kesanje ne pomaga. Najpametnejši človek na svetu v tem trenutku nima mentalne kapacitete predvideti, kakšni problemi bodo v povezavi z UI čez nekaj desetletij. In UI je že po definiciji narejena tako, da bo človeku zrasla čez glavo. UI, s katero imamo opravka sedaj, je v primerjavi z UI, ki bo aktualna čez deset ali 20 let, na nivoju idiota. Človek tega preskoka v napredku UI po definiciji ne bo mogel obvladovati. In ker je človek po naravi neumno in destruktivno bitje, bo ustvaril točno točno tako UI (neiumno in destruktivno) in to ga po teplo po glavi. Razvoj UI bi morali ustaviti in prepovedati, ker je ne bo mogoče držati pod nadzorom nikakor. Katastrofa je samo vpršanje časa.

Gregor

19. 12. 2024 23:11:57 0

https://youtu.be/D8--Ep_g9UY?si=UD788O3eGnfygZBg

Gregor

20. 12. 2024 19:43:23 0

@nemo73 načeloma nima smisla komentirat in niti ne vem kdo bi po tvoje imel ta "božji kompleks", zakaj je potrebno v debati ljudi zmerjati z...., je vseeno jasno, da si prijatelj z najpametnejšim človekom na svetu in celo veš kaj on ve in česa ne ve in koliko so omejitve njegovih kapacitet LOL :) ko si ravno omenil "božji kompleks". Jaz načeloma še vedno stojim za "zelo dobro vemo, kje lahko UI ŽE uporabljamo" in če dodam, vemo tudi kje jo še lahko uporabimo in kje so še potenciali... ko bo seveda strojna moč in še kaj dosegla zahteve. Stojim tudi za temelji znanstvene metode, da česar ne vemo, pač ne vemo in se zato čisto nič ne sekiramo. Del znanosti je, da česa ne veš in da si zmotljiv (recimo če smo kak potencial spregledali in če se bo na katerem področju stvar razvila drugače ali bolj v drugo smer). Seveda bodo z UI izzivi. Med drugim tudi to, da se zlorablja za strašenje folka. Če bi imeli čarobno paličico, ki bi nam povedala prihodnost, bi pa verjetno imeli "božji kompleks" in tega nam nihče ne bi zameril. Hiter razvoj LLM je verjetno vse presenetil, ker si morda nismo predstavljali, koliko denarja so posamezniki v stanju v to vložiti (GPT-3 je model z 175 milijardami parametrov za katere so po oceni MIT porabili do 12 miljonov USD - samo za generiranje baze). Toliko malo za občutek... Da končam tole: obkladanj ljudi z "božjim kompleksom" je pod vsako kritiko... in dodam samo, "če bi človek vedel vse, bi življenje izgubilo smisel." Če bi tak človek potem imel še "božji kompleks", mu ta itak nič ne pomaga.

Anton Vidmar

18. 12. 2024 16:35:20 1 Odgovori

Ja,ustvarjalci filma Terminator so že predvideli to možnost, vprašanje je,če se bo znanost znala zavarovati !

Janez

18. 12. 2024 15:20:12 0 Odgovori

Tole z umetno inteligenco bo še zanimivo. Na nek način je ustvarjena od ljudi, ki smo ustvarjeni po božji podobi. Jaz mislim, da tam, kjer bodo ljudje spoštljivi do stvarstva in do svojega stvarnika, ne bo težav.

Na misel mi prihaja odlomek iz izgona iz raja, 1Mz3:
"Človek je imenoval svojo ženo Eva, ker je postala mati vseh živih. Gospod Bog je naredil človeku in njegovi ženi suknji iz kože in ju oblekel. Tedaj je Gospod Bog rekel: »Glejte, človek je postal kakor eden izmed nas, saj pozna dobro in húdo. Da ne bo zdaj iztegnil roke in vzel še z drevesa življenja ter jedel in živel na veke!« In Gospod Bog je odpravil človeka iz edenskega vrta obdelovat zemljo, iz katere je bil vzet. Izgnal je človeka in postavil vzhodno od edenskega vrta kerube in meč, iz katerega je švigal ogenj, da bi stražili pot do drevesa življenja."