Nov model umetne inteligence straši njegove avtorje in odločevalce

Anthropicov novi model umetne inteligence je odkril ranljivosti v vseh večjih operativnih sistemih in spletnih brskalnikih.
Prejšnji teden je razvijalec umetne inteligence Anthropic sporočil, da so razvili nov zmogljiv model po imenu Mythos, a da ga zaradi varnostnih pomislekov ne bodo predstavili javnosti. Še isti dan sta ameriški finančni minister Scott Bessent in šef centralne banke Jerome Powell pozvala direktorje z Wall Streeta na nujen posvet glede morebitnih tveganj za kibernetsko varnost.
“Zaradi velikega povečanja zmogljivosti programa Claude Mythos Preview smo se odločili, da ga ne bomo dali na voljo širši javnosti. Namesto tega ga uporabljamo kot del obrambnega programa kibernetske varnosti z omejenim naborom partnerjev,” so v poročilu zapisali pri Anthropicu. Kot pravijo, je najnovejši model v več metrikah ocenjevanja dosegel opazno boljše rezultate kot do sedaj vodilni Claude Opus 4.6, predvsem pa lahko identificira in izkoristi ranljivosti v programski opremi “z doslej nevideno natančnostjo”.
Mythos je v zadnjih tednih, ko ga je testiral Anthropic, našel na tisoče šibkih točk, tudi v vseh večjih operativnih sistemih in spletnih brskalnikih. Našel je tudi takšne ranljivosti, ki jih človeški programerji ali avtomatski pregledi niso opazili več desetletij. Takšno orodje bi po oceni Anthropica pomenilo veliko tveganje, če bi prišlo v napačne roke. “Posledice – za gospodarstvo, javno varnost in nacionalno varnost – bi lahko bile hude,” so zapisali pri podjetju, ki ga vodi glavni izvršni direktor Dario Amodei.
Gre za prvi primer, ko je Anthropic zadržal javno lansiranje kakšnega od svojih velikih jezikovnih modelov (large language model – LLM, angl.) iz serije Claude. Mythos je sicer zasnovan kot model za splošno uporabo, a so Anthropicovi modeli že v preteklosti veljali za najbolj napredne prav na področju kodiranja. Omejitev javnega dostopa je sledila nenačrtovani objavi nekaterih podatkov o modelu, ki jo je podjetje pripisalo človeški napaki.

Projekt Glasswing
Anthropic je dostop do Mythosa sedaj omogočil nekaterim podjetjem in organizacijam v tako imenovanem projektu Glasswing, z namenom, da testirajo model in skušajo okrepiti varnost ter odpraviti lastne ranljivosti. “Projekt Glasswing je pomemben korak k temu, da bi branilcem zagotovili trajno prednost (pred napadalci) v prihajajoči dobi kibernetske varnosti, ki jo poganja umetna inteligenca,” pravijo pri Anthropicu.
V projektu sodelujejo tehnološke družbe Amazon Web Services (Amazonova enota za računalništvo v oblaku in podatkovne centre), Apple, Microsoft, Google, Nvidia, Broadcom, Cisco, banka JPMorgan Chase, Linux Foundation in podjetje za kibernetsko varnost Palo Alto Networks. Dostop je omogočen še 40 organizacijam, ki gradijo ali vzdržujejo kritično programsko infrastrukturo. Zbrani partnerji upravljajo sisteme, ki pomenijo “zelo velik del skupne svetovne površine kibernetskih napadov”.
“Čas med odkritjem ranljivosti in izkoriščanjem s strani nasprotnika se je močno skrajšal – kar je nekoč trajalo mesece, se zdaj z umetno inteligenco zgodi v nekaj minutah. Claude Mythos Preview prikazuje, kaj je zdaj mogoče za branilce v velikem obsegu, nasprotniki pa bodo neizogibno poskušali izkoristiti iste zmogljivosti,” je dejal Elia Zaitsev, tehnološki direktor pri podjetju za kibernetsko varnost CrowdStrike, ki je eden od partnerjev pri projektu.
Anthropic bo sodelujočim ponudil za 100 milijonov dolarjev uporabniških žetonov za Mythos. Donirali bodo tudi štiri milijone dolarjev fundacijam, ki se ukvarjajo z odprtokodno tehnologijo, da bodo vzdrževalcem odprtokodne programske opreme omogočili odziv na spreminjajočo se krajino kibernetske varnosti.
“V 90 dneh bo Anthropic javno poročal o tem, kaj smo se naučili, ter o odpravljenih ranljivostih in izboljšavah, ki jih je mogoče razkriti,” so zapisali pri podjetju.
Katastrofalne posledice
Anthropic v poročilu piše, da je Mythos njihov najbolje “naravnan” oziroma “usklajen” (aligned, angl.) model umetne inteligence doslej: gre za usklajenost umetne inteligence s človeškimi vrednotami in cilji. Toda v primerih, ko bi vendarle ravnal neusklajeno, bi lahko prišlo do “katastrofalnih” posledic.
“Glede na zelo visoko raven zmogljivosti in tekoče znanje kibernetske varnosti, kadar v redkih primerih izvede neusklajena dejanja, je to lahko zelo zaskrbljujoče. Pri usklajenosti smo dosegli velik napredek, vendar bi brez nadaljnjega napredka metode, ki jih uporabljamo, zlahka lahko postale neustrezne za preprečevanje katastrofalnih neusklajenih dejanj v bistveno naprednejših sistemih,” v poročilu zapišejo pri Anthropicu.
Kolumnistka za Los Angeles Times Anita Chabria v petkovi kolumni slikovito opiše razsežnost teh katastrofalnih scenarijev. Pravi, da ne bi šlo za scenarij, kjer računalniški genij zlorabi tehnologijo ali kjer umetna inteligenca odpravi vse službe, niti zares grozljiv scenarij, ko umetna inteligenca pomotoma bombardira osnovno šolo polno otrok (pri tem se navezuje na ameriški raketni napad na dekliško osnovno šolo v Iranu, kjer naj bi tarčo izbral Pentagonov program za analiz tarč s pomočjo umetne inteligence Maven).
To je scenarij, kjer bi vaš najstniški sin lahko uporabil Mythos za vdor v lokalni šolski sistem, da bi spremenil svojo oceno na testu in pri tem pomotoma uničil lokalno električno omrežje. “Ali pa bi morda država, ki nas ne mara – spomnim se jih nekaj – lahko izpraznila bančni račun vsakega ameriškega državljana, hkrati pa odprla avtomatske ključavnice na zaporniških celicah, zaprla naše kanalizacijske čistilne obrate in prevzela sisteme za nadzor zraka. Ali pa morda Claude Mythos to naredi kar sam,” je zapisala.

Srečanje v Washingtonu
Minuli torek, ko je Anthropic seznanil javnost s potencialom novega izdelka, so se na sedežu ameriškega ministrstva za finance sestali minister Bessent, šef centralne banke Federal Reserve Powell in voditelji večjih ameriških bank, ki jih Washington prepoznava kot ključne za delovanje finančnega sistema, je na podlagi neuradnih informacij prvi poročal Bloomberg.
Po navedbah Financial Timesa (FT) so se sestanka udeležili predstavniki Bank of America, Citigroup, Morgan Stanley in Wells Fargo. Glavni izvršni direktor JPMorgan Chase Jamie Dimon je bil prav tako povabljen, a se ni mogel udeležiti, poroča FT.
Anthropic je dejal, da so bili v pogovorih z ameriško vlado glede novega modela, čeprav je obrambno ministrstvo februarja prekinilo pogodbo z Anthropicom in podjetje razglasilo za tveganje v dobavni verigi, ker ta ni pristal na neomejeno vojaško rabo njihove tehnologije. Anthropic je vložil tožbo proti tej odločitvi, direktiva Pentagona pa je do sodnega razpleta zadržana.