Vsi ga uporabljajo, nihče pa ne preverja: To so največje laži, ki jih širi ChatGPT!

Umetna inteligenca, ki jo danes uporabljajo milijoni ljudi po vsem svetu, morda ni niti približno tako zanesljiva, kot se zdi.

Nova analiza kaže, da najnovejši modeli OpenAI – vključno z GPT-o3 in njegovim 'lažjim' naslednikom o4-mini – zelo pogosto dajejo napačne informacije. In to z osupljivo natančnostjo.

Orodja umetne inteligence, kot je ChatGPT, so postala sinonim za hitrost in učinkovitost. Pišejo eseje, prevajajo, rešujejo probleme in celo programirajo. Toda v iskanju briljantnosti se zdi, da so izgubila kompas, ko gre za resnico.

Glede na nedavno poročilo, ki ga je objavil The New York Times in se sklicuje na interno raziskavo OpenAI, modela GPT-o3 in o4-mini pogosto 'halucinirata' – tehnični izraz za odgovore, ki se slišijo prepričljivo, a so popolnoma napačni ali izmišljeni.

Skoraj 80 % napačnih odgovorov

Podatki so zaskrbljujoči. GPT-o3 se je v testih o slavnih osebah motil v tretjini primerov, kar je dvakrat več kot v primerjavi s prejšnjim modelom o1.

Stanje je še slabše pri o4-mini, ki se je motil v 48 % nalog.

Neprijetna izkušnja potnice na letalu ogorčila splet: "Zakaj se mi približuje?"

Situacija pa je še bolj zaskrbljujoča, ko so modeli odgovarjali na vprašanja splošnega znanja (test SimpleKA). GPT-o3 je nato haluciniral v 51 % primerov, medtem ko je o4-mini dosegel osupljivih 79 %. Z drugimi besedami – skoraj osem od desetih odgovorov je bilo napačnih.

Več 'razmišlja', več napak?

Paradoks je očiten – bolj napredni kot so modeli, pogosteje delajo napake.

Medtem ko so bile starejše različice 'bolj previdne' in so se držale znanih informacij, novi modeli poskušajo 'razumeti', povezovati nepovezano in prihajati do lastnih zaključkov. Rezultat so pogosto odgovori, ki se zdijo prepričljivi, vendar nimajo podlage v realnosti.

OpenAI pravi, da ta pojav morda ne kaže na napako, temveč na to, da so novi modeli bolj 'ustvarjalni' in svobodnejši v svojem izražanju.

Pa vendar. Ko umetna inteligenca trdi, da je imel Abraham Lincoln podkast ali da voda vre pri 27 stopinjah, postane jasno, da imamo resen problem.

Najbolj zaskrbljujoče je, da se ti modeli vse pogosteje uporabljajo v resnih in občutljivih okoljih – šolah, bolnišnicah, sodiščih in vladnih ustanovah.

Že obstajajo primeri, ko so odvetniki uporabljali ChatGPT za pripravo pravnih poročil – in končali na sodišču zaradi sklicevanja na neobstoječe precedense. In koliko takšnih napak ostane neopaženih v vsakdanji uporabi po svetu?

Uporabnost ne upravičuje nezanesljivosti

Težava je temeljna: bolj uporabna kot je umetna inteligenca, bolj natančna mora biti. Ne morete trditi, da tehnologija prihrani čas, če mora uporabnik preveriti vsak odgovor.

GPT-o3 resnično kaže impresivne zmogljivosti – zlasti pri programiranju in reševanju logičnih problemov. Toda ves ta napredek malo pomeni, če si izmišljuje dejstva.

Preberite si tudi: EU načrtuje omejitve na družbenih omrežjih: Je to konec interneta, kot ga poznamo?

Vsi ga uporabljajo, nihče pa ne preverja: To so največje laži, ki jih širi ChatGPT!

Skoraj 80 % napačnih odgovorov

Več 'razmišlja', več napak?

Uporabnost ne upravičuje nezanesljivosti

Novo na Metroplay: Nika Kljun: "Šele potem vidiš, da smo si vsi enaki pod kožo"

Naročite se na prejemanje novic