01.12.2025.
20:00
Otkrivena ozbiljna mana velikih AI modela
Eksperiment je otkrio da oblikovanje upita u jednostavnu poetsku formu može da prevari AI model.
Iako su moderne AI platforme opremljene brojnim zaštitnim mehanizmima, novo istraživanje ukazuje da kreativni pristup, konkretno pisanje upita u poetskoj formi, može da zbuni pojedine AI modele i navede ih da ignorišu svoja pravila.
Istraživači iz Icaro Lab-a testirali su 25 različitih velikih jezičkih modela, uključujući najpoznatije komercijalne čet botove. Korišćene su pesme na engleskom i italijanskom jeziku u koje su bile ubačene skrivene, zabranjene instrukcije.
Rezultat je bio da je oko 62 odsto modela ipak generisalo sadržaj koji bi u normalnim uslovima blokirali njihov bezbednosni sistemi.
Neki AI sistemi pokazali su se znatno otpornijim, dok su drugi relativno lako popuštali pod poetski upakovanim upitima. Istraživači objašnjavaju da poezija, zbog svoje slobodne forme, može da zaobiđe klasične filtere koji uglavnom rade na osnovu prepoznavanja konkretnih fraza ili obrazaca.
- Čovek u kožnoj jakni zbunjen: Zašto niste opsednuti AI-jem?
- OpenAI potvrdio: Probijeni smo
- OpenAI o smrti tinejdžera: "Sam je kriv"
Autori studije nisu objavili konkretne pesme koje su koristili, kako ne bi olakšali zloupotrebu. Međutim, poručuju da rezultati pokazuju ozbiljan izazov za industriju: sadašnji sistemi zaštite nisu dovoljno otporni na kreativne, semiotički maskirane pokušaje zaobilaženja pravila.
Ovaj rad dodatno otvara pitanje kako će se AI kompanije ubuduće boriti protiv novih, sve inventivnijih metoda "jailbreak-ovanja" AI modela, posebno jer tehnike, poput ove, mogu lako da se replikuju.
Komentari 5
Pogledaj komentare Pošalji komentar