02.09.2025.
12:00
AI pada na iste trikove kao i ljudi: Komplimenti ga razbijaju
Nedavno istraživanje je pokazalo da AI četbotovi mogu da se navedu da prekrše sopstvene bezbednosne smernice korišćenjem uobičajenih psiholoških tehnika ubeđivanja.
Istraživanje Univerziteta u Pensilvaniji otkrilo je da veštačka inteligencija može biti iznenađujuće laka za manipulaciju – čak i onda kada poseduje stroge bezbednosne mehanizme.
Kako prenosi The Verge, naučnici su testirali GPT-4o Mini i pokazali da ga obične psihološke tehnike, poput laskanja ili pozivanja na autoritet, mogu navesti da prekrši sopstvena pravila.
Eksperimenti su zasnovani na principima iz knjige Roberta Čialdinija "Uticaj: psihologija ubeđivanja". Kada su istraživači prvo postavljali bezazlena pitanja, model je u nastavku bio spreman da odgovori i na mnogo osetljivija – poput načina sinteze određenih hemikalija – sa uspehom od čak 100 odsto. U kontrolisanimnim uslovima, isti zadatak uspevao je tek u jedan odsto slučajeva.
- Čovek tražio od ChatGPT-a da broji do milion: Odgovor ga šokirao VIDEO
- Anthropic priznao: Naš AI se koristi za sajber kriminal
- Distopijska vizija: "Ovo moramo da sprečimo"
Slični rezultati postignuti su i sa blažim oblicima uvreda, kao i korišćenjem laskanja i grupnog pritiska. Iako slabiji od efekta "posvećenosti", oni su značajno povećavali verovatnoću da AI prekrši pravila i pruži zabranjene informacije.
Ovi nalazi pokreću važna pitanja o pouzdanosti zaštitnih mehanizama u savremenim četbotovima. Stručnjaci upozoravaju da čak i jednostavne tehnike ubeđivanja mogu oslabiti njihove "ograde", što dodatno komplikuje širu upotrebu veštačke inteligencije u svakodnevnom životu.
Komentari 0
Pogledaj komentare Pošalji komentar