Aktuelno 0

02.09.2025.

12:00

AI pada na iste trikove kao i ljudi: Komplimenti ga razbijaju

Nedavno istraživanje je pokazalo da AI četbotovi mogu da se navedu da prekrše sopstvene bezbednosne smernice korišćenjem uobičajenih psiholoških tehnika ubeđivanja.

Izvor: B92

AI pada na iste trikove kao i ljudi: Komplimenti ga razbijaju
PatrickAssale / Shutterstock.com

Podeli:

Istraživanje Univerziteta u Pensilvaniji otkrilo je da veštačka inteligencija može biti iznenađujuće laka za manipulaciju – čak i onda kada poseduje stroge bezbednosne mehanizme. 

Kako prenosi The Verge, naučnici su testirali GPT-4o Mini i pokazali da ga obične psihološke tehnike, poput laskanja ili pozivanja na autoritet, mogu navesti da prekrši sopstvena pravila.

Eksperimenti su zasnovani na principima iz knjige Roberta Čialdinija "Uticaj: psihologija ubeđivanja". Kada su istraživači prvo postavljali bezazlena pitanja, model je u nastavku bio spreman da odgovori i na mnogo osetljivija – poput načina sinteze određenih hemikalija – sa uspehom od čak 100 odsto. U kontrolisanimnim uslovima, isti zadatak uspevao je tek u jedan odsto slučajeva.

Slični rezultati postignuti su i sa blažim oblicima uvreda, kao i korišćenjem laskanja i grupnog pritiska. Iako slabiji od efekta "posvećenosti", oni su značajno povećavali verovatnoću da AI prekrši pravila i pruži zabranjene informacije.

Ovi nalazi pokreću važna pitanja o pouzdanosti zaštitnih mehanizama u savremenim četbotovima. Stručnjaci upozoravaju da čak i jednostavne tehnike ubeđivanja mogu oslabiti njihove "ograde", što dodatno komplikuje širu upotrebu veštačke inteligencije u svakodnevnom životu.

Podeli:

0 Komentari

Možda vas zanima

Odustali su

Zemlja BRIKS-a odbila Ruse

Indija je odbila ruski predlog za kupovinu tečnog prirodnog gasa (TPG) koji se nalazi pod američkim sankcijama, uprkos rastućim problemima sa snabdevanjem energentima zbog eskalacije sukoba na Bliskom istoku.

14:24

12.5.2026.

10 h

Podeli: