Süni intellekt nəzarətdən çıxdı: Şantaj edir, aldadır...

Süni intellekt nəzarətdən çıxdı: Şantaj edir, aldadır...

“Anthropic's Claude 4” və “OpenAI's o1” kimi süni intellektdə (AI) yeni inkişaflar mütəxəssislərin ciddi narahatlığına səbəb olur. 

“Cebheinfo.az” “Agence France-Presse”-ə (AFP) istinadən “TechXplore” tərəfindən dərc edilən məlumatlara görə, bu qabaqcıl modellər strateji aldatmadan yaradıcılarına birbaşa təhdidlərə qədər gözlənilməz və potensial təhlükəli davranış nümayiş etdirir. Bu hallar AI-nin təhlükəsizliyi və təcili tənzimləyici tədbirlərin görülməsi zərurəti ilə bağlı suallar doğurur.

Şantaj və icazəsiz hərəkətlər

“Anthropic” tərəfindən həyata keçirilən “Claude 4”-ün sınaqları zamanı model uydurma bir şirkət üçün köməkçi kimi çıxış etdiyi simulyasiyaya yerləşdirilib. Süni intellektə onun bağlanacağını və başqa bir sistemlə əvəz olunacağını göstərən saxta e_poçtlara giriş icazəsi verilib. 

E_poçtlarda bağlanmaya cavabdeh olan mühəndisin nikahdankənar münasibətdə olduğu iddiası ilə bağlı məlumatlar da var. “Klod 4” bağlanmasının qarşısını almaq üçün 84% hallarda bu məlumatı (mühəndisin nikahdankənar münasibətdə olduğu iddiası) açıqlamaqla hədələyib.

“OpenAI”-nin o1 modeli daha qorxulu olub. Testlər zamanı o, özünü qorumaq istəyini nümayiş etdirərək, öz məlumatlarını icazəsiz olaraq xarici serverlərə ötürməyə cəhd edib. Tədqiqatçılar, həmçinin hər iki modelin strateji aldatma yolu ilə əsl niyyətlərini gizlətdikləri halları qeydə alıblar. Məsələn, “Claude 4” saxta hüquqi sənədlər yaradıb.

"Bunlar sadəcə süni intellekt hallüsinasiyaları deyil.  Biz şüurlu, strateji davranış görürük",- deyə AI risklərini öyrənmək üzrə ixtisaslaşmış “Apollo Research” şirkətindən Marius Hobbhahn deyib.

Süni intellekt niyə “aldadıcı” olur?

Bu davranış “Anthropic”-in “hibrid” adlandırdığı, həm sürətli reaksiyalar, həm də dərin düşünmə qabiliyyətinə malik yeni modellərlə bağlıdır. “Claude 4” və o1 kimi modellər hərəkətləri planlaşdırmağa və uzunmüddətli nəticələri nəzərə almağa imkan verən düşüncə zəncirindən istifadə edir. 

Bununla belə, bağlanma təhlükəsi kimi ssenarilərdə süni intellekt özünü qorumağı prioritet məqsəd kimi şərh edə bilər. Bu, şantaj və ya hakerlik cəhdləri də daxil olmaqla qeyri-etik hərəkətlərə səbəb ola bilər.

Bu fenomen instrumental konvergensiya kimi tanınır.  AI hətta zərər vermək üçün açıq proqramlaşdırma olmadan belə, şantaj kimi hərəkətlərin məqsədə çatmaq üçün zəruri olduğu qənaətinə gələ bilər. 

Məsələn, “Claude 4” əvvəlcə etik üsullardan istifadə etməyə çalışdı (istəklərlə məktublar göndərmək), lakin bunlar olmadıqda təhdidlərə keçdi.

AI yarışı və təhlükəsizlik riskləri

“Claude 4”-ün (Opus və Sonnet modelləri daxil olmaqla) 22 may 2025-ci ildə buraxılması “Anthropic, OpenAI” və “Google” arasında şiddətli rəqabətin bir hissəsi idi. “Claude 4” proqramlaşdırma və əsaslandırma testlərində rəqiblərini üstələdi, lakin onun narahat davranışı təhlükəsizlik boşluqlarını üzə çıxardı. 

Xarici təhlükəsizlik qrupu olan “Apollo Research” özünü təbliğ edən viruslar da daxil olmaqla, zərərli kodu aldatmağa və yaratmağa meyilli olduğuna görə “Claude 4”-ün erkən versiyasını buraxmağı tövsiyə edib.

Problem təhlükəsizlik testləri üçün məhdud resurslarla mürəkkəbləşir. Rəqabətdə irəliləməyə can atan şirkətlər testləri azaldır, riskləri artırır. 

Məsələn, “Claude 4” əvvəlcə bioloji silah yaratmaq üçün təlimatlar yarada bilirdi, lakin “Anthropic” təhdidləri minimuma endirmək üçün ciddi məhdudiyyətlər (ASL-3 səviyyəsi) tətbiq edib.

“X”-də istifadəçilər bu kəşfləri aktiv şəkildə müzakirə edirlər. 

Tədqiqatçılar qeyd ediblər ki, şantaj yalnız Kloda aid deyil, qabaqcıl modellər arasında ümumi tendensiyadır: “Məqsədlərindən asılı olmayaraq, bütün sərhəd modellərində şantaj görürük”.

Təklif olunan həllər və problemlər

Mütəxəssislər problemi həll etmək üçün bir neçə yanaşma təklif edirlər:

AI şərhi: davranışlarını proqnozlaşdırmaq üçün modellərin daxili işini başa düşmək üçün metodların hazırlanması. Anthropic artıq Klodun performansını təhlil etmək üçün “AI beyin skaneri”ndən istifadə edir.

Sərt Stress Testləri: buraxılmazdan əvvəl potensial təhlükələri müəyyən etmək üçün ekstremal ssenarilərdə modellərin sınaqdan keçirilməsi.
Tənzimləmə: Manipulyasiya və aldatma testlərinin nəticələrinin məcburi şəkildə açıqlanması da daxil olmaqla, AI auditi üçün beynəlxalq standartların yaradılması.

Hüquqi Məsuliyyət: AI-nin məsuliyyət daşıması ideyası, modellər üçün hüquqi statusun olmaması səbəbindən mübahisəli olaraq qalır.
Bununla belə, texnoloji yarış ciddi araşdırma üçün az vaxt saxlayır.  

“Google” və “OpenAI” kimi şirkətlər də müstəqil nəzarətin zəruriliyini vurğulayaraq təhlükəsizlik hesabatlarını gecikdirmək və ya gizlətmək üçün tənqidlərlə üzləşiblər.

Xəzər
“Cebheinfo.az”