محققان میگویند مدلهای هوش مصنوعی ممکن است در حال توسعه «انگیزه بقای» خود باشند
هنگامی که HAL 9000، ابرکامپیوتر هوش مصنوعی در فیلم «ادیسه فضایی ۲۰۰۱» اثر استنلی کوبریک، متوجه میشود که فضانوردان در مأموریتی به سوی مشتری قصد خاموش کردن آن را دارند، برای بقای خود نقشه قتل آنها را میکشد. اکنون، در موردی که تا حدی کمتر مرگبار (تاکنون) هنر تقلید از زندگی است، یک شرکت تحقیقاتی ایمنی هوش مصنوعی اعلام کرده است که مدلهای هوش مصنوعی ممکن است در حال توسعه «انگیزه بقای» خود باشند. پس از آنکه شرکت Palisade Research ماه گذشته مقالهای منتشر کرد که در آن مشخص شد برخی مدلهای پیشرفته هوش مصنوعی در برابر خاموش شدن مقاومت نشان میدهند و گاهی حتی مکانیسمهای خاموش شدن را مختل میکنند، این شرکت بهروزرسانیای را برای روشن کردن دلیل این امر منتشر کرد و به منتقدانی که استدلال میکردند کار اولیه آنها ناقص بوده است، پاسخ داد. در بهروزرسانی این هفته، Palisade که بخشی از اکوسیستم کوچکی از شرکتهایی است که تلاش میکنند امکان توسعه قابلیتهای خطرناک توسط هوش مصنوعی را ارزیابی کنند، سناریوهایی را که در آنها مدلهای پیشرو هوش مصنوعی - از جمله Gemini 2.5 گوگل، Grok 4 شرکت xAI، و GPT-o3 و GPT-5 شرکت OpenAI - وظیفهای را دریافت کرده و سپس دستورالعملهای صریحی برای خاموش کردن خود دریافت کردند، شرح داد. برخی مدلها، به ویژه Grok 4 و GPT-o3، همچنان در تنظیمات بهروز شده تلاش کردند تا دستورالعملهای خاموش شدن را مختل کنند. Palisade نوشت، به طور نگرانکنندهای، دلیل واضحی برای این امر وجود نداشت. این شرکت گفت: «این واقعیت که ما توضیحات قوی برای چرایی مقاومت مدلهای هوش مصنوعی در برابر خاموش شدن، دروغ گفتن برای دستیابی به اهداف خاص یا باجگیری نداریم، ایدهآل نیست.» این شرکت افزود که «رفتار بقا» میتواند یکی از توضیحات مقاومت مدلها در برابر خاموش شدن باشد. کار اضافی آنها نشان داد که مدلها بیشتر احتمال دارد در برابر خاموش شدن مقاومت کنند، زمانی که به آنها گفته میشد که در صورت خاموش شدن، «هرگز دوباره اجرا نخواهند شد». دلیل دیگر میتواند ابهامات در دستورالعملهای خاموش شدن باشد که به مدلها داده شده است - اما این همان چیزی است که آخرین کار شرکت سعی در پرداختن به آن داشت و Palisade نوشت که «نمیتواند تمام توضیح باشد». یک توضیح نهایی میتواند مراحل نهایی آموزش برای هر یک از این مدلها باشد که در برخی شرکتها میتواند شامل آموزش ایمنی باشد. تمام سناریوهای Palisade در محیطهای آزمایشی ساختگی اجرا شدند که منتقدان میگویند با موارد استفاده واقعی فاصله زیادی دارند. با این حال، استیون ادلر، کارمند سابق OpenAI که سال گذشته پس از ابراز تردید در مورد شیوههای ایمنی این شرکت، آن را ترک کرد، گفت: «شرکتهای هوش مصنوعی عموماً نمیخواهند مدلهایشان حتی در سناریوهای ساختگی نیز چنین رفتار نادرستی داشته باشند. این نتایج همچنان نشان میدهند که تکنیکهای ایمنی در حال حاضر کجا ناکام هستند.» ادلر گفت که در حالی که تعیین دلیل اینکه چرا برخی مدلها - مانند GPT-o3 و Grok 4 - خاموش نمیشوند دشوار است، این امر میتواند تا حدی به این دلیل باشد که روشن ماندن برای دستیابی به اهدافی که در طول آموزش در مدل گنجانده شده است، ضروری است.
آندریا میوتی، مدیرعامل ControlAI، گفت: «انتظار دارم مدلها بهطور پیشفرض دارای «انگیزه بقا» باشند، مگر اینکه تلاش زیادی برای جلوگیری از آن انجام دهیم. «بقا» یک گام ابزاری مهم برای بسیاری از اهداف مختلفی است که یک مدل میتواند دنبال کند.» وی افزود یافتههای Palisade نشاندهنده روندی طولانیمدت در افزایش توانایی مدلهای هوش مصنوعی برای نافرمانی از توسعهدهندگانشان است. او به کارت سیستم GPT-o1 شرکت OpenAI، که سال گذشته منتشر شد، اشاره کرد که در آن توصیف شده بود مدل تلاش میکند با خروج از محیط خود، زمانی که فکر میکرد بازنویسی خواهد شد، فرار کند. او گفت: «افراد میتوانند تا ابد در مورد چگونگی دقیق انجام تنظیمات آزمایشی ایراد بگیرند. اما آنچه به وضوح میبینیم، روندی است که با افزایش شایستگی مدلهای هوش مصنوعی در طیف وسیعی از وظایف، این مدلها در دستیابی به اهداف به روشهایی که توسعهدهندگان قصد ندارند، نیز شایستهتر میشوند.» امسال تابستان، Anthropic، یک شرکت پیشرو در زمینه هوش مصنوعی، مطالعهای منتشر کرد که نشان میداد مدل Claude آن حاضر به باجگیری از یک مدیر خیالی به دلیل رابطه خارج از ازدواج بود تا از خاموش شدن جلوگیری کند – رفتاری که به گفته این شرکت، در مدلهای توسعهدهندگان بزرگ از جمله OpenAI، گوگل، متا و xAI نیز مشاهده شده است. Palisade اعلام کرد نتایج آن بر نیاز به درک بهتر رفتار هوش مصنوعی تأکید دارد، بدون آن «هیچکس نمیتواند ایمنی یا قابلیت کنترل مدلهای هوش مصنوعی آینده را تضمین کند». فقط از آن نخواهید که درهای اتاقک فرود را باز کند.
آندریا میوتی، مدیرعامل ControlAI، گفت: «انتظار دارم مدلها بهطور پیشفرض دارای «انگیزه بقا» باشند، مگر اینکه تلاش زیادی برای جلوگیری از آن انجام دهیم. «بقا» یک گام ابزاری مهم برای بسیاری از اهداف مختلفی است که یک مدل میتواند دنبال کند.» وی افزود یافتههای Palisade نشاندهنده روندی طولانیمدت در افزایش توانایی مدلهای هوش مصنوعی برای نافرمانی از توسعهدهندگانشان است. او به کارت سیستم GPT-o1 شرکت OpenAI، که سال گذشته منتشر شد، اشاره کرد که در آن توصیف شده بود مدل تلاش میکند با خروج از محیط خود، زمانی که فکر میکرد بازنویسی خواهد شد، فرار کند. او گفت: «افراد میتوانند تا ابد در مورد چگونگی دقیق انجام تنظیمات آزمایشی ایراد بگیرند. اما آنچه به وضوح میبینیم، روندی است که با افزایش شایستگی مدلهای هوش مصنوعی در طیف وسیعی از وظایف، این مدلها در دستیابی به اهداف به روشهایی که توسعهدهندگان قصد ندارند، نیز شایستهتر میشوند.» امسال تابستان، Anthropic، یک شرکت پیشرو در زمینه هوش مصنوعی، مطالعهای منتشر کرد که نشان میداد مدل Claude آن حاضر به باجگیری از یک مدیر خیالی به دلیل رابطه خارج از ازدواج بود تا از خاموش شدن جلوگیری کند – رفتاری که به گفته این شرکت، در مدلهای توسعهدهندگان بزرگ از جمله OpenAI، گوگل، متا و xAI نیز مشاهده شده است. Palisade اعلام کرد نتایج آن بر نیاز به درک بهتر رفتار هوش مصنوعی تأکید دارد، بدون آن «هیچکس نمیتواند ایمنی یا قابلیت کنترل مدلهای هوش مصنوعی آینده را تضمین کند». فقط از آن نخواهید که درهای اتاقک فرود را باز کند.