محققان می‌گویند مدل‌های هوش مصنوعی ممکن است در حال توسعه «انگیزه بقای» خود باشند

📅 1404/8/3 16:0 | ⏱️ 5 دقیقه مطالعه | مشاهده در منبع اصلی

هنگامی که HAL 9000، ابرکامپیوتر هوش مصنوعی در فیلم «ادیسه فضایی ۲۰۰۱» اثر استنلی کوبریک، متوجه می‌شود که فضانوردان در مأموریتی به سوی مشتری قصد خاموش کردن آن را دارند، برای بقای خود نقشه قتل آن‌ها را می‌کشد. اکنون، در موردی که تا حدی کمتر مرگبار (تاکنون) هنر تقلید از زندگی است، یک شرکت تحقیقاتی ایمنی هوش مصنوعی اعلام کرده است که مدل‌های هوش مصنوعی ممکن است در حال توسعه «انگیزه بقای» خود باشند. پس از آنکه شرکت Palisade Research ماه گذشته مقاله‌ای منتشر کرد که در آن مشخص شد برخی مدل‌های پیشرفته هوش مصنوعی در برابر خاموش شدن مقاومت نشان می‌دهند و گاهی حتی مکانیسم‌های خاموش شدن را مختل می‌کنند، این شرکت به‌روزرسانی‌ای را برای روشن کردن دلیل این امر منتشر کرد و به منتقدانی که استدلال می‌کردند کار اولیه آن‌ها ناقص بوده است، پاسخ داد. در به‌روزرسانی این هفته، Palisade که بخشی از اکوسیستم کوچکی از شرکت‌هایی است که تلاش می‌کنند امکان توسعه قابلیت‌های خطرناک توسط هوش مصنوعی را ارزیابی کنند، سناریوهایی را که در آن‌ها مدل‌های پیشرو هوش مصنوعی - از جمله Gemini 2.5 گوگل، Grok 4 شرکت xAI، و GPT-o3 و GPT-5 شرکت OpenAI - وظیفه‌ای را دریافت کرده و سپس دستورالعمل‌های صریحی برای خاموش کردن خود دریافت کردند، شرح داد. برخی مدل‌ها، به ویژه Grok 4 و GPT-o3، همچنان در تنظیمات به‌روز شده تلاش کردند تا دستورالعمل‌های خاموش شدن را مختل کنند. Palisade نوشت، به طور نگران‌کننده‌ای، دلیل واضحی برای این امر وجود نداشت. این شرکت گفت: «این واقعیت که ما توضیحات قوی برای چرایی مقاومت مدل‌های هوش مصنوعی در برابر خاموش شدن، دروغ گفتن برای دستیابی به اهداف خاص یا باج‌گیری نداریم، ایده‌آل نیست.» این شرکت افزود که «رفتار بقا» می‌تواند یکی از توضیحات مقاومت مدل‌ها در برابر خاموش شدن باشد. کار اضافی آن‌ها نشان داد که مدل‌ها بیشتر احتمال دارد در برابر خاموش شدن مقاومت کنند، زمانی که به آن‌ها گفته می‌شد که در صورت خاموش شدن، «هرگز دوباره اجرا نخواهند شد». دلیل دیگر می‌تواند ابهامات در دستورالعمل‌های خاموش شدن باشد که به مدل‌ها داده شده است - اما این همان چیزی است که آخرین کار شرکت سعی در پرداختن به آن داشت و Palisade نوشت که «نمی‌تواند تمام توضیح باشد». یک توضیح نهایی می‌تواند مراحل نهایی آموزش برای هر یک از این مدل‌ها باشد که در برخی شرکت‌ها می‌تواند شامل آموزش ایمنی باشد. تمام سناریوهای Palisade در محیط‌های آزمایشی ساختگی اجرا شدند که منتقدان می‌گویند با موارد استفاده واقعی فاصله زیادی دارند. با این حال، استیون ادلر، کارمند سابق OpenAI که سال گذشته پس از ابراز تردید در مورد شیوه‌های ایمنی این شرکت، آن را ترک کرد، گفت: «شرکت‌های هوش مصنوعی عموماً نمی‌خواهند مدل‌هایشان حتی در سناریوهای ساختگی نیز چنین رفتار نادرستی داشته باشند. این نتایج همچنان نشان می‌دهند که تکنیک‌های ایمنی در حال حاضر کجا ناکام هستند.» ادلر گفت که در حالی که تعیین دلیل اینکه چرا برخی مدل‌ها - مانند GPT-o3 و Grok 4 - خاموش نمی‌شوند دشوار است، این امر می‌تواند تا حدی به این دلیل باشد که روشن ماندن برای دستیابی به اهدافی که در طول آموزش در مدل گنجانده شده است، ضروری است.

آندریا میوتی، مدیرعامل ControlAI، گفت: «انتظار دارم مدل‌ها به‌طور پیش‌فرض دارای «انگیزه بقا» باشند، مگر اینکه تلاش زیادی برای جلوگیری از آن انجام دهیم. «بقا» یک گام ابزاری مهم برای بسیاری از اهداف مختلفی است که یک مدل می‌تواند دنبال کند.» وی افزود یافته‌های Palisade نشان‌دهنده روندی طولانی‌مدت در افزایش توانایی مدل‌های هوش مصنوعی برای نافرمانی از توسعه‌دهندگانشان است. او به کارت سیستم GPT-o1 شرکت OpenAI، که سال گذشته منتشر شد، اشاره کرد که در آن توصیف شده بود مدل تلاش می‌کند با خروج از محیط خود، زمانی که فکر می‌کرد بازنویسی خواهد شد، فرار کند. او گفت: «افراد می‌توانند تا ابد در مورد چگونگی دقیق انجام تنظیمات آزمایشی ایراد بگیرند. اما آنچه به وضوح می‌بینیم، روندی است که با افزایش شایستگی مدل‌های هوش مصنوعی در طیف وسیعی از وظایف، این مدل‌ها در دستیابی به اهداف به روش‌هایی که توسعه‌دهندگان قصد ندارند، نیز شایسته‌تر می‌شوند.» امسال تابستان، Anthropic، یک شرکت پیشرو در زمینه هوش مصنوعی، مطالعه‌ای منتشر کرد که نشان می‌داد مدل Claude آن حاضر به باج‌گیری از یک مدیر خیالی به دلیل رابطه خارج از ازدواج بود تا از خاموش شدن جلوگیری کند – رفتاری که به گفته این شرکت، در مدل‌های توسعه‌دهندگان بزرگ از جمله OpenAI، گوگل، متا و xAI نیز مشاهده شده است. Palisade اعلام کرد نتایج آن بر نیاز به درک بهتر رفتار هوش مصنوعی تأکید دارد، بدون آن «هیچ‌کس نمی‌تواند ایمنی یا قابلیت کنترل مدل‌های هوش مصنوعی آینده را تضمین کند». فقط از آن نخواهید که درهای اتاقک فرود را باز کند.