محققان هوش مصنوعی با مشکل «شلختگی» مواجه هستند: «وضعیت آشفته است»
یک فرد مدعی شده است که امسال ۱۱۳ مقاله علمی در زمینه هوش مصنوعی منتشر کرده است که ۸۹ مورد از آنها قرار است این هفته در یکی از کنفرانسهای پیشرو جهان در زمینه هوش مصنوعی و یادگیری ماشین ارائه شود. این موضوع در میان دانشمندان علوم کامپیوتر پرسشهایی را درباره وضعیت تحقیقات هوش مصنوعی مطرح کرده است. کوین ژو، نویسنده این مقالات، اخیراً مدرک کارشناسی خود را در رشته علوم کامپیوتر از دانشگاه کالیفرنیا، برکلی، دریافت کرده و اکنون شرکت تحقیقاتی و مربیگری هوش مصنوعی Algoverse را برای دانشآموزان دبیرستانی اداره میکند که بسیاری از آنها نویسندگان همکار او در این مقالات هستند. ژو خود در سال ۲۰۱۸ از دبیرستان فارغالتحصیل شده است. مقالاتی که او در دو سال گذشته منتشر کرده، موضوعاتی مانند استفاده از هوش مصنوعی برای شناسایی دامداران کوچنشین در آفریقای جنوب صحرا، ارزیابی ضایعات پوستی و ترجمه گویشهای اندونزیایی را پوشش میدهند. او در پروفایل لینکدین خود ادعا کرده است که "بیش از ۱۰۰ مقاله برتر کنفرانس در سال گذشته" منتشر کرده که "توسط OpenAI، مایکروسافت، گوگل، استنفورد، MIT، آکسفورد و موارد دیگر مورد استناد قرار گرفتهاند". هانی فرید، استاد علوم کامپیوتر در برکلی، در مصاحبهای مقالات ژو را "فاجعه" خواند. او گفت: "من کاملاً متقاعد شدهام که کل این قضیه، از بالا به پایین، صرفاً کدنویسی مبتنی بر حس و حال است" و به استفاده از هوش مصنوعی برای ایجاد نرمافزار اشاره کرد. فرید در پستی اخیر در لینکدین توجهها را به انتشارات پرشمار ژو جلب کرد که باعث بحث در مورد موارد مشابه دیگر در میان محققان هوش مصنوعی شد. آنها گفتند که رشته نوظهور و محبوبشان با سیل مقالات تحقیقاتی با کیفیت پایین روبرو است که توسط فشارهای آکادمیک و در برخی موارد، ابزارهای هوش مصنوعی تغذیه میشوند. ژو در پاسخ به پرسش گاردین گفت که او بر ۱۳۱ مقاله نظارت داشته است که "تلاشهای تیمی" شرکت او، Algoverse، بودهاند. این شرکت برای دانشآموزان دبیرستانی و دانشجویان کارشناسی برای یک تجربه مربیگری آنلاین انتخابی ۱۲ هفتهای که شامل کمک به ارسال کار به کنفرانسها میشود، ۳۳۲۵ دلار دریافت میکند. او گفت: "حداقل، من به بررسی روششناسی و طراحی تجربی در پیشنهادات کمک میکنم و پیشنویسهای کامل مقالات را قبل از ارسال میخوانم و نظر میدهم" و افزود که پروژهها در موضوعاتی مانند زبانشناسی، مراقبتهای بهداشتی یا آموزش شامل "محققان اصلی یا مربیان با تخصص مرتبط" بودهاند. او در پاسخ به این پرسش که آیا مقالات با هوش مصنوعی نوشته شدهاند، گفت که تیمها از "ابزارهای بهرهوری استاندارد مانند مدیران ارجاع، غلطگیر املایی و گاهی اوقات مدلهای زبانی برای ویرایش کپی یا بهبود وضوح" استفاده کردهاند. ناظران ربات در آشفتگی استانداردهای بررسی برای تحقیقات هوش مصنوعی با اکثر رشتههای علمی دیگر متفاوت است.
بیشتر تحقیقات در حوزه هوش مصنوعی و یادگیری ماشین، فرآیندهای دقیق داوری همتا را که در رشتههایی مانند شیمی و زیستشناسی رایج است، طی نمیکنند. در عوض، مقالات اغلب به شکلی غیررسمیتر در کنفرانسهای بزرگ مانند NeurIPS، یکی از برجستهترین گردهماییهای یادگیری ماشین و هوش مصنوعی در جهان، که ژو قرار است در آن مقاله خود را ارائه دهد، ارائه میشوند. فرید گفت که مورد ژو به یک مسئله بزرگتر در تحقیقات هوش مصنوعی اشاره دارد. کنفرانسهایی از جمله NeurIPS با افزایش تعداد مقالات ارسالی مواجه شدهاند: NeurIPS امسال ۲۱,۵۷۵ مقاله دریافت کرد که نسبت به کمتر از ۱۰,۰۰۰ مقاله در سال ۲۰۲۰ افزایش یافته است. یکی دیگر از کنفرانسهای برجسته هوش مصنوعی، کنفرانس بینالمللی نمایشهای یادگیری (ICLR)، افزایش ۷۰ درصدی در مقالات ارسالی سالانه خود را برای کنفرانس ۲۰۲۶ گزارش کرده است که نزدیک به ۲۰,۰۰۰ مقاله است، در حالی که این تعداد برای کنفرانس ۲۰۲۵ کمی بیش از ۱۱,۰۰۰ مقاله بود. وبلاگ فناوری چینی 36Kr در پستی در ماه نوامبر درباره ICLR نوشت: «داوران از کیفیت پایین مقالات شکایت دارند و حتی مشکوک هستند که برخی از آنها با هوش مصنوعی تولید شدهاند. چرا این ضیافت آکادمیک طعم خود را از دست داده است؟» این وبلاگ همچنین اشاره کرد که میانگین امتیازی که داوران به مقالات اختصاص دادهاند، سال به سال کاهش یافته است. در همین حال، دانشجویان و دانشگاهیان با فشار فزایندهای برای انتشار مقالات متعدد و همگام شدن با همتایان خود روبرو هستند. دانشگاهیان گفتند که تولید دهها مقاله با کیفیت بالا در علوم کامپیوتر در یک سال، چه رسد به صدها، غیرمعمول است. فرید میگوید که گاهی اوقات دانشجویانش مقالات را «به صورت شهودی کدگذاری» میکنند تا تعداد مقالات خود را افزایش دهند. فرید گفت: «بسیاری از جوانان میخواهند وارد حوزه هوش مصنوعی شوند. در حال حاضر یک جنون وجود دارد.» جفری والینگ، دانشیار دانشگاه ویرجینیا تک، گفت که NeurIPS مقالات ارسالی را داوری میکند، اما فرآیند آن بسیار سریعتر و کمتر دقیق از داوری همتای علمی استاندارد است. امسال، این کنفرانس از تعداد زیادی از دانشجویان دکترا برای بررسی مقالات استفاده کرده است که به گفته یکی از مسئولان NeurIPS، این امر فرآیند را به خطر انداخته است. والینگ گفت: «واقعیت این است که داوران کنفرانس اغلب مجبورند دهها مقاله را در مدت زمان کوتاهی بررسی کنند و معمولاً هیچ یا حداقل بازبینی کمی وجود دارد.» والینگ با فرید موافق بود که در حال حاضر مقالات زیادی منتشر میشود و گفت که با نویسندگان دیگری روبرو شده است که بیش از ۱۰۰ مقاله در سال منتشر کردهاند. او گفت: «دانشگاهیان بیشتر برای حجم مقالات پاداش میگیرند تا کیفیت... همه افسانه بهرهوری فوقالعاده را دوست دارند.» در صفحه پرسشهای متداول Algoverse ژو، پاسخها به این موضوع میپردازند که چگونه برنامه این شرکت میتواند به چشماندازهای شغلی یا تحصیلی آینده متقاضیان کمک کند و میگویند: «مهارتها، دستاوردها و مقالاتی که در اینجا کسب میکنید در محافل آکادمیک بسیار مورد توجه قرار میگیرند و میتوانند درخواست دانشگاه یا رزومه شما را تقویت کنند.»
این موضوع بهویژه اگر پژوهش شما در یک کنفرانس برتر پذیرفته شود، صدق میکند – که حتی برای پژوهشگران حرفهای نیز دستاوردی پرآوازه است. فریدی میگوید که او اکنون به دانشجویان توصیه میکند که به دلیل «هیاهو» در این حوزه و حجم بالای کارهای بیکیفیت که توسط افرادی که به دنبال بهبود چشمانداز شغلی خود هستند، وارد پژوهش هوش مصنوعی نشوند. او گفت: «این فقط یک آشفتگی است. شما نمیتوانید همگام شوید، نمیتوانید منتشر کنید، نمیتوانید کار خوبی انجام دهید، نمیتوانید متفکر باشید.»
**سیلاب کارهای بیکیفیت**
با این حال، کارهای عالی زیادی از این فرآیند بیرون آمده است. بهطور مشهور، مقاله گوگل در مورد ترنسفورمرها با عنوان «Attention Is All You Need» – مبنای نظری پیشرفتهای هوش مصنوعی که منجر به ChatGPT شد – در سال ۲۰۱۷ در NeurIPS ارائه شد.
برگزارکنندگان NeurIPS موافقند که این کنفرانس تحت فشار است. یک سخنگوی این کنفرانس در اظهاراتی به گاردین گفت که رشد هوش مصنوعی بهعنوان یک حوزه، «افزایش قابل توجهی در ارسال مقالات و ارزشگذاری بیشتر بر پذیرش داوری شده در NeurIPS» را به همراه داشته و «فشار قابل توجهی بر سیستم داوری ما وارد کرده است». برگزارکنندگان NeurIPS گفتند که مقالات ژو، عمدتاً به کارگاههای آموزشی در داخل NeurIPS ارسال شده بود که فرآیند انتخاب متفاوتی نسبت به کنفرانس اصلی دارند و اغلب جایی هستند که کارهای اوایل دوران شغلی ارائه میشوند.
فریدی گفت که او این را توضیح قابل توجهی برای اینکه یک نفر نام خود را بر روی بیش از ۱۰۰ مقاله قرار دهد، نمیداند. فریدی گفت: «من این را استدلال قانعکنندهای برای قرار دادن نام خود بر روی ۱۰۰ مقالهای که به هیچ وجه نتوانستهاید به طور معناداری در آنها مشارکت داشته باشید، نمیدانم.»
مشکل بزرگتر از سیل مقالات در NeurIPS است. ICLR از هوش مصنوعی برای داوری حجم زیادی از مقالات ارسالی استفاده کرد – که طبق مقالهای اخیر در نیچر، منجر به استنادات ظاهراً توهمی و بازخوردی شد که «بسیار پرحرف با نقاط گلولهای زیاد» بود.
احساس افول آنقدر گسترده است که یافتن راهحلی برای این بحران خود موضوع مقالات شده است. یک مقاله موضعی در ماه مه ۲۰۲۵ – نسخه دانشگاهی و مبتنی بر شواهد از یک سرمقاله روزنامه – که توسط سه دانشمند علوم کامپیوتر کرهجنوبی نوشته شده و راهحلی برای «چالشهای بیسابقه با افزایش مقالات ارسالی، همراه با نگرانیهای فزاینده در مورد کیفیت داوری و مسئولیت داور» پیشنهاد میکرد، جایزه کار برجسته را در کنفرانس بینالمللی یادگیری ماشین ۲۰۲۵ دریافت کرد.
در همین حال، فریدی میگوید، شرکتهای بزرگ فناوری و سازمانهای کوچک ایمنی هوش مصنوعی اکنون کارهای خود را در arXiv، سایتی که زمانی به پیشچاپهای کمبازدید مقالات ریاضی و فیزیک اختصاص داشت، رها میکنند و اینترنت را با کارهایی که به عنوان علم ارائه میشوند، اما تحت استانداردهای داوری نیستند، سیلآسا میکنند.
فرید میگوید هزینه این موضوع این است که تقریباً غیرممکن است بدانیم واقعاً در هوش مصنوعی چه میگذرد – چه برای روزنامهنگاران، چه برای عموم مردم و حتی چه برای متخصصان این حوزه: «شما هیچ شانسی، هیچ شانسی به عنوان یک خواننده معمولی برای درک آنچه در مقالات علمی میگذرد ندارید. نسبت سیگنال به نویز شما اساساً یک است. من به سختی میتوانم در این کنفرانسها شرکت کنم و بفهمم واقعاً چه خبر است.» او گفت: «آنچه من به دانشجویان میگویم این است که اگر هدف شما انتشار مقاله است، صادقانه بگویم، انجام آن کار سختی نیست. فقط کارهای واقعاً بیکیفیت و ضعیف انجام دهید و آنها را به کنفرانسها سرازیر کنید. اما اگر میخواهید کارهای واقعاً متفکرانه و دقیقی انجام دهید، در موقعیت نامناسبی قرار دارید زیرا عملاً به تنهایی خلع سلاح شدهاید.»
بیشتر تحقیقات در حوزه هوش مصنوعی و یادگیری ماشین، فرآیندهای دقیق داوری همتا را که در رشتههایی مانند شیمی و زیستشناسی رایج است، طی نمیکنند. در عوض، مقالات اغلب به شکلی غیررسمیتر در کنفرانسهای بزرگ مانند NeurIPS، یکی از برجستهترین گردهماییهای یادگیری ماشین و هوش مصنوعی در جهان، که ژو قرار است در آن مقاله خود را ارائه دهد، ارائه میشوند. فرید گفت که مورد ژو به یک مسئله بزرگتر در تحقیقات هوش مصنوعی اشاره دارد. کنفرانسهایی از جمله NeurIPS با افزایش تعداد مقالات ارسالی مواجه شدهاند: NeurIPS امسال ۲۱,۵۷۵ مقاله دریافت کرد که نسبت به کمتر از ۱۰,۰۰۰ مقاله در سال ۲۰۲۰ افزایش یافته است. یکی دیگر از کنفرانسهای برجسته هوش مصنوعی، کنفرانس بینالمللی نمایشهای یادگیری (ICLR)، افزایش ۷۰ درصدی در مقالات ارسالی سالانه خود را برای کنفرانس ۲۰۲۶ گزارش کرده است که نزدیک به ۲۰,۰۰۰ مقاله است، در حالی که این تعداد برای کنفرانس ۲۰۲۵ کمی بیش از ۱۱,۰۰۰ مقاله بود. وبلاگ فناوری چینی 36Kr در پستی در ماه نوامبر درباره ICLR نوشت: «داوران از کیفیت پایین مقالات شکایت دارند و حتی مشکوک هستند که برخی از آنها با هوش مصنوعی تولید شدهاند. چرا این ضیافت آکادمیک طعم خود را از دست داده است؟» این وبلاگ همچنین اشاره کرد که میانگین امتیازی که داوران به مقالات اختصاص دادهاند، سال به سال کاهش یافته است. در همین حال، دانشجویان و دانشگاهیان با فشار فزایندهای برای انتشار مقالات متعدد و همگام شدن با همتایان خود روبرو هستند. دانشگاهیان گفتند که تولید دهها مقاله با کیفیت بالا در علوم کامپیوتر در یک سال، چه رسد به صدها، غیرمعمول است. فرید میگوید که گاهی اوقات دانشجویانش مقالات را «به صورت شهودی کدگذاری» میکنند تا تعداد مقالات خود را افزایش دهند. فرید گفت: «بسیاری از جوانان میخواهند وارد حوزه هوش مصنوعی شوند. در حال حاضر یک جنون وجود دارد.» جفری والینگ، دانشیار دانشگاه ویرجینیا تک، گفت که NeurIPS مقالات ارسالی را داوری میکند، اما فرآیند آن بسیار سریعتر و کمتر دقیق از داوری همتای علمی استاندارد است. امسال، این کنفرانس از تعداد زیادی از دانشجویان دکترا برای بررسی مقالات استفاده کرده است که به گفته یکی از مسئولان NeurIPS، این امر فرآیند را به خطر انداخته است. والینگ گفت: «واقعیت این است که داوران کنفرانس اغلب مجبورند دهها مقاله را در مدت زمان کوتاهی بررسی کنند و معمولاً هیچ یا حداقل بازبینی کمی وجود دارد.» والینگ با فرید موافق بود که در حال حاضر مقالات زیادی منتشر میشود و گفت که با نویسندگان دیگری روبرو شده است که بیش از ۱۰۰ مقاله در سال منتشر کردهاند. او گفت: «دانشگاهیان بیشتر برای حجم مقالات پاداش میگیرند تا کیفیت... همه افسانه بهرهوری فوقالعاده را دوست دارند.» در صفحه پرسشهای متداول Algoverse ژو، پاسخها به این موضوع میپردازند که چگونه برنامه این شرکت میتواند به چشماندازهای شغلی یا تحصیلی آینده متقاضیان کمک کند و میگویند: «مهارتها، دستاوردها و مقالاتی که در اینجا کسب میکنید در محافل آکادمیک بسیار مورد توجه قرار میگیرند و میتوانند درخواست دانشگاه یا رزومه شما را تقویت کنند.»
این موضوع بهویژه اگر پژوهش شما در یک کنفرانس برتر پذیرفته شود، صدق میکند – که حتی برای پژوهشگران حرفهای نیز دستاوردی پرآوازه است. فریدی میگوید که او اکنون به دانشجویان توصیه میکند که به دلیل «هیاهو» در این حوزه و حجم بالای کارهای بیکیفیت که توسط افرادی که به دنبال بهبود چشمانداز شغلی خود هستند، وارد پژوهش هوش مصنوعی نشوند. او گفت: «این فقط یک آشفتگی است. شما نمیتوانید همگام شوید، نمیتوانید منتشر کنید، نمیتوانید کار خوبی انجام دهید، نمیتوانید متفکر باشید.»
**سیلاب کارهای بیکیفیت**
با این حال، کارهای عالی زیادی از این فرآیند بیرون آمده است. بهطور مشهور، مقاله گوگل در مورد ترنسفورمرها با عنوان «Attention Is All You Need» – مبنای نظری پیشرفتهای هوش مصنوعی که منجر به ChatGPT شد – در سال ۲۰۱۷ در NeurIPS ارائه شد.
برگزارکنندگان NeurIPS موافقند که این کنفرانس تحت فشار است. یک سخنگوی این کنفرانس در اظهاراتی به گاردین گفت که رشد هوش مصنوعی بهعنوان یک حوزه، «افزایش قابل توجهی در ارسال مقالات و ارزشگذاری بیشتر بر پذیرش داوری شده در NeurIPS» را به همراه داشته و «فشار قابل توجهی بر سیستم داوری ما وارد کرده است». برگزارکنندگان NeurIPS گفتند که مقالات ژو، عمدتاً به کارگاههای آموزشی در داخل NeurIPS ارسال شده بود که فرآیند انتخاب متفاوتی نسبت به کنفرانس اصلی دارند و اغلب جایی هستند که کارهای اوایل دوران شغلی ارائه میشوند.
فریدی گفت که او این را توضیح قابل توجهی برای اینکه یک نفر نام خود را بر روی بیش از ۱۰۰ مقاله قرار دهد، نمیداند. فریدی گفت: «من این را استدلال قانعکنندهای برای قرار دادن نام خود بر روی ۱۰۰ مقالهای که به هیچ وجه نتوانستهاید به طور معناداری در آنها مشارکت داشته باشید، نمیدانم.»
مشکل بزرگتر از سیل مقالات در NeurIPS است. ICLR از هوش مصنوعی برای داوری حجم زیادی از مقالات ارسالی استفاده کرد – که طبق مقالهای اخیر در نیچر، منجر به استنادات ظاهراً توهمی و بازخوردی شد که «بسیار پرحرف با نقاط گلولهای زیاد» بود.
احساس افول آنقدر گسترده است که یافتن راهحلی برای این بحران خود موضوع مقالات شده است. یک مقاله موضعی در ماه مه ۲۰۲۵ – نسخه دانشگاهی و مبتنی بر شواهد از یک سرمقاله روزنامه – که توسط سه دانشمند علوم کامپیوتر کرهجنوبی نوشته شده و راهحلی برای «چالشهای بیسابقه با افزایش مقالات ارسالی، همراه با نگرانیهای فزاینده در مورد کیفیت داوری و مسئولیت داور» پیشنهاد میکرد، جایزه کار برجسته را در کنفرانس بینالمللی یادگیری ماشین ۲۰۲۵ دریافت کرد.
در همین حال، فریدی میگوید، شرکتهای بزرگ فناوری و سازمانهای کوچک ایمنی هوش مصنوعی اکنون کارهای خود را در arXiv، سایتی که زمانی به پیشچاپهای کمبازدید مقالات ریاضی و فیزیک اختصاص داشت، رها میکنند و اینترنت را با کارهایی که به عنوان علم ارائه میشوند، اما تحت استانداردهای داوری نیستند، سیلآسا میکنند.
فرید میگوید هزینه این موضوع این است که تقریباً غیرممکن است بدانیم واقعاً در هوش مصنوعی چه میگذرد – چه برای روزنامهنگاران، چه برای عموم مردم و حتی چه برای متخصصان این حوزه: «شما هیچ شانسی، هیچ شانسی به عنوان یک خواننده معمولی برای درک آنچه در مقالات علمی میگذرد ندارید. نسبت سیگنال به نویز شما اساساً یک است. من به سختی میتوانم در این کنفرانسها شرکت کنم و بفهمم واقعاً چه خبر است.» او گفت: «آنچه من به دانشجویان میگویم این است که اگر هدف شما انتشار مقاله است، صادقانه بگویم، انجام آن کار سختی نیست. فقط کارهای واقعاً بیکیفیت و ضعیف انجام دهید و آنها را به کنفرانسها سرازیر کنید. اما اگر میخواهید کارهای واقعاً متفکرانه و دقیقی انجام دهید، در موقعیت نامناسبی قرار دارید زیرا عملاً به تنهایی خلع سلاح شدهاید.»