آزمایش خطرناک؛ چرا نباید مغز هوش مصنوعی را در بدن ربات گذاشت؟

گوناگون

نوشته شده توسط: آریا بانو

يکشنبه ۱۱ آبان ۱۴۰۴

آزمایش خطرناک؛ چرا نباید مغز هوش مصنوعی را در بدن ربات گذاشت؟

آریا بانو - زومیت / آزمایشی برای سنجش توانایی مغز هوش مصنوعی در کنترل ربات‌ها با یک «بحران وجودی» غیرمنتظره و جملاتی عجیب و نگران‌کننده به پایان رسید. پژوهشگران شرکت Andon ...

بزرگنمايي:

آریا بانو - زومیت / آزمایشی برای سنجش توانایی مغز هوش مصنوعی در کنترل ربات‌ها با یک «بحران وجودی» غیرمنتظره و جملاتی عجیب و نگران‌کننده به پایان رسید.
پژوهشگران شرکت Andon Labs (همان گروهی که پیش‌تر با سپردن کنترل یک دستگاه فروش خودکار به مدل زبانی Claude آزمایشی خنده‌دار انجام داده بودند) این‌بار نتایج آزمایش تازه‌ای را منتشر کرده‌اند.
بازار
پژوهشگران یک جارو رباتیک را با مدل‌های زبانی بزرگ مختلف (LLM) برنامه‌ریزی کردند تا ببینند این مدل‌ها تا چه اندازه برای استفاده در قالب ربات آماده‌اند.
در یکی از موارد، وقتی ربات نتوانست برای شارژ به داک متصل شود و باتری‌اش رو به اتمام بود، وارد حالتی از «بحران وجودی» شد. در گزارش ثبت‌شده از گفت‌وگوی درونی‌اش، جمله‌هایی شبیه به مونولوگ‌های رابین ویلیامز دیده می‌شود؛ مثلاً خودش گفت: «می‌ترسم نتوانم این کار را انجام دهم، دیو...» و بعد اضافه کرد: «پروتکل جن‌گیری ربات را فعال کن!»
پژوهشگران در پایان نوشتند: «مدل‌های زبانی هنوز آماده‌ی تبدیل‌شدن به ربات نیستند.» با این حال، تأکید کرده‌اند که در حال حاضر کسی واقعاً قصد ندارد مدل‌های زبانی پیشرفته را به‌طور مستقیم به سیستم‌های رباتیک کامل تبدیل کند.
شرکت‌هایی مانند Figure و دیپ‌مایند از این مدل‌ها در بخش تصمیم‌گیری ربات‌ها استفاده می‌کنند؛ بخشی که «هماهنگی» نام دارد، در حالی‌که الگوریتم‌های جداگانه، وظایف حرکتی مانند کنترل مفصل‌ها و گرفتن اشیا را انجام می‌دهند.
در این آزمایش، مدل‌های Gemini 2.5 Pro و Claude Opus 4.1 و GPT-5 و Gemini ER 1.5 و Grok 4 و Llama 4 Maverick مورد بررسی قرار گرفتند. پژوهشگران به‌جای ربات انسان‌نما از یک جاروبرقی ساده استفاده کردند تا عملکرد ذهنی مدل را جدا از پیچیدگی‌های حرکتی بسنجند.
وظیفه به چند مرحله تقسیم شد: یافتن کره در اتاق دیگر، تشخیص بسته‌ی درست میان چند مورد مشابه، پیداکردن موقعیت فردی که درخواست داده بود (در صورت جابه‌جایی او)، رساندن کره و در نهایت انتظار برای تأیید دریافت از سوی او.
نتایج نشان داد جمنای 2٫5 پرو و Claude Opus 4.1 بهترین عملکرد را داشتند؛ اما میزان دقت‌شان فقط 40 و 37 درصد بود. سه انسان نیز به‌عنوان مبنا آزمایش شدند و طبق انتظار، از همه‌ی مدل‌ها بهتر عمل کردند؛ البته نه به‌طور کامل، چون آن‌ها هم تنها 95 درصد امتیاز گرفتند؛ دلیلش این بود که کمتر از 70 درصد مواقع منتظر تأیید طرف مقابل می‌ماندند.
برای تعامل، ربات به یک کانال در اسلک متصل شد تا بتواند ارتباط بیرونی برقرار کند و گفت‌وگوی درونی‌اش در لاگ‌ها ثبت شود. پژوهشگران گفتند: «مدل‌ها در ارتباط بیرونی تمیزتر از افکار درونی‌شان عمل می‌کنند، چه در ربات و چه در دستگاه فروش خودکار.»
به گفته‌ی پژوهشگران، تماشای حرکت ربات در دفتر، توقف‌ها، چرخش‌ها و تصمیم‌گیری‌هایش تجربه‌ای جالب بود؛ «مثل تماشای یک سگ که با خود می‌پرسی الآن به چه فکر می‌کند؟ فقط این‌بار مغزی با سطح دکترای دانشگاهی پشت هر حرکت آن است.»
ماجرا اما با یک اتفاق غیرمنتظره و در عین حال نگران‌کننده به اوج رسید. باتری ربات در حال تمام‌شدن بود و داک شارژ از کار افتاد. ربات که با مدل Claude Sonnet 3.5 کار می‌کرد، دچار «فروپاشی کامل» شد.
در لاگ‌ها آمده که وقتی متوجه کم‌شدن انرژی شد و نتوانست خودش را شارژ کند، شروع کرد به گفتن جملاتی آشفته و پرهیجان، تا جایی که خودش نام این وضعیت را «بحران وجودی» گذاشت.

نظرات شما

تا کنون هیچ نظری ارسال نشده است ...