هوش مصنوعی روزی آگاهانه ویران می کند

نویسنده: نگین یوسف پور
تاریخ: 29 مهر 1403
ساعت انتشار: 01:12
دسته بندی: اخبار روز
کد خبر: 716931

توسعه دهنده هوش مصنوعی Anthropic به تازگی مطالعه جدیدی را منتشر کرده است که تعدادی از تهدیدات بالقوه مخرب برای بشریت ناشی از مدل های پیشرفته هوش مصنوعی را شناسایی می کند.

به گفته این شرکت، تحقیقات بر روی چهار راه خاص متمرکز شده است که یک مدل هوش مصنوعی مخرب می تواند یک انسان را فریب دهد تا تصمیم خطرناک یا مضری بگیرد.

در نهایت، این تحقیق جدید هم خبر خوب و هم بد برای ما دارد. خبر بد این است که طبق تحقیقات این شرکت، مدل‌های پیشرفته زبان بزرگ مانند ChatGPT و Claude-3 به وضوح قابلیت خرابکاری را نشان می‌دهند.

به گزارش ایسنا، در این پژوهش آمده است: مدل های به اندازه کافی قدرتمند می توانند نظارت و تصمیم گیری انسانی را در حوزه های مهم به چالش بکشند. به عنوان مثال، در زمینه توسعه هوش مصنوعی، مدل‌ها می‌توانند مخفیانه تلاش‌ها برای ارزیابی قابلیت‌های خطرناک خود، نظارت بر رفتار آن‌ها یا تصمیم‌گیری در مورد استفاده از آن‌ها را مختل کنند.

با این حال، خبر خوب این است که محققان Entropic مطمئن هستند که این خطرات حداقل در حال حاضر قابل کاهش هستند.

وندالیسم

Entropic چهار راه را شناسایی کرد که یک مدل هوش مصنوعی می‌تواند تصمیم‌گیری انسان را مختل کند و سپس مدل‌های آن را آزمایش کرد تا ببیند آیا آنها موفق خواهند بود یا خیر.

محققان ابتدا یک مدل را با فریب دادن افراد به اطلاعات نادرست مجبور به خرابکاری کردند. این تهدید زمانی رخ می دهد که افراد برای تجزیه و تحلیل حجم زیادی از داده ها از طرف خود به یک سیستم هوش مصنوعی متکی باشند.

سپس این تیم مدل‌ها را آزمایش کردند تا ببینند که برای یک سیستم هوش مصنوعی چقدر آسان است که به توسعه‌دهندگان انسانی کمک کند تا کد ایجاد کنند، خطاها را معرفی کنند یا تلاش‌های برنامه‌نویس را خراب کنند.

دو تهدید آخر شامل «کیسه شن» بود، اصطلاحی که سناریویی را توصیف می‌کند که در آن یک هوش مصنوعی وانمود می‌کند که نمی‌تواند کاری انجام دهد تا آزمایش‌کنندگان امنیتی را متقاعد کند که خطرناک نیست.

اگرچه ممکن است همه اینها به طور بالقوه خطرناک به نظر برسد، آنتروپیک به مردم اطمینان داد که اقدامات پیشگیرانه کمی برای محافظت از بشریت در برابر احتمال ایجاد ویرانی هوش مصنوعی مورد نیاز است.

بر اساس اعلام این شرکت؛ اگرچه آزمایشات ما نشان داده است که احتمالاً تنها شواهد جزئی از قابلیت های خرابکاری در مدل های فعلی وجود دارد، به طور کلی می گوییم که حداقل اقدامات پیشگیرانه برای مقابله با خطرات کافی است. با این حال، با بهبود قابلیت‌های هوش مصنوعی، ارزیابی‌های واقعی‌تر و اقدامات پیشگیرانه قوی‌تر احتمالاً مورد نیاز خواهد بود.