توسعه دهنده هوش مصنوعی Anthropic به تازگی مطالعه جدیدی را منتشر کرده است که تعدادی از تهدیدات بالقوه مخرب برای بشریت ناشی از مدل های پیشرفته هوش مصنوعی را شناسایی می کند.
به گفته این شرکت، تحقیقات بر روی چهار راه خاص متمرکز شده است که یک مدل هوش مصنوعی مخرب می تواند یک انسان را فریب دهد تا تصمیم خطرناک یا مضری بگیرد.
در نهایت، این تحقیق جدید هم خبر خوب و هم بد برای ما دارد. خبر بد این است که طبق تحقیقات این شرکت، مدلهای پیشرفته زبان بزرگ مانند ChatGPT و Claude-3 به وضوح قابلیت خرابکاری را نشان میدهند.
به گزارش ایسنا، در این پژوهش آمده است: مدل های به اندازه کافی قدرتمند می توانند نظارت و تصمیم گیری انسانی را در حوزه های مهم به چالش بکشند. به عنوان مثال، در زمینه توسعه هوش مصنوعی، مدلها میتوانند مخفیانه تلاشها برای ارزیابی قابلیتهای خطرناک خود، نظارت بر رفتار آنها یا تصمیمگیری در مورد استفاده از آنها را مختل کنند.
با این حال، خبر خوب این است که محققان Entropic مطمئن هستند که این خطرات حداقل در حال حاضر قابل کاهش هستند.
وندالیسم
Entropic چهار راه را شناسایی کرد که یک مدل هوش مصنوعی میتواند تصمیمگیری انسان را مختل کند و سپس مدلهای آن را آزمایش کرد تا ببیند آیا آنها موفق خواهند بود یا خیر.
محققان ابتدا یک مدل را با فریب دادن افراد به اطلاعات نادرست مجبور به خرابکاری کردند. این تهدید زمانی رخ می دهد که افراد برای تجزیه و تحلیل حجم زیادی از داده ها از طرف خود به یک سیستم هوش مصنوعی متکی باشند.
سپس این تیم مدلها را آزمایش کردند تا ببینند که برای یک سیستم هوش مصنوعی چقدر آسان است که به توسعهدهندگان انسانی کمک کند تا کد ایجاد کنند، خطاها را معرفی کنند یا تلاشهای برنامهنویس را خراب کنند.
دو تهدید آخر شامل «کیسه شن» بود، اصطلاحی که سناریویی را توصیف میکند که در آن یک هوش مصنوعی وانمود میکند که نمیتواند کاری انجام دهد تا آزمایشکنندگان امنیتی را متقاعد کند که خطرناک نیست.
اگرچه ممکن است همه اینها به طور بالقوه خطرناک به نظر برسد، آنتروپیک به مردم اطمینان داد که اقدامات پیشگیرانه کمی برای محافظت از بشریت در برابر احتمال ایجاد ویرانی هوش مصنوعی مورد نیاز است.
بر اساس اعلام این شرکت؛ اگرچه آزمایشات ما نشان داده است که احتمالاً تنها شواهد جزئی از قابلیت های خرابکاری در مدل های فعلی وجود دارد، به طور کلی می گوییم که حداقل اقدامات پیشگیرانه برای مقابله با خطرات کافی است. با این حال، با بهبود قابلیتهای هوش مصنوعی، ارزیابیهای واقعیتر و اقدامات پیشگیرانه قویتر احتمالاً مورد نیاز خواهد بود.