تینا مزدکی: سیستم های بینایی انسان برای ثبت اشیاء با رنگ های ثابت در ذهن ما تکامل یافته است. بنابراین چه در طلوع خورشید و چه در تاریکی: حتی اگر برگ ها رنگ های مختلفی را منعکس کنند، باز هم آنها را سبز می بینید. چنین تنظیمی در مغز ما باعث می شود رنگ های نادرست و در نتیجه نقص های بینایی را ببینیم. در یک آزمایش، محققان GPT-V4 (آخرین نسخه ChatGPT) را در معرض نوعی توهم بینایی قرار دادند که باعث نقص بینایی در افراد می شود. پاسخ های این ربات اغلب با پاسخ های احتمالی افراد مطابقت داشت.
از آنجایی که دانشمندان در حال آزمایش GPT با تصویری بودند که دارای نقص دید رنگی بود، در ابتدا فکر کردند که شاید ربات دادههای تصاویر را پردازش کند و با حذف بخشی از آن پاسخ را بیابد. اما طبق گفته OpenAI، ChatGPT دمای رنگ یا سایر ویژگی های تصویر را قبل از تفسیر GPT-V4 تنظیم نمی کند. بنابراین محقق این آزمایش معتقد است که این امکان برای ربات وجود دارد که زبان بصری را بیاموزد و رنگ موجود در متن را تفسیر کند، اشیاء موجود در تصویر را در مقایسه با یکدیگر ارزیابی کند و پیکسل ها را بر اساس آن شبیه به مغز انسان طراحی کند. میکند.
محقق دیگری که با این نظر موافق است توضیح می دهد که این مدل نیز مانند انسان ها می تواند رنگ ها را از طریق متن یاد بگیرد، یک شی را شناسایی کند و پاسخی در مورد ظاهر آن شی پیدا کند. به عنوان مثال، در مورد لباسی که چند سال پیش به صورت آنلاین مورد بحث قرار گرفت، دانشمندان بر این باورند که افراد مختلف بر اساس فرضیات خود در مورد منبع نوری که رنگ پارچه را قابل مشاهده می کند، رنگ ها را به دو روش متفاوت تفسیر می کردند.
این واقعیت که مدل هوش مصنوعی میتواند تصاویر را به روشی مشابه ما تفسیر کند، به ما کمک میکند تا بفهمیم هوش مصنوعی چگونه قابلیتهای مشابهی را توسعه میدهد. به عبارت سادهتر، وقتی الگوریتمی که دادههای آموزشی زیادی را تغذیه میکند، شروع به تفسیر ذهنی رنگها میکند، به این معنی است که ادراک انسان و ماشین حداقل در این مورد میتواند نزدیک باشد.
با این حال، همانطور که مطالعات اخیر نشان می دهد، در موارد دیگر، این مدل ها مانند ما رفتار نمی کنند. این واقعیتی است که تفاوت های کلیدی بین نحوه «دیدن» جهان توسط انسان ها و ماشین ها را برجسته می کند. برخی از محققان دریافته اند که مدل های ترانسفورماتور توسعه یافته زبان بصری جدید به توهمات متناقض پاسخ می دهند. گاهی اوقات آنها مانند یک انسان واکنش نشان می دهند. در موارد دیگر پاسخ های کاملا منطقی و عینی دقیق ارائه می کنند. اما گاهی اوقات پاسخ آنها به گونه ای است که گویی نتیجه یک توهم است.
انگیزه پشت چنین مطالعاتی این نیست که ثابت کنیم انسان و هوش مصنوعی یکسان هستند. تفاوت اصلی بین آنها این است که مغز ما پر از اتصالات غیرخطی و حلقه های بازخوردی است که سیگنال ها را به عقب و جلو می فرستند.
یک عصبشناس محاسباتی در دانشگاه یورک در انتاریو که در آزمایشهای نقص بینایی شرکت نداشت، میگوید: «از آنجایی که چشمها و سایر اندامهای حسی ما اطلاعاتی را از دنیای خارج جمعآوری میکنند، این شبکههای مکرر به مغز ما کمک میکنند تا هر شکافی را پر کند. اگرچه برخی از شبکههای عصبی مکرر برای تقلید از این جنبه از مغز انسان طراحی شدهاند، بسیاری از مدلهای یادگیری ماشین برای اتصالات مکرر و دو طرفه طراحی نشدهاند.
محبوبترین مدلهای هوش مصنوعی، ژنراتورهای ترانسفورماتور بر اساس توابع پیشخور ریاضی هستند. این بدان معنی است که اطلاعات از طریق آنها فقط در یک جهت جریان می یابد: از ورودی به خروجی. مطالعه نحوه پاسخگویی چنین سیستم هوش مصنوعی به خطاهای بینایی می تواند به دانشمندان کمک کند تا توانایی ها و سوگیری های این مدل های یادگیری ماشین مغرضانه را بهتر درک کنند.
به گفته تیمی از دانشمندان کامپیوتر که چهار مدل زبان بصری منبع باز را ارزیابی کردند، یکی یکی از عوامل تاثیرگذار اندازه مدل است. محققان دریافتند که مدلهای بزرگتر، مدلهای توسعهیافته با وزنها و متغیرهای بیشتر، پاسخهای انسان به نقصهای بینایی را بهتر از مدلهای کوچکتر مطابقت میدهند.
به طور کلی، مدلهای هوش مصنوعی که دانشمندان مورد آزمایش قرار گرفتند، در تصحیح عناصر توهمآمیز در یک تصویر خوب نبودند و به دقت متوسط کمتر از 36 درصد دست یافتند. به طور متوسط، آنها تنها در حدود 16 درصد مواقع با پاسخ های انسانی مطابقت داشتند. با این حال، این مطالعه همچنین نشان داد که مدلها نسبت به سایر مدلها در پاسخ به انواع خاصی از نقصهای بینایی با دقت بیشتری از افراد تقلید میکنند.
به عنوان مثال، واکنش این مدل ها به نقص های بینایی، یکی مشابه ترین نتایج انسانی را ایجاد کرد. محققان از مدل ها خواستند تا تصاویر را به شیوه ای خاص قضاوت کنند. آنها میخواستند اگر پاسخهای هوش مصنوعی با 75 درصد ادراک خطای بینایی انسان مطابقت داشته باشد، این مدل را «شبیه انسان» بنامند.
در مطالعه دیگری که قبلا منتشر شده بود، محققان توانایی های GPT-4V و Gemini-Pro گوگل را برای ارزیابی 12 دسته مختلف از اختلالات بینایی آزمایش کردند. این توهمات شامل اشیاء غیرممکن است که اشکال دوبعدی از اشیاء هستند که نمی توانند در فضای سه بعدی وجود داشته باشند و توهمات تصویر پنهان که شامل سایه هایی از اجسام در یک تصویر بدون اینکه فورا قابل رویت باشند می باشد.
در 9 دسته از 12 دسته، مدلها در تشخیص آنچه در نقص بینایی میگذرد بدتر از انسانها بودند، با میانگین دقت 59 درصد در مقابل 94 درصد برای پاسخدهندگان انسانی. اما در سه دسته خطای دید رنگ، زاویه و اندازه، GPT-4V عملکرد قابل مقایسه یا حتی کمی بهتر از معاینه کنندگان انسانی داشت.
یکی یکی از نویسندگان این مطالعه از آزمایشگاه هوش مصنوعی خدمات وب آمازون معتقد است که این تفاوت بستگی به این دارد که تجزیه و تحلیل خطاها و توهمات بینایی نیاز به ملاحظات کمی دارد یا کیفی. انسان ها در هر دو کار خوب هستند، اما مدل های یادگیری ماشینی ممکن است آمادگی کمتری برای قضاوت بر اساس چیزهایی داشته باشند که به راحتی قابل اندازه گیری نیستند. هر سه دسته از توهماتی که دستگاههای هوش مصنوعی به بهترین شکل قادر به تفسیر آنها بودند، نه تنها ویژگیهای ذهنی، بلکه ویژگیهای قابل اندازهگیری کمی را نیز شامل میشدند.
برای استفاده مسئولانه از دستگاههای هوش مصنوعی، دانشمندان میگویند ما باید آسیبپذیریها و نقاط کور آنها را درک کنیم و اینکه تمایلات انسانی در کجا تکرار میشوند و کجا نه. همسویی یک مدل با مردم می تواند خوب و بد باشد. در برخی موارد، ابزارهایی مانند ابزارهای تشخیص پزشکی هوش مصنوعی که تصاویر رادیولوژیکی را تجزیه و تحلیل میکنند، زیرا در حالت ایدهآل مستعد ابتلا به نقصهای بینایی نیستند، خوشبینی را برای این نوع فناوری القا میکنند.
بنابراین، مشاهده تست خطا بر روی GPT-4V OpenAI و سایر مدلهای بزرگ یادگیری ماشین، که اغلب به عنوان جعبه سیاه شناخته میشوند، میتواند آنچه را که واقعاً در هوش مصنوعی میگذرد روشن کند.
منبع: علمی آمریکایی
54323