صاف کردن هوش مصنوعی: چگونه محققان MIT شکاف بین دید انسان و ماشین را پر می کنند

صاف کردن هوش مصنوعی: چگونه محققان MIT شکاف بین دید انسان و ماشین را پر می کنند

محققان MIT کشف کرده‌اند که آموزش مدل‌های بینایی کامپیوتری با استفاده از آموزش خصمانه می‌تواند صراحت ادراکی آن‌ها را بهبود بخشد و آنها را بیشتر شبیه پردازش بصری انسان کند. صراحت ادراکی مدل ها را قادر می سازد تا حرکات اجسام را بهتر پیش بینی کنند و به طور بالقوه ایمنی وسایل نقلیه خودران را بهبود بخشند. مدل‌های آموزش‌دیده خصمانه قوی‌تر هستند و با وجود تغییرات جزئی در تصاویر، بازنمایی ثابتی از اشیاء را حفظ می‌کنند. هدف محققان این است که از یافته‌های خود برای ایجاد طرح‌های آموزشی جدید استفاده کنند و بیشتر بررسی کنند که چرا آموزش خصمانه به مدل‌ها کمک می‌کند تا ادراک انسان را تقلید کنند.

محققان ویژگی‌هایی را شناسایی می‌کنند که به مدل‌های بینایی کامپیوتری کمک می‌کند یاد بگیرند که جهان بصری را به روشی پایدارتر و قابل پیش‌بینی نشان دهند.

محققان MIT دریافتند که آموزش خصومت‌آمیز، صراحت ادراکی را در مدل‌های بینایی کامپیوتری بهبود می‌بخشد، و آنها را شبیه‌تر به پردازش بصری انسان می‌کند و امکان پیش‌بینی بهتر حرکات اجسام را فراهم می‌کند.

تصور کنید روی یک نیمکت پارک نشسته اید و کسی را در حال قدم زدن در کنار آن تماشا می کنید. در حالی که ممکن است با راه رفتن فرد صحنه دائماً تغییر کند، مغز انسان می‌تواند این اطلاعات بصری پویا را در طول زمان به بازنمایی پایدارتر تبدیل کند. این توانایی که به عنوان صاف کردن ادراکی شناخته می شود، به ما کمک می کند مسیر حرکت فرد در حال راه رفتن را پیش بینی کنیم.

برخلاف انسان‌ها، مدل‌های بینایی کامپیوتری معمولاً صراحت ادراکی را نشان نمی‌دهند، بنابراین یاد می‌گیرند که اطلاعات بصری را به روشی بسیار غیرقابل پیش‌بینی نشان دهند. اما اگر مدل‌های یادگیری ماشینی این توانایی را داشته باشند، ممکن است آنها را قادر سازد تا نحوه حرکت اجسام یا افراد را بهتر تخمین بزنند.

محققان MIT کشف کرده‌اند که یک روش آموزشی خاص می‌تواند به مدل‌های بینایی کامپیوتری کمک کند تا بازنمایی‌های مستقیم ادراکی بیشتری مانند انسان‌ها بیاموزند. آموزش شامل نشان دادن میلیون ها نمونه مدل یادگیری ماشینی است تا بتواند یک کار را یاد بگیرد.

محققان دریافتند که آموزش مدل‌های بینایی رایانه‌ای با استفاده از تکنیکی به نام آموزش متخاصم، که باعث می‌شود واکنش کمتری نسبت به خطاهای کوچک اضافه شده به تصاویر داشته باشند، صراحت ادراکی مدل‌ها را بهبود می‌بخشد.

آموزش ماشین‌ها برای یادگیری بیشتر مانند انسان‌ها

محققان MIT کشف کردند که یک تکنیک آموزشی خاص می‌تواند انواع خاصی از مدل‌های بینایی رایانه‌ای را قادر سازد تا بازنمایی‌های بصری پایدارتر و قابل پیش‌بینی‌تری را بیاموزند، که بیشتر شبیه به آن چیزی است که انسان با استفاده از یک ویژگی بیولوژیکی به نام صاف کردن ادراکی یاد می‌گیرد. اعتبار: MIT News با iStock

این تیم همچنین دریافتند که صراحت ادراکی تحت تأثیر وظیفه ای است که فرد یک مدل را برای انجام آن آموزش می دهد. مدل‌هایی که برای انجام کارهای انتزاعی، مانند طبقه‌بندی تصاویر، آموزش دیده‌اند، بازنمایی‌های مستقیم ادراکی بیشتری را نسبت به مدل‌هایی که برای انجام کارهای ریزدانه‌تر آموزش دیده‌اند، مانند تخصیص هر پیکسل در یک تصویر به یک دسته، یاد می‌گیرند.

به عنوان مثال، گره‌های درون مدل دارای فعال‌سازی‌های داخلی هستند که نشان‌دهنده «سگ» است، که به مدل اجازه می‌دهد وقتی هر تصویری از سگ را می‌بیند، سگ را تشخیص دهد. نمایش‌های مستقیم ادراکی، هنگامی که تغییرات کوچکی در تصویر ایجاد می‌شود، بازنمایی «سگی» پایدارتری را حفظ می‌کنند. این باعث می شود آنها قوی تر شوند.

با به دست آوردن درک بهتری از صراحت ادراکی در بینایی کامپیوتری، محققان امیدوارند که بینش هایی را کشف کنند که می تواند به آنها در توسعه مدل هایی کمک کند که پیش بینی های دقیق تری انجام دهند. به عنوان مثال، این ویژگی ممکن است ایمنی وسایل نقلیه خودران را که از مدل‌های بینایی کامپیوتری برای پیش‌بینی مسیر عابران پیاده، دوچرخه‌سواران و سایر وسایل نقلیه استفاده می‌کنند، بهبود بخشد.

واشا دوتل می‌گوید: «یکی از پیام‌های مهم در اینجا این است که الهام گرفتن از سیستم‌های بیولوژیکی، مانند بینایی انسان، هم می‌تواند به شما بینشی در مورد اینکه چرا بعضی چیزها به همان شیوه‌ای که انجام می‌دهند کار می‌کنند و هم ایده‌هایی برای بهبود شبکه‌های عصبی القا می‌کند.» ، فوق دکترای MIT و یکی از نویسندگان مقاله ای که به بررسی صراحت ادراکی در بینایی کامپیوتری می پردازد.

نویسنده اصلی آن، آن هرینگتون، دانشجوی کارشناسی ارشد در گروه مهندسی برق و علوم کامپیوتر (EECS) به DuTell در این مقاله می‌پیوندند. آیوش تیواری، فوق دکتری؛ مارک همیلتون، دانشجوی کارشناسی ارشد؛ سایمون استنت، مدیر تحقیقات Woven Planet. روت روزنهولتز، محقق اصلی در بخش مغز و علوم شناختی و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL). و نویسنده ارشد ویلیام تی فریمن، پروفسور توماس و گرد پرکینز در مهندسی برق و علوم کامپیوتر و عضو CSAIL. این تحقیق در کنفرانس بین‌المللی نمایش‌های یادگیری ارائه شده است.

مطالعه صاف کردن

دوتل، هرینگتون و همکارانشان پس از خواندن مقاله ای در سال 2019 از تیمی از محققان دانشگاه نیویورک در مورد صراحت ادراکی در انسان، به این فکر کردند که آیا این ویژگی ممکن است در مدل های بینایی کامپیوتری نیز مفید باشد.

آنها تصمیم گرفتند تا تعیین کنند که آیا انواع مختلف مدل‌های بینایی کامپیوتری، نمایش‌های بصری را که یاد می‌گیرند صاف می‌کنند یا خیر. آن‌ها به هر مدل فریم‌های یک ویدیو داده و سپس نمایش را در مراحل مختلف فرآیند یادگیری آن بررسی کردند.

اگر نمایش مدل به روشی قابل پیش بینی در فریم های ویدیو تغییر کند، آن مدل در حال صاف شدن است. در پایان، نمایش خروجی آن باید پایدارتر از نمایش ورودی باشد.

«می‌توانید نمایش را به‌عنوان یک خط در نظر بگیرید که واقعاً خمیده شروع می‌شود. DuTell توضیح می‌دهد که مدلی که صاف می‌شود، می‌تواند آن خط منحنی را از ویدیو بگیرد و آن را از طریق مراحل پردازش خود صاف کند.

اکثر مدل هایی که آزمایش کردند صاف نشدند. از تعداد معدودی که این کار را انجام دادند، آنهایی که به طور مؤثری صاف شدند، برای کارهای طبقه بندی با استفاده از تکنیک معروف به آموزش خصمانه آموزش دیده بودند.

آموزش خصمانه شامل تغییر نامحسوس تصاویر با تغییر اندکی هر پیکسل است. در حالی که یک انسان متوجه تفاوت نمی شود، این تغییرات جزئی می تواند ماشین را فریب دهد تا تصویر را به اشتباه طبقه بندی کند. آموزش خصمانه مدل را قوی تر می کند، بنابراین فریب این دستکاری ها نمی شود.

هرینگتون توضیح می دهد که از آنجایی که آموزش خصمانه به مدل می آموزد که نسبت به تغییرات جزئی در تصاویر واکنش کمتری نشان دهد، این به آن کمک می کند تا نمایشی را بیاموزد که در طول زمان قابل پیش بینی تر است.

او می‌گوید: «مردم قبلاً این ایده را داشتند که آموزش دشمنی ممکن است به شما کمک کند مدل خود را بیشتر شبیه یک انسان کنید، و جالب بود که ببینید آن را به ویژگی دیگری که مردم قبلاً آزمایش نکرده بودند منتقل کنید.

اما محققان دریافتند که مدل‌هایی که به‌صورت خصمانه آموزش دیده‌اند، تنها زمانی یاد می‌گیرند که برای کارهای گسترده، مانند طبقه‌بندی کل تصاویر به دسته‌ها، آموزش ببینند. مدل‌هایی که وظیفه تقسیم‌بندی را بر عهده داشتند – برچسب‌گذاری هر پیکسل در یک تصویر به عنوان یک کلاس خاص – حتی زمانی که به صورت خصمانه آموزش دیده بودند، صاف نشدند.

طبقه بندی منسجم

محققان این مدل‌های طبقه‌بندی تصویر را با نمایش فیلم‌ها آزمایش کردند. آنها دریافتند که مدل‌هایی که بازنمایی‌های مستقیم ادراکی بیشتری یاد می‌گیرند، تمایل دارند اشیاء موجود در فیلم‌ها را به‌طور مداوم طبقه‌بندی کنند.

دوتل می‌گوید: «برای من، شگفت‌انگیز است که این مدل‌های آموزش‌دیده، که هرگز ویدئویی را ندیده‌اند و هرگز بر روی داده‌های زمانی آموزش ندیده‌اند، هنوز مقداری صاف کردن را نشان می‌دهند.

او توضیح می‌دهد که محققان دقیقاً نمی‌دانند که فرآیند آموزش خصمانه چه چیزی یک مدل بینایی رایانه‌ای را قادر می‌سازد تا صاف شود، اما نتایج آنها نشان می‌دهد که طرح‌های آموزشی قوی‌تر باعث می‌شود مدل‌ها بیشتر صاف شوند.

بر اساس این کار، محققان می‌خواهند از آموخته‌های خود برای ایجاد طرح‌های آموزشی جدید استفاده کنند که به صراحت این ویژگی را به مدلی بدهد. آن‌ها همچنین می‌خواهند در آموزش خصمانه عمیق‌تر کاوش کنند تا بفهمند چرا این فرآیند به یک مدل کمک می‌کند.

از نقطه نظر بیولوژیکی، آموزش خصمانه لزوما معنی ندارد. اینطور نیست که انسان ها دنیا را درک کنند. هرینگتون می‌گوید: «هنوز سؤالات زیادی در مورد اینکه چرا به نظر می‌رسد این فرآیند آموزشی به مدل‌ها کمک می‌کند بیشتر شبیه انسان‌ها عمل کنند، وجود دارد.

بیل لاتتر، استادیار مؤسسه سرطان دانا-فاربر و دانشکده پزشکی هاروارد که در این تحقیق دخالتی نداشت، می‌گوید: «درک بازنمایی‌های آموخته‌شده توسط شبکه‌های عصبی عمیق برای بهبود ویژگی‌هایی مانند استحکام و تعمیم حیاتی است. هرینگتون و همکاران ارزیابی گسترده ای از نحوه تغییر نمایش مدل های بینایی کامپیوتری در طول زمان هنگام پردازش فیلم های طبیعی انجام دهید، که نشان می دهد انحنای این مسیرها بسته به معماری مدل، ویژگی های آموزشی و وظیفه بسیار متفاوت است. این یافته‌ها می‌تواند به توسعه مدل‌های بهبودیافته کمک کند و همچنین بینش‌هایی را در مورد پردازش بصری بیولوژیکی ارائه دهد.

این مقاله تأیید می‌کند که صاف کردن ویدیوهای طبیعی یک ویژگی نسبتاً منحصر به فرد است که توسط سیستم بینایی انسان نمایش داده می‌شود. الیویه هناف، دانشمند پژوهشی در DeepMind که در این تحقیق دخالتی نداشت، می‌گوید فقط شبکه‌های آموزش دیده مخالف آن را نمایش می‌دهند، که ارتباط جالبی با نشانه دیگری از ادراک انسان ایجاد می‌کند: استحکام آن در برابر تغییرات تصویری مختلف، چه طبیعی یا مصنوعی. «این که حتی مدل‌های تقسیم‌بندی صحنه آموزش دیده مخالف، ورودی‌های خود را درست نمی‌کنند، سؤالات مهمی را برای کار آینده ایجاد می‌کند: آیا انسان‌ها صحنه‌های طبیعی را به همان روشی که مدل‌های بینایی رایانه‌ای تجزیه می‌کنند؟ چگونه می توان مسیر حرکت اجسام در حال حرکت را نشان داد و پیش بینی کرد و در عین حال به جزئیات فضایی آنها حساس بود؟ در ارتباط فرضیه صاف کردن با سایر جنبه های رفتار بصری،

مرجع: “کاوش در صراحت ادراکی در بازنمایی های بصری آموخته شده” توسط آن هرینگتون، واشا دوتل، آیوش تواری، مارک همیلتون، سایمون استنت، روث روزنهولتز و ویلیام تی فریمن، ICLR 2023.
PDF

این تحقیق تا حدی توسط موسسه تحقیقاتی تویوتا، MIT CSAIL METEOR Fellowship، بنیاد ملی علوم، آزمایشگاه تحقیقاتی نیروی هوایی ایالات متحده و شتاب دهنده هوش مصنوعی نیروی هوایی ایالات متحده تامین می شود.

0/5 (0 نظر)

اشتراک گذاری پست

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


BAGHI/09120201982
تماس بگیرید

سلام , وقت بخیر

کارشناسان سئو دل بعد از بررسی در خواست شما در اسرع وقت با شما تماس میگیرند