صاف کردن هوش مصنوعی: چگونه محققان MIT شکاف بین دید انسان و ماشین را پر می کنند
محققان MIT کشف کردهاند که آموزش مدلهای بینایی کامپیوتری با استفاده از آموزش خصمانه میتواند صراحت ادراکی آنها را بهبود بخشد و آنها را بیشتر شبیه پردازش بصری انسان کند. صراحت ادراکی مدل ها را قادر می سازد تا حرکات اجسام را بهتر پیش بینی کنند و به طور بالقوه ایمنی وسایل نقلیه خودران را بهبود بخشند. مدلهای آموزشدیده خصمانه قویتر هستند و با وجود تغییرات جزئی در تصاویر، بازنمایی ثابتی از اشیاء را حفظ میکنند. هدف محققان این است که از یافتههای خود برای ایجاد طرحهای آموزشی جدید استفاده کنند و بیشتر بررسی کنند که چرا آموزش خصمانه به مدلها کمک میکند تا ادراک انسان را تقلید کنند.
محققان ویژگیهایی را شناسایی میکنند که به مدلهای بینایی کامپیوتری کمک میکند یاد بگیرند که جهان بصری را به روشی پایدارتر و قابل پیشبینی نشان دهند.
محققان MIT دریافتند که آموزش خصومتآمیز، صراحت ادراکی را در مدلهای بینایی کامپیوتری بهبود میبخشد، و آنها را شبیهتر به پردازش بصری انسان میکند و امکان پیشبینی بهتر حرکات اجسام را فراهم میکند.
تصور کنید روی یک نیمکت پارک نشسته اید و کسی را در حال قدم زدن در کنار آن تماشا می کنید. در حالی که ممکن است با راه رفتن فرد صحنه دائماً تغییر کند، مغز انسان میتواند این اطلاعات بصری پویا را در طول زمان به بازنمایی پایدارتر تبدیل کند. این توانایی که به عنوان صاف کردن ادراکی شناخته می شود، به ما کمک می کند مسیر حرکت فرد در حال راه رفتن را پیش بینی کنیم.
برخلاف انسانها، مدلهای بینایی کامپیوتری معمولاً صراحت ادراکی را نشان نمیدهند، بنابراین یاد میگیرند که اطلاعات بصری را به روشی بسیار غیرقابل پیشبینی نشان دهند. اما اگر مدلهای یادگیری ماشینی این توانایی را داشته باشند، ممکن است آنها را قادر سازد تا نحوه حرکت اجسام یا افراد را بهتر تخمین بزنند.
محققان MIT کشف کردهاند که یک روش آموزشی خاص میتواند به مدلهای بینایی کامپیوتری کمک کند تا بازنماییهای مستقیم ادراکی بیشتری مانند انسانها بیاموزند. آموزش شامل نشان دادن میلیون ها نمونه مدل یادگیری ماشینی است تا بتواند یک کار را یاد بگیرد.
محققان دریافتند که آموزش مدلهای بینایی رایانهای با استفاده از تکنیکی به نام آموزش متخاصم، که باعث میشود واکنش کمتری نسبت به خطاهای کوچک اضافه شده به تصاویر داشته باشند، صراحت ادراکی مدلها را بهبود میبخشد.
محققان MIT کشف کردند که یک تکنیک آموزشی خاص میتواند انواع خاصی از مدلهای بینایی رایانهای را قادر سازد تا بازنماییهای بصری پایدارتر و قابل پیشبینیتری را بیاموزند، که بیشتر شبیه به آن چیزی است که انسان با استفاده از یک ویژگی بیولوژیکی به نام صاف کردن ادراکی یاد میگیرد. اعتبار: MIT News با iStock
این تیم همچنین دریافتند که صراحت ادراکی تحت تأثیر وظیفه ای است که فرد یک مدل را برای انجام آن آموزش می دهد. مدلهایی که برای انجام کارهای انتزاعی، مانند طبقهبندی تصاویر، آموزش دیدهاند، بازنماییهای مستقیم ادراکی بیشتری را نسبت به مدلهایی که برای انجام کارهای ریزدانهتر آموزش دیدهاند، مانند تخصیص هر پیکسل در یک تصویر به یک دسته، یاد میگیرند.
به عنوان مثال، گرههای درون مدل دارای فعالسازیهای داخلی هستند که نشاندهنده «سگ» است، که به مدل اجازه میدهد وقتی هر تصویری از سگ را میبیند، سگ را تشخیص دهد. نمایشهای مستقیم ادراکی، هنگامی که تغییرات کوچکی در تصویر ایجاد میشود، بازنمایی «سگی» پایدارتری را حفظ میکنند. این باعث می شود آنها قوی تر شوند.
با به دست آوردن درک بهتری از صراحت ادراکی در بینایی کامپیوتری، محققان امیدوارند که بینش هایی را کشف کنند که می تواند به آنها در توسعه مدل هایی کمک کند که پیش بینی های دقیق تری انجام دهند. به عنوان مثال، این ویژگی ممکن است ایمنی وسایل نقلیه خودران را که از مدلهای بینایی کامپیوتری برای پیشبینی مسیر عابران پیاده، دوچرخهسواران و سایر وسایل نقلیه استفاده میکنند، بهبود بخشد.
واشا دوتل میگوید: «یکی از پیامهای مهم در اینجا این است که الهام گرفتن از سیستمهای بیولوژیکی، مانند بینایی انسان، هم میتواند به شما بینشی در مورد اینکه چرا بعضی چیزها به همان شیوهای که انجام میدهند کار میکنند و هم ایدههایی برای بهبود شبکههای عصبی القا میکند.» ، فوق دکترای MIT و یکی از نویسندگان مقاله ای که به بررسی صراحت ادراکی در بینایی کامپیوتری می پردازد.
نویسنده اصلی آن، آن هرینگتون، دانشجوی کارشناسی ارشد در گروه مهندسی برق و علوم کامپیوتر (EECS) به DuTell در این مقاله میپیوندند. آیوش تیواری، فوق دکتری؛ مارک همیلتون، دانشجوی کارشناسی ارشد؛ سایمون استنت، مدیر تحقیقات Woven Planet. روت روزنهولتز، محقق اصلی در بخش مغز و علوم شناختی و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL). و نویسنده ارشد ویلیام تی فریمن، پروفسور توماس و گرد پرکینز در مهندسی برق و علوم کامپیوتر و عضو CSAIL. این تحقیق در کنفرانس بینالمللی نمایشهای یادگیری ارائه شده است.
مطالعه صاف کردن
دوتل، هرینگتون و همکارانشان پس از خواندن مقاله ای در سال 2019 از تیمی از محققان دانشگاه نیویورک در مورد صراحت ادراکی در انسان، به این فکر کردند که آیا این ویژگی ممکن است در مدل های بینایی کامپیوتری نیز مفید باشد.
آنها تصمیم گرفتند تا تعیین کنند که آیا انواع مختلف مدلهای بینایی کامپیوتری، نمایشهای بصری را که یاد میگیرند صاف میکنند یا خیر. آنها به هر مدل فریمهای یک ویدیو داده و سپس نمایش را در مراحل مختلف فرآیند یادگیری آن بررسی کردند.
اگر نمایش مدل به روشی قابل پیش بینی در فریم های ویدیو تغییر کند، آن مدل در حال صاف شدن است. در پایان، نمایش خروجی آن باید پایدارتر از نمایش ورودی باشد.
«میتوانید نمایش را بهعنوان یک خط در نظر بگیرید که واقعاً خمیده شروع میشود. DuTell توضیح میدهد که مدلی که صاف میشود، میتواند آن خط منحنی را از ویدیو بگیرد و آن را از طریق مراحل پردازش خود صاف کند.
اکثر مدل هایی که آزمایش کردند صاف نشدند. از تعداد معدودی که این کار را انجام دادند، آنهایی که به طور مؤثری صاف شدند، برای کارهای طبقه بندی با استفاده از تکنیک معروف به آموزش خصمانه آموزش دیده بودند.
آموزش خصمانه شامل تغییر نامحسوس تصاویر با تغییر اندکی هر پیکسل است. در حالی که یک انسان متوجه تفاوت نمی شود، این تغییرات جزئی می تواند ماشین را فریب دهد تا تصویر را به اشتباه طبقه بندی کند. آموزش خصمانه مدل را قوی تر می کند، بنابراین فریب این دستکاری ها نمی شود.
هرینگتون توضیح می دهد که از آنجایی که آموزش خصمانه به مدل می آموزد که نسبت به تغییرات جزئی در تصاویر واکنش کمتری نشان دهد، این به آن کمک می کند تا نمایشی را بیاموزد که در طول زمان قابل پیش بینی تر است.
او میگوید: «مردم قبلاً این ایده را داشتند که آموزش دشمنی ممکن است به شما کمک کند مدل خود را بیشتر شبیه یک انسان کنید، و جالب بود که ببینید آن را به ویژگی دیگری که مردم قبلاً آزمایش نکرده بودند منتقل کنید.
اما محققان دریافتند که مدلهایی که بهصورت خصمانه آموزش دیدهاند، تنها زمانی یاد میگیرند که برای کارهای گسترده، مانند طبقهبندی کل تصاویر به دستهها، آموزش ببینند. مدلهایی که وظیفه تقسیمبندی را بر عهده داشتند – برچسبگذاری هر پیکسل در یک تصویر به عنوان یک کلاس خاص – حتی زمانی که به صورت خصمانه آموزش دیده بودند، صاف نشدند.
طبقه بندی منسجم
محققان این مدلهای طبقهبندی تصویر را با نمایش فیلمها آزمایش کردند. آنها دریافتند که مدلهایی که بازنماییهای مستقیم ادراکی بیشتری یاد میگیرند، تمایل دارند اشیاء موجود در فیلمها را بهطور مداوم طبقهبندی کنند.
دوتل میگوید: «برای من، شگفتانگیز است که این مدلهای آموزشدیده، که هرگز ویدئویی را ندیدهاند و هرگز بر روی دادههای زمانی آموزش ندیدهاند، هنوز مقداری صاف کردن را نشان میدهند.
او توضیح میدهد که محققان دقیقاً نمیدانند که فرآیند آموزش خصمانه چه چیزی یک مدل بینایی رایانهای را قادر میسازد تا صاف شود، اما نتایج آنها نشان میدهد که طرحهای آموزشی قویتر باعث میشود مدلها بیشتر صاف شوند.
بر اساس این کار، محققان میخواهند از آموختههای خود برای ایجاد طرحهای آموزشی جدید استفاده کنند که به صراحت این ویژگی را به مدلی بدهد. آنها همچنین میخواهند در آموزش خصمانه عمیقتر کاوش کنند تا بفهمند چرا این فرآیند به یک مدل کمک میکند.
از نقطه نظر بیولوژیکی، آموزش خصمانه لزوما معنی ندارد. اینطور نیست که انسان ها دنیا را درک کنند. هرینگتون میگوید: «هنوز سؤالات زیادی در مورد اینکه چرا به نظر میرسد این فرآیند آموزشی به مدلها کمک میکند بیشتر شبیه انسانها عمل کنند، وجود دارد.
بیل لاتتر، استادیار مؤسسه سرطان دانا-فاربر و دانشکده پزشکی هاروارد که در این تحقیق دخالتی نداشت، میگوید: «درک بازنماییهای آموختهشده توسط شبکههای عصبی عمیق برای بهبود ویژگیهایی مانند استحکام و تعمیم حیاتی است. هرینگتون و همکاران ارزیابی گسترده ای از نحوه تغییر نمایش مدل های بینایی کامپیوتری در طول زمان هنگام پردازش فیلم های طبیعی انجام دهید، که نشان می دهد انحنای این مسیرها بسته به معماری مدل، ویژگی های آموزشی و وظیفه بسیار متفاوت است. این یافتهها میتواند به توسعه مدلهای بهبودیافته کمک کند و همچنین بینشهایی را در مورد پردازش بصری بیولوژیکی ارائه دهد.
این مقاله تأیید میکند که صاف کردن ویدیوهای طبیعی یک ویژگی نسبتاً منحصر به فرد است که توسط سیستم بینایی انسان نمایش داده میشود. الیویه هناف، دانشمند پژوهشی در DeepMind که در این تحقیق دخالتی نداشت، میگوید فقط شبکههای آموزش دیده مخالف آن را نمایش میدهند، که ارتباط جالبی با نشانه دیگری از ادراک انسان ایجاد میکند: استحکام آن در برابر تغییرات تصویری مختلف، چه طبیعی یا مصنوعی. «این که حتی مدلهای تقسیمبندی صحنه آموزش دیده مخالف، ورودیهای خود را درست نمیکنند، سؤالات مهمی را برای کار آینده ایجاد میکند: آیا انسانها صحنههای طبیعی را به همان روشی که مدلهای بینایی رایانهای تجزیه میکنند؟ چگونه می توان مسیر حرکت اجسام در حال حرکت را نشان داد و پیش بینی کرد و در عین حال به جزئیات فضایی آنها حساس بود؟ در ارتباط فرضیه صاف کردن با سایر جنبه های رفتار بصری،
مرجع: “کاوش در صراحت ادراکی در بازنمایی های بصری آموخته شده” توسط آن هرینگتون، واشا دوتل، آیوش تواری، مارک همیلتون، سایمون استنت، روث روزنهولتز و ویلیام تی فریمن، ICLR 2023.
PDF
این تحقیق تا حدی توسط موسسه تحقیقاتی تویوتا، MIT CSAIL METEOR Fellowship، بنیاد ملی علوم، آزمایشگاه تحقیقاتی نیروی هوایی ایالات متحده و شتاب دهنده هوش مصنوعی نیروی هوایی ایالات متحده تامین می شود.
دیدگاهتان را بنویسید