سیستم های یادگیری عمیق مانند انسان­ها می­ شنوند

Rate this post

یادگیری عمیق

نوروسافاری | مدل کامپیوتری نشان می­دهد که چگونه مغز صدا را پردازش می­کند. محققان MIT با استفاده از سیستم یادگیری ماشین که با عنوان شبکه عصبی عمیق (deep neural network) شناخته می­ شود، اولین مدلی را تهیه کرده ­اند که می­تواند عملکرد انسان را در انجام وظایف شنیداری مانند شناسایی ژانر موسیقی، عیناً بازسازی کند.

به گزارش نوروسافاری از دانشگاه ام ای تی، این مدل که متشکل از لایه ­های متعدد واحدهای پردازش اطلاعات می­باشد و این لایه­ ها می­توانند با حجم عظیمی از داده­ ها برای اجرای وظایفی خاص آموزش داده شوند، توسط محققان برای روشن ساختن اینکه چگونه ممکن است مغز انسان تکالیف مشابهی را انجام دهد، مورد استفاده قرار گرفت.

جاش مک درموت، استادیار علوم اعصاب در دپارتمان مغز و علوم شناختی MIT و نویسنده ارشد این مطالعه می­گوید:

آنچه این مدل­ها برای اولین بار برای ما به ارمغان آورد این است که سیستم­های ماشینی می­توانند تکالیف حسی را که برای انسان­ها اهمیت دارد، در همان سطح انسانی انجام دهند.­ به لحاظ تاریخی، این نوع از پردازش حسی به سختی قابل درک بوده است، زیرا ما فاقد پایه نظری مشخص و روش خوبی برای توسعه مدل­های نشان دهنده این روند بوده­ ایم.

این مطالعه که در شماره ۱۹ آوریل در مجله نورون منتشر شد، همچنین شواهدی ارائه می­دهد مبنی بر این که کورتکس شنیداری به­ صورت سلسله مراتبی سازمان یافته است که بسیار شبیه به قشر دیداری است. در این نوع از سازمان یافتگی، اطلاعات حسی از مراحل پی در پی پردازش می­گذرد، به­ صورتی که اطلاعات ابتدایی در مراحل اولیه و اطلاعات پیشرفته­ تر مانند معنای کلمات در مراحل بعدی استخراج می­شود.

الکساندر کل، فارغ ­التحصیل از MIT و دنیل یامینز، استادیار دانشگاه استنفورد نویسندگان اصلی این مقاله هستند. دیگر نویسندگان، اریکا شوک، دانشجوی مدعو سابق MIT و سم نورمن-هاینر دارای مدرک فوق دکتری از MIT می­باشند.

مدلسازی مغز

هنگامی که شبکه­ های عصبی عمقی اولین بار در دهه ۱۹۸۰ توسعه یافت، دانشمندان علوم اعصاب امیدوار بودند که بتوانند از چنین سیستمی به منظور مدل­سازی مغز انسان استفاده کنند. با این حال، کامپیوترهای آن دوران به اندازه کافی قدرتمند نبودند تا بتوانند از عهده اجرای تکالیف دنیای واقعی مانند بازشناسی شئ یا گفتار برآیند.  

در طول ۵ سال گذشته، پیشرفت­هایی در قدرت پردازش و تکنولوژی شبکه ­های عصبی، این امکان را فراهم آورده است که شبکه­ های عصبی برای انجام تکالیف دشوار دنیای واقعی مورد استفاده قرار گیرد و این شبکه­ ها به رویکردی استاندارد در زمینه­ های کاربردی مهندسی تبدیل شده ­اند. در همین راستا، برخی از دانشمندان علوم اعصاب امکان استفاده از چنین سیستم­هایی را برای مدل­سازی مغز انسان مورد بررسی مجدد قرار داده­ اند.

کل بیان می­کند:

این فرصتی هیجان­ انگیز برای علوم اعصاب بوده است، به این معنی که ما قادریم سیستم­هایی را ایجاد کنیم که می­ توانند به انجام برخی از کارهایی بپردازند که انسان­ها انجام می­دهند و سپس می­توانیم این مدل­ها را مورد تحقیق قرار داده و به مقایسه آن­ها با مغز بپردازیم.

طراحی شبکه های عصبی عمیق

محققان MIT، شبکه­ های عصبی خود را برای انجام دو تکلیف شنیداری که یکی شامل سخنرانی و دیگری شامل موسیقی است، مورد آموزش قرار دادند. برای تکلیف سخنرانی، محققان هزاران مورد از صداهای دو ثانیه ­ای ضبط شده از فردی در حال صحبت کردن را به مدل دادند. تکلیف، شناسایی کلمه بیان شده در میانه کلیپ بود. برای تکلیف موسیقی، از مدل خواسته شد که ژانر کلیپ دو ثانیه ­ای موسیقی را شناسایی کند. همچنین به منظور واقعی­تر (یا دشوارتر) ساختن تکلیف، در هر کلیپ صداهای مزاحم پس زمینه نیز گنجانده شده بود.

پس از چندین هزار نمونه، مدل مورد نظر آموخت که به همان میزان دقت یک انسان شنونده، تکلیف را انجام دهد.

کل می­گوید:

ایده این است که مدل به مرور زمان عملکرد بهتری در انجام تکلیف خواهد داشت. امید است مدل بتواند چیزی را به­ طور کلی بیاموزد، بنابراین با پخش صدای جدیدی  که مدل پیش از این هرگز نشنیده است، به خوبی از عهده تکلیف بر خواهد آمد و در اغلب موارد نیز همین مسئله مد نظر است.

همچنین این مدل درمورد کلیپ­هایی مرتکب خطا می­شود که انسان­ها نیز بیشترین نرخ خطا را در آن زمینه داشتند.

واحدهای پردازشگر که شبکه عصبی را تشکیل می­دهند می­توانند به شیوه­ های متفاوتی ترکیب شوند که معماری­های متفاوتی را به­ وجود می­آورند و در نتیجه عملکرد مدل را تحت تأثیر قرار می­دهند.

به دنبال بهترین مدل

تیم MIT دریافتند که بهترین مدل برای این دو تکلیف مدلی بود که پردازش را به دو مجموعه از مراحل تفکیک می­کرد. اولین مجموعه از مراحل بین تکالیف مختلف به اشتراک گذاشته می­شد، اما بعد از آن برای تجزیه و تحلیل­های بیشتر به دو شاخه تقسیم می­شد، یک شاخه برای تکلیف سخنرانی و دیگری برای تکلیف ژانر موسیقی.

سپس محققان از مدل خود برای کشف پاسخ پرسشی دیرینه درمورد ساختار کورتکس شنیداری استفاده کردند: آیا این قشر به ­صورت سلسله مراتبی سازمان یافته یا خیر.

در یک سیستم سلسله مراتبی، در حالی که اطلاعات حسی در سیستم جریان می­ یابد، مجموعه ­ای از نواحی مغزی، انواع مختلفی از محاسبات را بر روی این اطلاعات اجرا می­کنند. شواهد به خوبی نشان می­دهند که کورتکس دیداری از سازمان یافتگی سلسله مراتبی برخوردار است. نواحی اولیه، که با عنوان کورتکس اولیه دیداری شناخته می­شوند، به ویژگی­های ساده مانند رنگ یا جهت پاسخ می­دهند. مراحل بعدی تکالیف پیچیده ­تر مانند بازشناسی شئ را انجام می­دهند.

با این حال، بررسی این که آیا این نوع سازمان یافتگی در کورتکس شنیداری نیز وجود دارد یا خیر، دشوار بوده ­است، زیرا مدل­های خوبی که بتوانند رفتار شنیداری انسانی را بازسازی کنند، وجود نداشته است.

مک درموت می­گوید:

ما فکر می­کردیم اگر بتوانیم مدلی را بسازیم که قادر به انجام برخی از کارهایی باشد که انسان­ها نیز انجام می­دهند، در نتیجه ممکن است بتوانیم مراحل مختلف مدل را با نواحی متفاوت مغز مقایسه کنیم و شواهدی درباره این که آیا آن نواحی مغزی دارای سازمان یافتگی سلسله مراتبی هستند یا خیر به دست آوریم.

نحوه کار قشر شنوایی

محققان دریافتند که در مدل آنان ویژگی­های ابتدایی صوت مانند فرکانس در مراحل اولیه به راحتی استخراج می­شود. به همین ترتیب که اطلاعات پردازش می­شوند و در طول شبکه حرکت می­کنند، استخراج فرکانس دشوارتر شده اما استخراج اطلاعات سطح بالاتر مانند کلمات آسان­تر می­شود.

محققان برای درک این مسئله که آیا مراحل مدل نماینده فرآیند پردازش در کورتکس شنیداری انسان می­باشد یا خیر، از تصویربرداری تشدید مغناطیسی کارکردی (fMRI) استفاده کردند تا نواحی مختلف کورتکس مغز را در حالی که به پردازش اصوات دنیای واقعی می­پردازد، بررسی نمایند. سپس آنان پاسخ­های مغزی را با پاسخ­های مدل در حین پردازش همان اصوات مقایسه کردند.

آن­ها دریافتند که مراحل میانی مدل به بهترین نحو، نمایانگر فعالیت در کورتکس شنیداری اولیه بوده و مراحل بعدی به همین ترتیب نمایانگر فعالیت خارج از کورتکس اولیه می­باشد. این محققان بیان می­کنند که یافته حاضر شواهدی را فراهم می­آورد مبنی بر این که کورتکس شنیداری، همانند کورتکس دیداری به­ صورت سلسله مراتبی طراحی شده­ است.

مک درموت بیان می­کند:

آنچه ما به وضوح شاهد آن هستیم تمایز بین کورتکس اولیه شنیداری و هر چیز دیگری است.

قشر اولیه شنوایی چه عملکردی دارد؟

الکس هوت، استادیار علوم اعصاب و علوم کامپیوتر در دانشگاه تگزاس در آستین بیان می­کند که این مقاله از این جهت هیجان انگیز است که شواهد قانع کننده ­ای ارائه می­دهد مبنی بر این که بخش ابتدایی کورتکس شنیداری به پردازش اصوات کلی و بخش بالاتر کورتکس شنیداری به انجام تکالیف تخصصی­تر می­پردازد.

هوت که از دست اندرکاران این مقاله نیست، همچنین بیان می­کند:

یکی از رمز و رازهای همیشگی علوم اعصاب شنیداری این است که: چه چیزی باعث تمایز کورتکس اولیه شنیداری و کورتکس شنیداری عالی می­شود؟ این اولین مقاله­ ای است که تا به حال دیده­ ام فرضیه ­ای محاسباتی برای این پرسش دارد.

نویسندگان در حال حاضر برنامه ­هایی برای توسعه این مدل دارند به­ طوری که قادر به انجام انواع دیگری از تکالیف شنیداری مانند تعیین موقعیت مکانی صدای خاص باشد، تا کشف کنند که آیا این تکالیف را می­توان ازطریق همان مسیرهای تعیین شده در این مدل انجام داد و یا مسیرهای جداگانه­ ای مورد نیاز است که باید در مغز نیز مورد بررسی و شناسایی قرار گیرد.

ترجمه: مریم شجاعی – وبسایت نوروسافاری

لینک خبر:

Machine-learning system processes sounds like humans do

لینک مقاله:

A Task-Optimized Neural Network Replicates Human Auditory Behavior, Predicts Brain Responses, and Reveals a Cortical Processing Hierarchy

همچنین ببینید

درمان افسردگی حاد با تحریک الکتریکی مغز

5 (100%) 1 vote نوروسافاری | پژوهشگران آمریکایی در بررسی جدیدی دریافتند که تحریک الکتریکی …

۲ comments

  1. سلام امکانش هستش ایدی تلگرام یا ایمیل خانم شجاعی را بدهید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *