نوروسافاری | مدل کامپیوتری نشان میدهد که چگونه مغز صدا را پردازش میکند. محققان MIT با استفاده از سیستم یادگیری ماشین که با عنوان شبکه عصبی عمیق (deep neural network) شناخته می شود، اولین مدلی را تهیه کرده اند که میتواند عملکرد انسان را در انجام وظایف شنیداری مانند شناسایی ژانر موسیقی، عیناً بازسازی کند.
به گزارش نوروسافاری از دانشگاه ام ای تی، این مدل که متشکل از لایه های متعدد واحدهای پردازش اطلاعات میباشد و این لایه ها میتوانند با حجم عظیمی از داده ها برای اجرای وظایفی خاص آموزش داده شوند، توسط محققان برای روشن ساختن اینکه چگونه ممکن است مغز انسان تکالیف مشابهی را انجام دهد، مورد استفاده قرار گرفت.
جاش مک درموت، استادیار علوم اعصاب در دپارتمان مغز و علوم شناختی MIT و نویسنده ارشد این مطالعه میگوید:
آنچه این مدلها برای اولین بار برای ما به ارمغان آورد این است که سیستمهای ماشینی میتوانند تکالیف حسی را که برای انسانها اهمیت دارد، در همان سطح انسانی انجام دهند. به لحاظ تاریخی، این نوع از پردازش حسی به سختی قابل درک بوده است، زیرا ما فاقد پایه نظری مشخص و روش خوبی برای توسعه مدلهای نشان دهنده این روند بوده ایم.
این مطالعه که در شماره ۱۹ آوریل در مجله نورون منتشر شد، همچنین شواهدی ارائه میدهد مبنی بر این که کورتکس شنیداری به صورت سلسله مراتبی سازمان یافته است که بسیار شبیه به قشر دیداری است. در این نوع از سازمان یافتگی، اطلاعات حسی از مراحل پی در پی پردازش میگذرد، به صورتی که اطلاعات ابتدایی در مراحل اولیه و اطلاعات پیشرفته تر مانند معنای کلمات در مراحل بعدی استخراج میشود.
الکساندر کل، فارغ التحصیل از MIT و دنیل یامینز، استادیار دانشگاه استنفورد نویسندگان اصلی این مقاله هستند. دیگر نویسندگان، اریکا شوک، دانشجوی مدعو سابق MIT و سم نورمن-هاینر دارای مدرک فوق دکتری از MIT میباشند.
مدلسازی مغز
هنگامی که شبکه های عصبی عمقی اولین بار در دهه ۱۹۸۰ توسعه یافت، دانشمندان علوم اعصاب امیدوار بودند که بتوانند از چنین سیستمی به منظور مدلسازی مغز انسان استفاده کنند. با این حال، کامپیوترهای آن دوران به اندازه کافی قدرتمند نبودند تا بتوانند از عهده اجرای تکالیف دنیای واقعی مانند بازشناسی شئ یا گفتار برآیند.
در طول ۵ سال گذشته، پیشرفتهایی در قدرت پردازش و تکنولوژی شبکه های عصبی، این امکان را فراهم آورده است که شبکه های عصبی برای انجام تکالیف دشوار دنیای واقعی مورد استفاده قرار گیرد و این شبکه ها به رویکردی استاندارد در زمینه های کاربردی مهندسی تبدیل شده اند. در همین راستا، برخی از دانشمندان علوم اعصاب امکان استفاده از چنین سیستمهایی را برای مدلسازی مغز انسان مورد بررسی مجدد قرار داده اند.
کل بیان میکند:
این فرصتی هیجان انگیز برای علوم اعصاب بوده است، به این معنی که ما قادریم سیستمهایی را ایجاد کنیم که می توانند به انجام برخی از کارهایی بپردازند که انسانها انجام میدهند و سپس میتوانیم این مدلها را مورد تحقیق قرار داده و به مقایسه آنها با مغز بپردازیم.
طراحی شبکه های عصبی عمیق
محققان MIT، شبکه های عصبی خود را برای انجام دو تکلیف شنیداری که یکی شامل سخنرانی و دیگری شامل موسیقی است، مورد آموزش قرار دادند. برای تکلیف سخنرانی، محققان هزاران مورد از صداهای دو ثانیه ای ضبط شده از فردی در حال صحبت کردن را به مدل دادند. تکلیف، شناسایی کلمه بیان شده در میانه کلیپ بود. برای تکلیف موسیقی، از مدل خواسته شد که ژانر کلیپ دو ثانیه ای موسیقی را شناسایی کند. همچنین به منظور واقعیتر (یا دشوارتر) ساختن تکلیف، در هر کلیپ صداهای مزاحم پس زمینه نیز گنجانده شده بود.
پس از چندین هزار نمونه، مدل مورد نظر آموخت که به همان میزان دقت یک انسان شنونده، تکلیف را انجام دهد.
کل میگوید:
ایده این است که مدل به مرور زمان عملکرد بهتری در انجام تکلیف خواهد داشت. امید است مدل بتواند چیزی را به طور کلی بیاموزد، بنابراین با پخش صدای جدیدی که مدل پیش از این هرگز نشنیده است، به خوبی از عهده تکلیف بر خواهد آمد و در اغلب موارد نیز همین مسئله مد نظر است.
همچنین این مدل درمورد کلیپهایی مرتکب خطا میشود که انسانها نیز بیشترین نرخ خطا را در آن زمینه داشتند.
واحدهای پردازشگر که شبکه عصبی را تشکیل میدهند میتوانند به شیوه های متفاوتی ترکیب شوند که معماریهای متفاوتی را به وجود میآورند و در نتیجه عملکرد مدل را تحت تأثیر قرار میدهند.
به دنبال بهترین مدل
تیم MIT دریافتند که بهترین مدل برای این دو تکلیف مدلی بود که پردازش را به دو مجموعه از مراحل تفکیک میکرد. اولین مجموعه از مراحل بین تکالیف مختلف به اشتراک گذاشته میشد، اما بعد از آن برای تجزیه و تحلیلهای بیشتر به دو شاخه تقسیم میشد، یک شاخه برای تکلیف سخنرانی و دیگری برای تکلیف ژانر موسیقی.
سپس محققان از مدل خود برای کشف پاسخ پرسشی دیرینه درمورد ساختار کورتکس شنیداری استفاده کردند: آیا این قشر به صورت سلسله مراتبی سازمان یافته یا خیر.
در یک سیستم سلسله مراتبی، در حالی که اطلاعات حسی در سیستم جریان می یابد، مجموعه ای از نواحی مغزی، انواع مختلفی از محاسبات را بر روی این اطلاعات اجرا میکنند. شواهد به خوبی نشان میدهند که کورتکس دیداری از سازمان یافتگی سلسله مراتبی برخوردار است. نواحی اولیه، که با عنوان کورتکس اولیه دیداری شناخته میشوند، به ویژگیهای ساده مانند رنگ یا جهت پاسخ میدهند. مراحل بعدی تکالیف پیچیده تر مانند بازشناسی شئ را انجام میدهند.
با این حال، بررسی این که آیا این نوع سازمان یافتگی در کورتکس شنیداری نیز وجود دارد یا خیر، دشوار بوده است، زیرا مدلهای خوبی که بتوانند رفتار شنیداری انسانی را بازسازی کنند، وجود نداشته است.
مک درموت میگوید:
ما فکر میکردیم اگر بتوانیم مدلی را بسازیم که قادر به انجام برخی از کارهایی باشد که انسانها نیز انجام میدهند، در نتیجه ممکن است بتوانیم مراحل مختلف مدل را با نواحی متفاوت مغز مقایسه کنیم و شواهدی درباره این که آیا آن نواحی مغزی دارای سازمان یافتگی سلسله مراتبی هستند یا خیر به دست آوریم.
نحوه کار قشر شنوایی
محققان دریافتند که در مدل آنان ویژگیهای ابتدایی صوت مانند فرکانس در مراحل اولیه به راحتی استخراج میشود. به همین ترتیب که اطلاعات پردازش میشوند و در طول شبکه حرکت میکنند، استخراج فرکانس دشوارتر شده اما استخراج اطلاعات سطح بالاتر مانند کلمات آسانتر میشود.
محققان برای درک این مسئله که آیا مراحل مدل نماینده فرآیند پردازش در کورتکس شنیداری انسان میباشد یا خیر، از تصویربرداری تشدید مغناطیسی کارکردی (fMRI) استفاده کردند تا نواحی مختلف کورتکس مغز را در حالی که به پردازش اصوات دنیای واقعی میپردازد، بررسی نمایند. سپس آنان پاسخهای مغزی را با پاسخهای مدل در حین پردازش همان اصوات مقایسه کردند.
آنها دریافتند که مراحل میانی مدل به بهترین نحو، نمایانگر فعالیت در کورتکس شنیداری اولیه بوده و مراحل بعدی به همین ترتیب نمایانگر فعالیت خارج از کورتکس اولیه میباشد. این محققان بیان میکنند که یافته حاضر شواهدی را فراهم میآورد مبنی بر این که کورتکس شنیداری، همانند کورتکس دیداری به صورت سلسله مراتبی طراحی شده است.
مک درموت بیان میکند:
آنچه ما به وضوح شاهد آن هستیم تمایز بین کورتکس اولیه شنیداری و هر چیز دیگری است.
قشر اولیه شنوایی چه عملکردی دارد؟
الکس هوت، استادیار علوم اعصاب و علوم کامپیوتر در دانشگاه تگزاس در آستین بیان میکند که این مقاله از این جهت هیجان انگیز است که شواهد قانع کننده ای ارائه میدهد مبنی بر این که بخش ابتدایی کورتکس شنیداری به پردازش اصوات کلی و بخش بالاتر کورتکس شنیداری به انجام تکالیف تخصصیتر میپردازد.
هوت که از دست اندرکاران این مقاله نیست، همچنین بیان میکند:
یکی از رمز و رازهای همیشگی علوم اعصاب شنیداری این است که: چه چیزی باعث تمایز کورتکس اولیه شنیداری و کورتکس شنیداری عالی میشود؟ این اولین مقاله ای است که تا به حال دیده ام فرضیه ای محاسباتی برای این پرسش دارد.
نویسندگان در حال حاضر برنامه هایی برای توسعه این مدل دارند به طوری که قادر به انجام انواع دیگری از تکالیف شنیداری مانند تعیین موقعیت مکانی صدای خاص باشد، تا کشف کنند که آیا این تکالیف را میتوان ازطریق همان مسیرهای تعیین شده در این مدل انجام داد و یا مسیرهای جداگانه ای مورد نیاز است که باید در مغز نیز مورد بررسی و شناسایی قرار گیرد.
ترجمه: مریم شجاعی – وبسایت نوروسافاری
لینک خبر:
Machine-learning system processes sounds like humans do
لینک مقاله:
سلام امکانش هستش ایدی تلگرام یا ایمیل خانم شجاعی را بدهید
سوالی داشتین در خدمتیم