| تعداد نشریات | 21 |
| تعداد شمارهها | 675 |
| تعداد مقالات | 9,819 |
| تعداد مشاهده مقاله | 69,696,787 |
| تعداد دریافت فایل اصل مقاله | 49,108,659 |
بازشناسی حالات هیجانی چهره و صدا بااستفاده از مدل Deep-BEL | ||
| مدل سازی در مهندسی | ||
| مقالات آماده انتشار، پذیرفته شده، انتشار آنلاین از تاریخ 15 آذر 1404 | ||
| نوع مقاله: مقاله کامپیوتر | ||
| شناسه دیجیتال (DOI): 10.22075/jme.2025.32615.2578 | ||
| نویسندگان | ||
| سارا معتمد* ؛ الهام عسکری | ||
| گروه کامپیوتر، واحد فومن و شفت ، دانشگاه آزاد اسلامی ، فومن، ایران | ||
| تاریخ دریافت: 18 آذر 1402، تاریخ بازنگری: 31 شهریور 1404، تاریخ پذیرش: 15 آذر 1404 | ||
| چکیده | ||
| در سالهای اخیر، بازشناسی هیجان به عنوان یکی از مؤلفههای کلیدی در تعامل طبیعی انسان و کامپیوتر مورد توجه بسیاری از پژوهشگران قرار گرفته است. بازشناسی مبتنی بر تنها یکی از مدالیتهها (گفتار یا تصویر چهره) معمولاً با ابهامات همراه است، ازاینرو همجوشی اطلاعات چندحسی میتواند عملکرد دقیقتری ارائه دهد. در این مقاله روشی ترکیبی برای بازشناسی هیجان بر اساس گفتار هیجانی، تصاویر مرئی حالات چهره و تصاویر مادون قرمز ارائه میشود. در گام نخست، از شبکههای عمیق برای استخراج بازنماییهای غنی از دادههای شنیداری و دیداری استفاده شده و سپس مدل یادگیری هیجانی مغز(BEL)، الهامگرفته از سیستم لیمبیک، برای همجوشی سه مدالیته بهکار گرفته شده است. روش پیشنهادی بر روی پایگاه داده چندرسانهایEnterface’05 ارزیابی شد و نتایج نشان داد که مدل ارائهشده به دقت 96.20٪ دست یافت که نسبت به سایر روشهای همجوشی در همین پایگاه داده بهبود قابل توجهی دارد. این نتایج نشاندهنده کارایی و قابلیت تعمیم بالای مدل Deep-BEL در کاربردهای تعامل انسان–کامپیوتر است. | ||
| کلیدواژهها | ||
| بازشناسی هیجان؛ حالات هیجانی چهره و صدا؛ شبکههای عصبی کانولوشنی؛ مدل یادگیری هیجانی مغز؛ سیستم لیمبیک مغز | ||
| عنوان مقاله [English] | ||
| Recognition of Facial and Voice Emotional States Using Deep-BEL Model | ||
| نویسندگان [English] | ||
| Sara Motamed؛ Elham Askari | ||
| Department of Computer Engineering, Fouman and Shaft Branch, Islamic Azad University, Fouman, Iran | ||
| چکیده [English] | ||
| In recent years, emotion recognition as a new method for natural human-computer interaction has attracted the attention of many researchers. Because the automatic recognition of emotion from speech or facial expressions alone has uncertainties, it is expected that emotion recognition based on the fusion of audio-visual information can be done with better accuracy. The purpose of this article is to present an effective method for emotion recognition from emotional speech and images of visible facial expressions and infrared images, based on a hybrid model. For this purpose, in the proposed model, the deep learning model is used to represent the visual-auditory features and the brain emotional learning (BEL) model, inspired by the limbic system of the brain, is used for the fusion of three-modality information. In the proposed model, the existing audio-visual database in the field of multimodal emotion recognition, Enterface'05, has been used for various experiments. The recognition accuracy of the presented model in the best case for this database is 94.20%, which has the highest efficiency compared to other fusion methods. | ||
| کلیدواژهها [English] | ||
| Emotion recognition, facial and voice emotional states, convolutional neural networks, brain emotional learning model | ||
|
آمار تعداد مشاهده مقاله: 1 |
||