| تعداد نشریات | 21 |
| تعداد شمارهها | 702 |
| تعداد مقالات | 10,131 |
| تعداد مشاهده مقاله | 71,399,295 |
| تعداد دریافت فایل اصل مقاله | 63,119,032 |
رویکردی ترکیبی برای بازشناسی احساسات گفتار؛ داده افزایی و تلفیق مدلهای BiLSTM-جنگل تصادفی | ||
| مدل سازی در مهندسی | ||
| مقالات آماده انتشار، پذیرفته شده، انتشار آنلاین از تاریخ 27 اردیبهشت 1405 | ||
| نوع مقاله: مقاله پژوهشی | ||
| شناسه دیجیتال (DOI): 10.22075/jme.2026.40407.2970 | ||
| نویسندگان | ||
| علی بیرانوند1؛ سلمان کریمی* 2 | ||
| 1دانشکده فنی و مهندسی، دانشگاه لرستان، خرم آباد، ایران | ||
| 2گروه برق، دانشگاه لرستان/ خرم آباد/لرستان | ||
| تاریخ دریافت: 09 بهمن 1404، تاریخ بازنگری: 28 فروردین 1405، تاریخ پذیرش: 13 اردیبهشت 1405 | ||
| چکیده | ||
| بازشناسی احساسات گفتار یکی از مهمترین زمینههای پردازش سیگنال سیگنال و هوش مصنوعی است که کاربردهای گستردهای در تعامل انسان-رایانه، خدمات رسانی هوشمند به مشتریان و تشخیص حالات عاطفی دارد. با این حال، چالشهایی مانند کمبود دادههای آموزشی متنوع و پیچیدگیهای استخراج ویژگیهای مؤثر، عملکرد سیستمهای شناسایی احساسات را محدود کرده است. در این مقاله، یک روش ترکیبی مبتنی بر داده افزایی ، شبکه BiLSTM و الگوریتم جنگل تصادفی ارائه میشود تا دقت و قابلیت اطمینان سیستم شناسایی ارتقا یابد. در این راستا برای افزایش تعداد دادهها، ابتدا با بهره گیری از تکنیکهایی مانند تغییر سرعت، افزودن نویز و تغییر گام، تعداد نمونههای مورد استفاده را افزایش میدهیم. سپس، ویژگیهای زمان-فرکانسی گفتار را توسط BiLSTM استخراج نموده و برای طبقهبندی نهایی به الگوریتم جنگل تصادفی منتقل مینماییم. این مقاله نشان میدهد که ترکیب داده افزایی با مدلهای عمیق و سنتی میتواند به عنوان یک رویکرد قدرتمند در بهبود دقت و کارایی سیستمهای بازشناسی احساسات گفتاری مورد استفاده قرار گیرد. ارزیابی روش پیشنهادی بر روی مجموعه دادهی توسعه یافتهی EMODB ، دقتی برابر 85.11% را ارائه میدهد. | ||
| کلیدواژهها | ||
| افزایش داده؛ الگوریتم جنگل تصادفی؛ بازشناسی احساس گفتار؛ شبکه BiLSTM | ||
| عنوان مقاله [English] | ||
| A Hybrid Approach for Speech Emotion Recognition: Data Augmentation and BiLSTM–Random Forest Integration | ||
| نویسندگان [English] | ||
| Ali Beiranvand1؛ Salman Kkarimi2 | ||
| 1Department of Electronics, Faculty of Engineering, Lorestan University, Khorramabad, Iran | ||
| 2Department of Electrical engineering,, lorestan university. Khorramabad | ||
| چکیده [English] | ||
| Speech Emotion Recognition (SER) is a significant field in speech signal processing and artificial intelligence, with broad applications in human-computer interaction, intelligent customer services, and emotional state detection. However, challenges such as the scarcity of diverse training data and the complexities of extracting effective features, limit the performance of SER systems. This paper presents a hybrid method based on Data Augmentation, a Bidirectional Long Short-Term Memory (BiLSTM) neural network, and the Random Forest algorithm to enhance the accuracy and reliability of the system. Initially, data augmentation techniques such as speed variation, noise addition, and pitch shifting are employed to generate synthetic samples. Subsequently, time-frequency features are extracted by the BiLSTM and passed to the Random Forest algorithm for final classification. This paper demonstrates that combining Data Augmentation with deep and traditional models can serve as a powerful approach to improving the accuracy and efficiency of SER systems. Evaluations of the proposed method on the expanded well-established EMODB database achieve an accuracy of 85.11%. | ||
| کلیدواژهها [English] | ||
| Data Augmentation, Random Forest algorithm, Speech Emotion Recognition, BiLSTM neural network | ||
| مراجع | ||
|
| ||
|
آمار تعداد مشاهده مقاله: 35 |
||