رویکردی ترکیبی برای بازشناسی احساسات گفتار؛ داده‌ افزایی و تلفیق مدل‌های BiLSTM-جنگل تصادفی

بیرانوند, علی; کریمی, سلمان

doi:10.22075/jme.2026.40407.2970

اداره چاپ و انتشارات دانشگاه سمنان

تعداد نشریات	22
تعداد شماره‌ها	712
تعداد مقالات	10,258
تعداد مشاهده مقاله	72,004,626
تعداد دریافت فایل اصل مقاله	63,754,971

	رویکردی ترکیبی برای بازشناسی احساسات گفتار؛ داده‌ افزایی و تلفیق مدل‌های BiLSTM-جنگل تصادفی
مدل سازی در مهندسی
مقالات آماده انتشار، پذیرفته شده، انتشار آنلاین از تاریخ 27 اردیبهشت 1405
نوع مقاله: مقاله پژوهشی
شناسه دیجیتال (DOI): 10.22075/jme.2026.40407.2970
نویسندگان
علی بیرانوند¹؛ سلمان کریمی^* ²
¹دانشکده فنی و مهندسی، دانشگاه لرستان، خرم آباد، ایران
²گروه برق، دانشگاه لرستان/ خرم آباد/لرستان
تاریخ دریافت: 09 بهمن 1404، تاریخ بازنگری: 28 فروردین 1405، تاریخ پذیرش: 13 اردیبهشت 1405
چکیده
بازشناسی احساسات گفتار یکی از مهم‌ترین زمینه‌های پردازش سیگنال سیگنال و هوش مصنوعی است که کاربردهای گسترده‌ای در تعامل انسان-رایانه، خدمات رسانی هوشمند به مشتریان و تشخیص حالات عاطفی دارد. با این حال، چالش‌هایی مانند کمبود داده‌های آموزشی متنوع و پیچیدگی‌های استخراج ویژگی‌های مؤثر، عملکرد سیستم‌های شناسایی احساسات را محدود کرده است. در این مقاله، یک روش ترکیبی مبتنی بر داده افزایی ، شبکه BiLSTM و الگوریتم جنگل تصادفی ارائه می‌شود تا دقت و قابلیت اطمینان سیستم شناسایی ارتقا یابد. در این راستا برای افزایش تعداد داده‌ها، ابتدا با بهره گیری از تکنیک‌هایی مانند تغییر سرعت، افزودن نویز و تغییر گام، تعداد نمونه‌های مورد استفاده را افزایش می‌دهیم. سپس، ویژگی‌های زمان-فرکانسی گفتار را توسط BiLSTM استخراج نموده و برای طبقه‌بندی نهایی به الگوریتم جنگل تصادفی منتقل می‌نماییم. این مقاله نشان می‌دهد که ترکیب داده افزایی با مدل‌های عمیق و سنتی می‌تواند به عنوان یک رویکرد قدرتمند در بهبود دقت و کارایی سیستم‌های بازشناسی احساسات گفتاری مورد استفاده قرار گیرد. ارزیابی روش پیشنهادی بر روی مجموعه ‌داده‌ی‌ توسعه یافته‌ی EMODB ، دقتی برابر 85.11% را ارائه می‌دهد.
کلیدواژه‌ها
افزایش داده؛ الگوریتم جنگل تصادفی؛ بازشناسی احساس گفتار؛ شبکه BiLSTM
عنوان مقاله [English]
A Hybrid Approach for Speech Emotion Recognition: Data Augmentation and BiLSTM–Random Forest Integration
نویسندگان [English]
Ali Beiranvand¹؛ Salman Kkarimi²
¹Department of Electronics, Faculty of Engineering, Lorestan University, Khorramabad, Iran
²Department of Electrical engineering,, lorestan university. Khorramabad
چکیده [English]
Speech Emotion Recognition (SER) is a significant field in speech signal processing and artificial intelligence, with broad applications in human-computer interaction, intelligent customer services, and emotional state detection. However, challenges such as the scarcity of diverse training data and the complexities of extracting effective features, limit the performance of SER systems. This paper presents a hybrid method based on Data Augmentation, a Bidirectional Long Short-Term Memory (BiLSTM) neural network, and the Random Forest algorithm to enhance the accuracy and reliability of the system. Initially, data augmentation techniques such as speed variation, noise addition, and pitch shifting are employed to generate synthetic samples. Subsequently, time-frequency features are extracted by the BiLSTM and passed to the Random Forest algorithm for final classification. This paper demonstrates that combining Data Augmentation with deep and traditional models can serve as a powerful approach to improving the accuracy and efficiency of SER systems. Evaluations of the proposed method on the expanded well-established EMODB database achieve an accuracy of 85.11%.
کلیدواژه‌ها [English]
Data Augmentation, Random Forest algorithm, Speech Emotion Recognition, BiLSTM neural network

مراجع

آمار تعداد مشاهده مقاله: 127

سامانه مدیریت نشریات علمی. قدرت گرفته از سیناوب

پیوندهای مفید

پیوندهای مفید

آمار

رویکردی ترکیبی برای بازشناسی احساسات گفتار؛ داده‌ افزایی و تلفیق مدل‌های BiLSTM-جنگل تصادفی