
تعداد نشریات | 21 |
تعداد شمارهها | 653 |
تعداد مقالات | 9,560 |
تعداد مشاهده مقاله | 68,461,587 |
تعداد دریافت فایل اصل مقاله | 47,919,988 |
تولید خودکار گزارش برای تصاویر قفسه سینه با استفاده از ترکیب مدل کانولوشنی بازگشتی و معماری توجه محور | ||
مدل سازی در مهندسی | ||
مقالات آماده انتشار، پذیرفته شده، انتشار آنلاین از تاریخ 23 شهریور 1404 | ||
نوع مقاله: مقاله کامپیوتر | ||
شناسه دیجیتال (DOI): 10.22075/jme.2025.35811.2749 | ||
نویسندگان | ||
فردین قادری1؛ محمدباقر خدابخشی* 2؛ شهریار Jamasb3 | ||
1کارشناسی ارشد، گروه مهندسی پزشکی، دانشکده مهندسی پزشکی و مکانیک، دانشگاه صنعتی همدان، همدان، ایران | ||
2استادیار گروه مهندسی پزشکی- دانشگاه صنعتی همدان | ||
3دانشیار، گروه مهندسی پزشکی، دانشکده مهندسی پزشکی و مکانیک، دانشگاه صنعتی همدان، همدان، ایران | ||
تاریخ دریافت: 15 آبان 1403، تاریخ بازنگری: 09 خرداد 1404، تاریخ پذیرش: 31 خرداد 1404 | ||
چکیده | ||
در مطالعات علوم پزشکی، از تصاویر پزشکی برای تشخیص و طراحی پروتکل درمان بیماری ها بصورت گسترده استفاده میشود. برای پزشکان کمتجربه، نوشتن گزارش پزشکی به شکل متنی ممکن است مستعد خطا باشد، زیرا این کار نیازمند درک عمیق نسبت به بیماری و تجزیه و تحلیل آن است. همچنین برای متخصصان، این کار به دلیل تعدد بیمارانی که در یک روز مراجعه میکنند زمانبر و پر زحمت است. از دیدگاه دیگر، وجود گزارش های الگو برای پزشکان میتواند به میزان قابل توجهی دقت آن ها را در تشخیص بیماری افزایش دهد و خطای ناشی از عدم توجه به جزئیات را کاهش دهد. این پژوهش یک مدل مبتنی بر یادگیری عمیق را برای تولید خودکار گزارشهای تصاویر رادیولوژی ارائه نموده است. این مدل بر پایه ترکیب یک ساختار کانولوشنی بازگشتی و معماری توجه محور است که با نام Res-LSTM-Attn معرفی گردیده است. در این مدل ابتدا از تصاویر پزشکی با استفاده از شبکه عصبی کانولوشنی رِزنت ویژگی ها استخراج خواهند شد و بر اساس یک مدل چند برچسبی کلمات یک گزارش پیش بینی خواهند شد. در ادامه با استفاده از شبکه عصبی بازگشتی LSTM و لایه های توجه چندسر گزارش نهایی تولید میشود. عملکرد مدل های پیشنهادی بر اساس معیارهای BLEU 1-4 و ROUGE-L و CIDEr-D مورد ارزیابی قرار گرفت. نتایج نشان داد مدل پیشنهادی از نظر معیار CIDEr-D و ROUGE-L در تولید گزارشات طولانی بر مطالعات پیشین غلبه کرده است و این مقادیر بترتیب به میزان 7/2 و 3/2 درصد بهبود یافته اند. | ||
کلیدواژهها | ||
تصاویر پزشکی؛ شبکه عصبی عمیق بازگشتی؛ تولید خودکار گزارش؛ رمزگشا؛ رمزگذار؛ مکانیسم توجه | ||
عنوان مقاله [English] | ||
Medical Report Generation for Chest X-rays Using Convolutional Recurrent and Attention-Based Architectures | ||
نویسندگان [English] | ||
Fardin Ghaderi1؛ Mohammad Bagher Khodabakhshi2؛ Shahriar Jamasb3 | ||
1MSc, Biomedical Engineering Department, Hamedan University of Technology, Hamedan, Iran | ||
2Assistant Professor, Biomedical Engineering Department- Hamedan University of Technology | ||
3Associate Professor, Biomedical Engineering Department, Hamedan University of Technology, Hamedan, Iran | ||
چکیده [English] | ||
Medical images are extensively used in medical science for diagnosis and treatment protocol design. Writing medical reports in text form can be error-prone for inexperienced physicians due to the deep understanding of the disease and its analysis. It is also time-consuming and laborious for experts due to the large number of patients they see in a day. Also, the existence of template reports for physicians can significantly increase their accuracy in diagnosing diseases and reduce errors caused by inattention to details. This research presents a deep learning-based model for the automatic generation of radiology reports. This model is based on a combination of a convolutional recurrent structure and an attention-based architecture called Res-LSTM-Attn. In this model, features are first extracted from medical images using a convolutional residual network, and based on a multi-label word model, a report is predicted. Then, using the LSTM recurrent neural network and multi-head attention layers, the final report is generated. The performance of the proposed models was evaluated based on the BLEU 1-4, ROUGE-L, and CIDEr-D criteria. The results showed that the proposed model outperformed previous studies in generating long reports in terms of CIDEr-D and ROUGE-L metrics, with improvements of 7.2% and 3.2%, respectively. | ||
کلیدواژهها [English] | ||
Medical image processing, Recurrent deep neural networks, Automatic image captioning, Encoder, Decoder, Attention mechanism | ||
مراجع | ||
| ||
آمار تعداد مشاهده مقاله: 1 |