
تعداد نشریات | 21 |
تعداد شمارهها | 632 |
تعداد مقالات | 9,260 |
تعداد مشاهده مقاله | 67,743,682 |
تعداد دریافت فایل اصل مقاله | 8,157,611 |
توصیف خودکار تصویر مبتنی بر شبکه های عصبی کانولوشنی با بهره گیری از مکانیزم توجه | ||
مدل سازی در مهندسی | ||
مقالات آماده انتشار، پذیرفته شده، انتشار آنلاین از تاریخ 05 خرداد 1404 اصل مقاله (742.43 K) | ||
نوع مقاله: مقاله کامپیوتر | ||
شناسه دیجیتال (DOI): 10.22075/jme.2025.33378.2629 | ||
نویسندگان | ||
فاطمه امیری* 1؛ فرشته احمدی2 | ||
1Hamedan | ||
2کارشناسی ارشد- دانشگاه صنعتی همدان | ||
تاریخ دریافت: 06 اسفند 1402، تاریخ بازنگری: 16 آذر 1403، تاریخ پذیرش: 23 دی 1403 | ||
چکیده | ||
به فرایند اختصاص دادن توضیحات یا شرح متنی به تصاویر یا عکسها توصیف تصویر اطلاق میشود. برای توصیف تصویر ابتدا لازم است که اشیا درون تصویر، ویژگی این اشیا و ارتباط میان آنان به درستی تشخیص داده شود و سپس جملاتی که از نظر گرامری و معنایی درست هستند، تولید شوند. در این تحقیق از معماری رمزگذار-رمزگشا جهت تولید توصیفات متنی استفاده شده است. مدل پیشنهادی شامل یک شبکهResNet به عنوان رمزگذار جهت استخراج ویژگیهای بصری تصویر است. در بخش رمزگشا شبکه کانولوشنی با چهار لایه جهت تولید توصیفات در مدل زبانی ارایه شده است. برای نشان دادن موثرتر ویژگی های حاصل از تصویر و درک روابط بین اشیا از یک ساز و کارتوجه استفاده شده است که قابلیت توجه به تصویر ورودی و مدل زبانی را دارد. کارایی مدل پیشنهادی بر روی مجموعه داده های MSCOCO و Flickr مورد ارزیابی قرار گرفته است. نتایج آزمایشگاهی نشان میدهد کارایی معماری پیشنهادی بر اساس معیارBleu1 و Meteor نسبت به پژوهشهای جدید برتری دارد درحالیکه زمان آموزش مدل پیشنهادی در مقایسه با پژوهشهای جدید کاهش یافته است. | ||
کلیدواژهها | ||
توصیف تصویر؛ معماری رمزگذار-رمزگشا؛ سازوکار توجه؛ شبکه های کانولوشن | ||
عنوان مقاله [English] | ||
Image Captioning Using Convolutional Neural Networks with Attention Mechanism | ||
نویسندگان [English] | ||
Fatemeh Amiri1؛ Fereshteh Ahmadi2 | ||
1Hamedan | ||
2Hamedan | ||
چکیده [English] | ||
Image captioning involves the process of assigning descriptive text to images or photographs. To create an accurate description, several steps are necessary: Object Identification: Initially, the objects within the image must be correctly identified. This includes recognizing their specific features and understanding the relationships between them. Sentence Generation: Once the objects are identified, grammatically and semantically correct sentences are generated to describe the image. In this research, an encoder-decoder architecture is employed for producing textual descriptions. The proposed model consists of three following components: Encoder (ResNet): The ResNet network serves as the encoder, extracting visual features from the input image. Decoder (Convolutional Network): In the decoding section, a four-layer convolutional neural network (CNN) generates descriptions within the language model. Attention Mechanism: To enhance the representation of image features and understand object relationships, an attention mechanism is utilized. This mechanism allows the model to focus on both the input image and the language model. The performance of the proposed model is evaluated using the MSCOCO and Flickr datasets. Experimental results demonstrate that the proposed architecture outperforms state-of-the-art researches in terms of Bleu1 and Meteor measures, while also achieving reduced training time compared to them | ||
کلیدواژهها [English] | ||
image captioning, convolutional neural network, Resnet, CNN, attention mechanism | ||
مراجع | ||
| ||
آمار تعداد مشاهده مقاله: 9 تعداد دریافت فایل اصل مقاله: 12 |