استخراج موضوع از متون فارسی با استفاده از چهارچوب BERTopic، مدل‌های تعبیه زبانی و خوشه بندی متن

فلاحی, زهرا; رحمانی منش, محمد

doi:10.22075/jme.2025.36454.2781

اداره چاپ و انتشارات دانشگاه سمنان

تعداد نشریات	22
تعداد شماره‌ها	714
تعداد مقالات	10,273
تعداد مشاهده مقاله	72,123,116
تعداد دریافت فایل اصل مقاله	63,855,959

	استخراج موضوع از متون فارسی با استفاده از چهارچوب BERTopic، مدل‌های تعبیه زبانی و خوشه بندی متن
مدل سازی در مهندسی
دوره 23، شماره 83، دی 1404، صفحه 217-235 اصل مقاله (885.72 K)
نوع مقاله: مقاله کامپیوتر
شناسه دیجیتال (DOI): 10.22075/jme.2025.36454.2781
نویسندگان
زهرا فلاحی؛ محمد رحمانی منش^*
دانشکده مهندسی برق و کامپیوتر، دانشگاه سمنان، سمنان، ایران
تاریخ دریافت: 16 دی 1403، تاریخ بازنگری: 08 فروردین 1404، تاریخ پذیرش: 17 فروردین 1404
چکیده
با رشد اطلاعات، استخراج دانش از مجموعه‌های متنی اهمیت یافته است. استخراج موضوع، تکنیکی بدون نظارت در یادگیری ماشین است که مضامین پنهان اسناد را کشف می‌کند. در این مقاله، با الهام از BERTopic، روشی بدون نظارت برای استخراج موضوع از متون فارسی ارائه شده است. روش پیشنهادی از مدل تعبیه‌زبانی LaBSE برای تبدیل متون به بردار‌های تعبیه استفاده می‌کند. سپس، با استفاده ازUMAP، ابعاد بردارهای تعبیه را کاهش می‌دهد و پس از آن، با استفاده از الگوریتم خوشه‌بندی K-Means، متون مشابه را در خوشه‌های یکسان قرار می‌دهد. سپس با تشکیل ماتریس خوشه-توکن و تکنیک بازنمایی موضوعات، موضوعات مختلف را به ازای هر خوشه از متن استخراج می‌کند. ما LaBSE را با مدل‌های تعبیه‌زبانی XLM-R ،ParsBERT،Paraphrase-multilingual-MiniLM-L12-v2 ،Shiraz و HooshvareLab (RoBERTa) مقایسه کردیم. همچنین مقایسه‌ای بین الگوریتم‌های K-Means و HDBSCAN انجام دادیم. برای ارزیابی روش پیشنهادی، از مجموعه داده عصر ایران استفاده شد. معیار انسجام (NPMI) و معیار ارزیابی انسانی عملکرد روش‌ پیشنهادی را تأیید کردند. در الگوریتمHDBSCAN ، مدلHooshvare (RoBERTa) بر اساس معیار انسجام، و مدل‌ ParsBERT بر اساس ارزیابی انسانی بهترین نتایج را ارائه داد. در K-Means، مدل Paraphrase-multilingual- MiniLM-L12-v2 مطابق معیار انسجام و LaBSE مطابق ارزیابی انسانی، نتایج بهتری داشت. برتری K-Means نسبت به HDBSCAN نیز تأیید شد. همچنین با استفاده از دو مجموعه داده عصر ایران و تسنیم به صورت جداگانه، روش پیشنهادی با مدل‌های فاکتورسازی ماتریس غیرمنفی، تخصیص دیریکله پنهان و تحلیل معنایی پنهان مقایسه شد. نتایج مقایسه، عملکرد برجسته روش پیشنهادی را نشان می‌دهد.
کلیدواژه‌ها
استخراج موضوع؛ BERTopic؛ NMF؛ LDA؛ LSA؛ متن فارسی
عنوان مقاله [English]
Topic Extraction from Persian Texts Using BERTopic Framework, Language Embedding Models, and Text Clustering
نویسندگان [English]
Zahra Fallahi؛ Mohammad Rahmanimanesh
Faculty of Electrical and Computer Engineering, Semnan University, Semnan, Iran
چکیده [English]
With the growth of information, extracting knowledge from textual collections has become essential. Topic modeling is an unsupervised machine learning technique that uncovers the hidden themes in documents. In this paper, inspired by BERTopic, we present an unsupervised method for topic modeling on Persian texts. The proposed approach employs the LaBSE language embedding model to convert texts into embedding vectors, then reduces their dimensions using UMAP, and finally groups similar texts into clusters using the K-Means algorithm. Next, by forming a cluster-token matrix and applying a topic representation technique, various topics are extracted from each cluster. We compared LaBSE model with other language embedding models including XLM-R, ParsBERT, Paraphrase-multilingual-MiniLM-L12-v2, Shiraz, and HooshvareLab (RoBERTa). We also compared the K-Means and HDBSCAN clustering algorithms. For evaluation, the AsreIran dataset was used, and both the coherence evaluation metric (NPMI) and human evaluation confirmed the proposed method’s performance. In HDBSCAN, Hooshvare (RoBERTa) yielded the best coherence, while ParsBERT excelled in human evaluation. In K-Means, Paraphrase-multilingual-MiniLM-L12-v2 performed best in terms of coherence and LaBSE in human evaluation. The superiority of K-Means over HDBSCAN was also verified. Furthermore, using the AsreIran and Tasnim datasets separately, the proposed method was compared with non-negative matrix factorization, latent Dirichlet allocation, and latent semantic analysis, with results demonstrating its outstanding performance.
کلیدواژه‌ها [English]
Topic extraction, BERTopic, NMF, LDA, LSA, Persian text

مراجع

آمار تعداد مشاهده مقاله: 1,171 تعداد دریافت فایل اصل مقاله: 863

سامانه مدیریت نشریات علمی. قدرت گرفته از سیناوب

پیوندهای مفید

پیوندهای مفید

آمار

استخراج موضوع از متون فارسی با استفاده از چهارچوب BERTopic، مدل‌های تعبیه زبانی و خوشه بندی متن