تعداد نشریات | 21 |
تعداد شمارهها | 586 |
تعداد مقالات | 8,718 |
تعداد مشاهده مقاله | 66,559,207 |
تعداد دریافت فایل اصل مقاله | 7,098,844 |
بسط پرس وجو با خوشه بندی اسناد شبه بازخورد با شباهت حساس به پرس وجو | ||
مدل سازی در مهندسی | ||
مقاله 21، دوره 14، شماره 47، دی 1395، صفحه 243-254 اصل مقاله (1.03 M) | ||
نوع مقاله: پژوهشی | ||
شناسه دیجیتال (DOI): 10.22075/jme.2017.2529 | ||
نویسندگان | ||
رضا خدائی؛ محمدعلی بالافر* ؛ سیدناصر رضوی | ||
دانشگاه تبریز | ||
تاریخ دریافت: 14 آبان 1393، تاریخ بازنگری: 15 تیر 1394، تاریخ پذیرش: 05 مهر 1394 | ||
چکیده | ||
بسط پرسوجو بهعنوان یکی از روشهای انطباق پرسوجو، اثربخشی جستجو را در بازیابی اطلاعات افزایش میدهد. بازخورد شبه مرتبط (PRF) روشی برای بسط پرسوجو است که فرض میکند اسناد رتبه بالا از نتایج اولیه مرتبط به موضوع پرسوجو هستند و کلمات بسط را از این اسناد انتخاب میکند. درحالیکه ممکن است اسناد نامرتبط به پرسوجو در اسناد رتبهبالا وجود داشته باشد. روشهایی برای انتخاب اسناد مرتبط و نادیده گرفتن اسناد خطا از اسناد رتبهبالا ارائهشده است که از خوشهبندی و یا طبقهبندی اسناد استفاده کردهاند. مهمترین موضوع در بسط پرسوجو، انتخاب کلمات بسط از مرتبط-ترین اسناد است. در این مقاله ما خوشهبندی اسناد شبه بازخورد را براساس شباهت حساس به پرسوجو ارائه میکنیم که در قرار دادن شبیهترین اسناد در کنار هم مؤثر است. شباهت حساس به پرسوجو که نسبت به شباهت مبتنی بر کلمه نتایج بهتری را در بازیابی اسناد بدست آورده است، دلیل استفاده در این مقاله است. خوشهها را مطابق با شباهت درونیشان رتبهبندی کرده و تعدادی از خوشههای رتبهبالا را برای بسط انتخاب میکنیم. کلمات بسط را از اسناد خوشههای انتخابشده، براساس تابع رتبهبندی TF-IDF استخراج میکنیم. آزمایشهای انجامشده روی مجموعهدادهی پزشکی MED نشان میدهد که نتایج جستجو برای پرسوجوهای بسطدادهشده با اسناد انتخابشده از خوشهها، نسبت به روش بازخورد شبه مرتبط (PRF) و بازیابی اولیه (VSM) بهتر است و اثربخشی جستجو را افزایش میدهد. | ||
کلیدواژهها | ||
بازیابی اطلاعات؛ بسط پرس وجو؛ بازخورد شبه مرتبط؛ شباهت حساس به پرس وجو | ||
عنوان مقاله [English] | ||
Query expansion using the clustering of pseudo relevant documents with query sensitive similarity | ||
نویسندگان [English] | ||
Reza Khodaei؛ Mohammadali Balafar؛ seyed Naser Razavi | ||
چکیده [English] | ||
Query expansion as one of query adaptation approaches, improves retrieval effectiveness of information retrieval. Pseudo-relevance feedback (PRF) is a query expansion approach that supposes top-ranked documents are relevant to the query concept, and selects expansion terms from top-ranked documents. However, Existing of irrelevant document in top-ranked documents is possible. Many approaches have been proposed for selecting relevant documents and ignoring irrelevant ones, which use clustering or classification of documents. Important issue in query expansion approaches is using relevant documents for selecting expansion terms. In this paper, we propose clustering of pseudo-relevant documents based on query sensitive similarity, which is efficient for placing similar documents together. Query sensitive similarity obtained good results in document retrieval rather than term-based similarity, is the reason for using in this paper. Clusters are ranked based on inner similarity, and some top ranked ones are selected for query expansion. Then, we extract expansion terms from documents of selected clusters based on Term Frequency- Inverse document frequency (TF-IDF) scoring function. Conducted experiments over Medicine dataset (MED) shows that retrieval results for expanded queries with selected documents from clusters is better than basic retrieval (VSM) and Pseudo-relevance feedback. In addition, the effectiveness of retrieval is raised. | ||
کلیدواژهها [English] | ||
Information Retrieval, Query Expansion, Pseudo relevance feedback, Query sensitive similarity | ||
مراجع | ||
1- [1] G. O. History. (2014). Google Annual Search Statistics. Available: http://www.statisticbrain.com/google-searches/ [2] Krovetz, R. (1997, July). Homonymy and polysemy in information retrieval. InProceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics (pp. 72-79). Association for Computational Linguistics. [3] Spink, A., & Jansen, B. J. (2004). A study of web search trends. Webology,1(2), 4. [4] Sanderson, M. (2008, July). Ambiguous queries: test collections need more sense. In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (pp. 499-506). ACM. [5] Xu, J., & Croft, W. B. (1996, August). Query expansion using local and global document analysis. In Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 4-11). ACM. [6] Huang, J. X., Miao, J., & He, B. (2013). High performance query expansion using adaptive co-training. Information Processing & Management, 49(2), 441-453. [7] Lee, K. S., & Croft, W. B. (2013). A deterministic resampling method using overlapping document clusters for pseudo-relevance feedback. Information Processing & Management, 49(4), 792-806. [8] Bashir, S. (2012). Improving retrievability with improved cluster-based pseudo-relevance feedback selection. Expert Systems with Applications, 39(8), 7495-7502. [9] Lavrenko, V., & Croft, W. B. (2001, September). Relevance based language models. In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 120-127). ACM. [10] Lee, K. S., Park, Y. C., & Choi, K. S. (2001). Re-ranking model based on document clusters. Information processing & management, 37(1), 1-14. [11] Lee, K. S., Kageura, K., & Choi, K. S. (2004). Implicit ambiguity resolution using incremental clustering in cross-language information retrieval. Information processing & management, 40(1), 145-159. [12] Tombros, A., & van Rijsbergen, C. J. (2001, October). Query-sensitive similarity measures for the calculation of interdocument relationships. InProceedings of the tenth international conference on Information and knowledge management (pp. 17-24). ACM. [13] Rocchio, J. J. (1971). Relevance feedback in information retrieval. [14] Sakai, T., Manabe, T., & Koyama, M. (2005). Flexible pseudo-relevance feedback via selective sampling. ACM Transactions on Asian Language Information Processing (TALIP), 4(2), 111-135. [15] Jardine, N., & van Rijsbergen, C. J. (1971). The use of hierarchic clustering in information retrieval. Information storage and retrieval, 7(5), 217-240. [16] Na, S. H. (2013). Probabilistic co-relevance for query-sensitive similarity measurement in information retrieval. Information Processing & Management,49(2), 558-575. [17] U. o. Glascow. (2014/03). Medline collection. Available: http://ir.dcs.gla.ac.uk/resources/test_collections/medl/ [18] Strohman, T., Metzler, D., Turtle, H., & Croft, W. B. (2005, May). Indri: A language model-based search engine for complex queries. In Proceedings of the International Conference on Intelligent Analysis (Vol. 2, No. 6, pp. 2-6).
| ||
آمار تعداد مشاهده مقاله: 950 تعداد دریافت فایل اصل مقاله: 480 |