عنوان مقاله :
بررسي رويكردهاي متنكاوي و عملكرد آن در كشف و استخراج موضوع
عنوان به زبان ديگر :
A review of text mining approaches and their function in discovering and extracting a topic
پديد آورندگان :
منصوري، علي دانشگاه اصفهان، اصفهان، ايران , زرمهر، فاطمه دانشگاه اصفهان - گروه علم اطلاعات و دانش شناسي، اصفهان، ايران , كارشناس، حسين دانشگاه اصفهان - گروه هوش مصنوعي، اصفهان، ايران
كليدواژه :
متنكاوي , مدلسازي موضوعي , تحليل معنايي , كشف موضوع
چكيده فارسي :
زمينه و هدف : در اين پژوهش چهار روش متنكاوي بررسي ميشود و بر درك و شناسايي خصوصيات و محدوديتهاي آنها در كشف موضوع تمركز ميكند. اين چهار روش عبارتاند از 1) تجزيهوتحليل معنايي پنهان(LSA) 2) تحليل معنايي پنهان احتمالاتي(PLSA)، 3) تخصيص ديريكله پنهان(LDA) و 4) مدلسازي موضوعي همبسته(CTM).
روش پژوهش: پژوهش حاضر از نوع كتابخانهاي است كه در آن، ادبيات حوزه متنكاوي و مدلسازي موضوعي مرور و تحليل شده است.
يافتهها: تجزيهوتحليل معنايي پنهان ميتواند براي تشخيص موضوعات خاص و منحصربهفرد در مداركي كه تنها به يك موضوع پرداختهاند استفاده شود. سه روش ديگر متنكاوي، بر موضوعات و گرايش كلي متن متمركز هستند. تحليل معنايي پنهان احتمالاتي براي مداركي كه به يك موضوع پرداختهاند قابلاستفاده است اما برخلاف تجزيهوتحليل معنايي پنهان ، اين روش در كشف موضوعات و مضامين كلي متن كاربرد دارد. درحاليكه تخصيص ديريكله پنهان در مورد مداركي كه به چندين موضوع پرداختهاند كاربرد بيشتري دارد. روش مدلسازي موضوعي همبسته ميتواند در تشخيص ارتباط بين دستههاي موضوعي مختلف استفاده شود.
نتيجهگيري: رويكردهاي متنكاوي به خاطر بهرهگيري از تحليل معنايي در كشف و استخراج موضوع متون مناسب است.
چكيده لاتين :
Background and aim: Four text mining methods are examined and focused on understanding and identifying their properties and limitations in subject discovery.
Methodology: The study is an analytical review of the literature of text mining and topic modeling.
Findings: LSA could be used to classify specific and unique topics in documents that address only a single topic. The other three text mining methods focus on topics and general partiality of the text. PLSA is applicable to documents dealing with a topic, unlike the LSA, it is used to discover general themes and contexts. However, LDA is more applicable to documents that address several issues. The CTM, method can be used to identify relationship between different subject categories.
Conclusion: Text mining tactics are suitable for employing analysis in discovering and extracting the text subjects.
عنوان نشريه :
تعامل انسان و اطلاعات