عنوان :
طراحي و پياده سازي ابزار مدلسازي موضوعي متون فارسي
شرح پديد آور/مجري (مجريان) طرح :
مظفري، نيلوفر
چكيده فارسي :
با افزايش داده ها در سالهاي اخير كه عمدتا غيرساخت يافته هستند، بدست آوردن اطلاعات دلخواه و مرتبط با پيچيدگي-
هايي همراه مي شود. هوش مصنوعي با ارائه تكنيك هايي كمك ميكند تا بتوان اطلاعات ارزشمندي را از داده ها استخراج
كرد. يكي از تكنيك هاي قوي براي تحليل مجموعه بزرگي از متون، مدلسازي موضوعي احتمالي است كه در واقع فرآيند
تشخيص خودكار موضوعات در يك متن با هدف كشف الگوهاي پنهان مي باشد. در اين پژوهش، به منظور بدست آوردن
مدلسازي موضوعي از الگوريتم تخصيص پنهان ديريكله و نمونه برداري گيبز استفاده شده است. اين الگوريتم فرض مي كند
كه اسناد از موضوعات متفاوتي تشكيل شده اند. به عبارت ديگر، هر نشريه از تعداد بسيار زيادي كلمه تشكيل شده است
كه هر يك متعلق به يك موضوع است و همچنين نسبت موضوعات داخل يك متن با يكديگر متفاوت است.
يكي از چالشهاي بزرگ در مدلسازي موضوعي، بدست آوردن تعداد موضوعات است كه نتيجه نهايي به اين پارامتر وابسته
است. اين پژوهش با مقايسه دو روش، يكي مبتني بر گريدي و ديگري مبتني بر نظريه بازبهنجاري، اين پارامتر را براي
مقالات نشريات فارسي تخمين زده است. روش گريدي با تعريف يك معيار براي ارزيابي مدل موضوعي و بدست آوردن اين
معيار با توجه به مقادير مختلف تعداد موضوعات، مي تواند تعداد موضوعات بهينه را تخمين بزند. اين پژوهش با بررسي و
تحليل معيارهاي ارزيابي مختلف، معيار انسجام را براي ارزيابي مدل موضوعي نشريات فارسي در روش گريدي استفاده
كرده است. الگوريتم ديگر مبتني بر نظريه بازبهنجاري است كه در واقع يك فرمولاسيون رياضي براي ساخت يك رويه
براي تغيير مقياس سيستم تحت بررسي ميباشد؛ به صورتي كه رفتار سيستم حفظ شود و تغييري در روند آن ايجاد نشود.
با استفاده از اين نظريه و استفاده از اطلاعات مرحله قبل، ميتوان تعداد موضوعات را با سرعت تخمين زد. همچنين مدت
زمان اجراي هر دو الگوريتم روي مقالات نشريات مختلف فارسي، ارائه و با يكديگر مقايسه شده است. علاوه بر اين، مدلسازي موضوعي روي اين داده ها كه از نشريات وزارت علوم انتخاب شده اند، انجام گرفت و دقت نتايج با معيارهاي كمي و كيفي ارائه شده است. به عنوان دستاورد ديگري از اين پژوهش، ليستي از ايست واژه هايي كه منحصرا مربوط به مقالات فارسي هستند، استخراج و ارائه گرديد.
چكيده انگليسي :
With the increasing size of textual data in recent years, it is difficult to get useful information from the huge data. Artificial intelligence by providing different techniques can help to extract valuable information from data. One of the widely used algorithms for analysis of large textual collections is probabilistic topic modeling which discovers the latent themes from a large text corpus. A topic means a set of words that occur together in a collection of documents and suggest a shared theme. In this research, we used the Latent Dirichlet Allocation with Gibbs sampling to extract topic models from the text. This algorithm assumes that any large document collection contains a finite set of topics or latent themes, while each word and each text of such collection belong to each topic with a certain probability.
One of the major challenges of topic modeling in practice is determining the number of topics because this value is not known in advance and the results of topic modeling depend on it. This research employs two algorithms to deal with the problem of determining the number of topics. One algorithm is based on the grid search and the other uses the renormalization theory to estimate the number of topics automatically. The former uses a metric such as perplexity or coherence and calculates the values of these metrics for different values of topic numbers and then chooses the parameter which leads to the best of values. The later uses renormalization theory, which is a mathematical formalism to construct a procedure for changing the scale of the system under which the behavior of the system preserves. Also, the execution time of two algorithms on different Persian journals has been reported. In addition, we propose the results of topic modeling on the academic papers of some Persian journals. As another achievement of this research, a list of Persian stop words for academic articles has been proposed.
كليدواژه :
مدلسازي موضوعي , الگوريتم تخصيص پنهان ديريكله , نمونه برداري گيبز , نظريه بازبهنجاري , آنتروپي رونو
اطلاعات نشر :
شيراز مركز منطقه اي اطلاع رساني علوم و فناوري
مشخصات ظاهري :
جدول، نمودار