شماره ركورد كنفرانس :
3375
عنوان مقاله :
رتبه بندي واژگان در نوشتارهاي بدون ساختار توسط واگرايي جنسن - شنون
عنوان به زبان ديگر :
Word Ranking in Unstructured Documents by Jensen-Shannon Divergence
پديدآورندگان :
مهري علي دانشگاه صنعتي نوشيرواني بابل - دانشكده علوم - گروه فيزيك , نعمتي اندواري مسعود دانشگاه صنعتي نوشيرواني بابل - دانشكده علوم - گروه فيزيك , جماعتي مريم دانشگاه علم و صنعت - دانشكده فيزيك - گروه حالت جامد
كليدواژه :
رتبه بندي واژگان , نوشتارهاي بدون ساختار , واگرايي جنسن - شنون
عنوان كنفرانس :
دوازدهمين كنفرانس ماده چگال انجمن فيزيك ايران
چكيده فارسي :
رتبه بندي واژگان در دست نوشته هاي بشر بر حسب ارتباطشان با موضوع نوشتار، نقش مهمي در فرايند هاي متن كاوي ايفا مي نمايد. واژه هاي كليدي و مرتبط با موضوع نوشتار در نواحي محدودي از آن ظاهر مي شوند، در حالي كه واژه هاي كم اهميت و نامرتبط با هدف نوشتار توزيع مكاني تصادفي در كل متن دارند. ولي در نسخه ي تصادفي هر نوشتار همه ي واژ ه ها به شكل تصادفي توزيع مي شوند. تفاوت ميان توزيع يك كليدواژه در نسخه ي اصلي و تصادفي يك نوشتار معياري مناسب براي تعيين ميزان اهميت آن كليدواژه به دست مي دهد. در اين راستا به كمك روش افراز نوشتار مي توان براي توزيع مكاني هر كليدواژه در متن احتمال تعريف نمود، و سپس با استفاده از واگرايي جنسن - شنون تفاوت ميان توزيع هاي مكاني آن درنسخه ي اصلي و تصادفي نوشتار را محاسبه كرد. اين روش، بدون استفاده از ساختار نوشتار، به خوبي واژه هاي كليدي و كم اهميت را از هم تمييز مي دهد.
چكيده لاتين :
Ranking the words in human written texts, according to their relevance to text context, plays a crucial role in
many text mining tasks. Highly relevant words concentrate in some limited areas, while the irrelevants have
nearly random spatial distribution throughout the text. But in the randomly shuffled version of each text, all
word types are distributed at random. The difference between spatial distribution of words in the original
version of a text and its shuffled version prepares a proper criterion for word relevance ranking. In this
procedure, spatial distribution of each word type in the document is defined by box counting method. Then we
apply Jensen-Shannon divergence to measure the difference between probability distributions of words in the
original text and its shuffled version. This metric properly distinguish relevant words from irrelevants without
requiring any previous knowledge about text structure.