مرکز منطقه ای اطلاع رساني علوم و فناوري - شناسايي و استخراج الگو‌ي گراف هم‌آيي واژگان براي سور با حجم داده هم‌سان

چكيده فارسي :

روند فزاينده پيشرفت‌هاي فناوري امكان تنوع‌بخشي به روشهاي شناسايي و استخراج ويژگي‌هاي داده‌ها و كشف ارتباط و شيوه اندركنش آنها در پديده‌هاي دنياي تكوين را بيش از پيش فراهم نموده است. در سالهاي اخير، رويكرد شبكه‌اي بررسي متون در داده‌هاي شبكه‌هاي اجتماعي محمل تحليل رفتاري كاربران قرار گرفته ولي پژوهش‌هاي زبان‌شناسي رايانه‌اي در اين خصوص به تازگي شروع شده است. تشكيل شبكه واژگان قرآن نيز در اين راستا قابل توجه است چون امكان سنجش ارتباط و ميزان نقش‌آفريني آنها در ‌ساختار ظاهري داده‌ها را تقويت مي‌كند. در اين بررسي گراف بدون‌جهت كلمات هم‌نشين در آيات ۱۰ سوره با حجم داده يكسان تشكيل و شاخص‌هاي مختلف مركزيت و دانسيته آن‌ها استخراج گرديد. ضمن استفاده از فاصله بين كلمات به عنوان معيار تفكيك واژه، هزينه خاصي براي تفاوت فاصله بين كلمات در يك آيه لحاظ نشد و وزن‌دهي بر اساس ميزان تكرار واژه تعيين گرديد. نتايج نشان داد كه به منظور تقويت كارايي تحليل موضوعي واژگان، ضرورت دارد كه پيش‌پردازش داده‌ها با حذف كلمات داراي تكرار زياد ولي بدون تأثير در موضوع‌يابي از طريق پياده‌سازي الگوريتم‌هاي بازيابي، انجام شود. علاوه بر اين، با توجه به بالا بودن ضريب بودن هم‌بستگي بين بعضي از شاخص‌ها، استفاده از روشهاي كاهش ابعاد و هم‌چنين شناسايي و استخراج شاخص‌هاي الگوي طيفي گراف‌ها پيشنهاد گرديد.