شماره ركورد كنفرانس :
4379
عنوان مقاله :
شناسايي نويسنده با استفاده از مدل سازي زباني ساده در پايگاه داده هاي متفاوت با ويژگي هاي متفاوت
پديدآورندگان :
وزيريان سمانه samane.vazirian@Gmail.com دانشكده مجازي دانشگاه صنعتي شاهرود , زاهدي مرتضي zahedi@shahroodut.ac.ir دانشگاه صنعتي شاهرود
كليدواژه :
شناسايي نويسنده , تشخيص نويسنده , مدل سازي زباني , پردازش متن
عنوان كنفرانس :
هشتمين كنفرانس فناوري اطلاعات و دانش
چكيده فارسي :
در اين مقاله به بررسي روش مدل سازي زباني ساده براي حل مساله تخصيص نويسنده در حالت مجموعه بسته و بررسي تاثير ويژگي هايي مثل متعادل بودن و اندازه داده آموزشي و آزمايشي در سه پايگاه داده با ويژگي هاي متفاوت پرداخته شده است. براي سنجش ميزان دقت مدل از سه پايگاه داده متفاوت در زبان، سبك نگارش و اندازه داده آموزشي استفاده شده است. دو پايگاه داده در زبان فارسي و به صورت نظم و يك پايگاه داده در زبان انگليسي و به صورت نثر تهيه شده است. براي سنجش ميزان دقت از سه معيار اندازه گيري Precision, Recall و F-measureاستفاده شده است. ميانگين دقت حاصل در پايگاه داده هاي فارسي به ترتيب 60% و 87% و دقت در پايگاه داده انگليسي 96% گزارش شده است. با توجه به تشابه دو پايگاه داده اول در زبان و سبك نوشتاري و وجود اختلاف در نتايج و همچنين بهبود نتيجه در پايگاه داده سوم مي توان نتيجه گرفت كه متعادل بودن پايگاه داده و اندازه داده آموزشي و ازمايشي در بهبود نتايج تاثير گذار است.