مرکز منطقه ای اطلاع رساني علوم و فناوري - ايجاد گراف دانش فارسي چند دامنه‌اي

شماره ركورد كنفرانس :

3748

عنوان مقاله :

ايجاد گراف دانش فارسي چند دامنه‌اي

پديدآورندگان :

سجادي سيد محمدباقر moh.sajadi.eng@iauctb.ac.ir دانشكده كامپيوتر، دانشگاه آزاد تهران مركز , مينايي بيدگلي بهروز B_minaei@iust.ac.ir دانشكده كامپيوتر، دانشگاه علم و صنعت , عسگري بيدهندي مجيد majid.asgari@gmail.com دانشكده كامپيوتر، دانشگاه علم و صنعت , هاديان علي hadian@comp.iust.ac.ir دانشكده كامپيوتر، دانشگاه علم و صنعت , رحيمي محسن mohsen_rahimi@comp.iust.ac.ir دانشكده كامپيوتر، دانشگاه علم و صنعت

تعداد صفحه :

كليدواژه :

وب معنايي , پايگاه دانش , گراف دانش , چارچوب توصيف منبع

سال انتشار :

1396

عنوان كنفرانس :

پنجمين همايش ملي مديران فناوري اطلاعات

زبان مدرك :

فارسي

چكيده فارسي :

گراف دانش، مجموعه بزرگي از موجوديت‌هاي به‌هم مرتبط و غني شده به وسيله برچسب‌گذاري معنايي است. اين ابزار قدرتمند كه امروزه در محيط دانشگاه و صنعت به طور گسترده‌اي مورد استفاده قرار مي‌گيرد كاربردهاي فراواني در زمينه‌ موتورهاي جستجو، پردازش زبان طبيعي، متن‌كاوي، سامانه‌هاي پرسش‌وپاسخ و بازيابي اطلاعات دارد. در اين پژوهش، گراف دانش فارسي چند دامنه‌اي متشكل از بيش از ۴۰۰ هزار موجوديت و ۵/۶ ميليون رابطه ارائه مي‌گردد. داده‌هاي اين پايگاه دانش پويا، برگرفته از مقاله‌هاي ويكي‌پدياي فارسي و اطلاعات ساخت‌يافته آن مانند جعبه‌هاي اطلاعاتي است. بر اساس استاندارد وب معنايي، مدل داده‌اي گراف دانش فارسي به صورت RDF پياده‌سازي شده است بنابراين داده‌ها به صورت سه‌تايي در پايگاه دانش ذخيره شده و مي‌توان از طريق زبان SPARQL پرس‌وجوهاي معنايي را بيان نمود. بر اساس هستان‌شناسي DBpedia، يك هستان‌شناسي مطابق موجوديت‌هاي گراف دانش فارسي توسعه داده شده كه از طريق آن بيش از ۷۰۰۰ نگاشت ميان الگوها و خصيصه‌هاي ويكي‌پديا با هستان‌شناسي برقرار شده است. در حال حاضر اطلاعات متنوعي به صورت ساخت‌يافته راجع به اشخاص مشهور، مكان‌هاي مهم، سازمان‌ها و شركت‌ها، آثار ادبي و هنري، گونه‌هاي زيستي شامل گياهان و حيوانات، رويدادها، زيست‌شناسي، اخترشناسي در اين گراف قابل دسترسي است. با توجه به آينده اينترنت و وب معنايي كه يك پايگاه دانش جهاني پيچيده و بسيار بزرگ خواهد بود، گراف دانش فارسي مي‌تواند نقش مهمي را در تبيين و توسعه اين فناوري نوظهور داشته باشد.

چكيده لاتين :

Knowledge graphs are large collections of interconnected entities enriched with semantic annotations, which have become powerful assets for enhancing search and are now widely used in both academia and industry. They are applied in search engines, Natural language processing (NLP), text mining, Question answering and information retrieval (IR). In this study, a cross-domain knowledge graph in Farsi language is presented, which consists of more than 400K of entities and 6.5 million relations. Data was extracted from Farsi Wikipedia and its structured data such as infobox. According to the semantic web, RDF data model and OWL2 ontology employed to implement the Farsi Knowledge Graph (FKG). Resources and their relations are stored in triple format, therefor access to the knowledge graph is provided by a SPARQL endpoint. An ontology, retrieved from DBpedia ontology, was developed and improved Based on resources of Farsi Wikipedia. Also, more than 7000 templates and properties of Wikipedia were mapped to the ontology. In the graph, there are a large amount of information on a variety of topics including famous people, important places, organizations and companies, literary and art works, physiology, biology, events, species, astronomy, etc. Future of internet according to the semantic web will be a complex and huge global knowledge base, therefor the FKG can play a significant role in defining and developing this emerging technology.

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=188748