پديدآورندگان :
سجادي سيد محمدباقر moh.sajadi.eng@iauctb.ac.ir دانشكده كامپيوتر، دانشگاه آزاد تهران مركز , مينايي بيدگلي بهروز B_minaei@iust.ac.ir دانشكده كامپيوتر، دانشگاه علم و صنعت , عسگري بيدهندي مجيد majid.asgari@gmail.com دانشكده كامپيوتر، دانشگاه علم و صنعت , هاديان علي hadian@comp.iust.ac.ir دانشكده كامپيوتر، دانشگاه علم و صنعت , رحيمي محسن mohsen_rahimi@comp.iust.ac.ir دانشكده كامپيوتر، دانشگاه علم و صنعت
كليدواژه :
وب معنايي , پايگاه دانش , گراف دانش , چارچوب توصيف منبع
چكيده فارسي :
گراف دانش، مجموعه بزرگي از موجوديتهاي بههم مرتبط و غني شده به وسيله برچسبگذاري معنايي است. اين ابزار قدرتمند كه امروزه در محيط دانشگاه و صنعت به طور گستردهاي مورد استفاده قرار ميگيرد كاربردهاي فراواني در زمينه موتورهاي جستجو، پردازش زبان طبيعي، متنكاوي، سامانههاي پرسشوپاسخ و بازيابي اطلاعات دارد. در اين پژوهش، گراف دانش فارسي چند دامنهاي متشكل از بيش از ۴۰۰ هزار موجوديت و ۵/۶ ميليون رابطه ارائه ميگردد. دادههاي اين پايگاه دانش پويا، برگرفته از مقالههاي ويكيپدياي فارسي و اطلاعات ساختيافته آن مانند جعبههاي اطلاعاتي است. بر اساس استاندارد وب معنايي، مدل دادهاي گراف دانش فارسي به صورت RDF پيادهسازي شده است بنابراين دادهها به صورت سهتايي در پايگاه دانش ذخيره شده و ميتوان از طريق زبان SPARQL پرسوجوهاي معنايي را بيان نمود. بر اساس هستانشناسي DBpedia، يك هستانشناسي مطابق موجوديتهاي گراف دانش فارسي توسعه داده شده كه از طريق آن بيش از ۷۰۰۰ نگاشت ميان الگوها و خصيصههاي ويكيپديا با هستانشناسي برقرار شده است. در حال حاضر اطلاعات متنوعي به صورت ساختيافته راجع به اشخاص مشهور، مكانهاي مهم، سازمانها و شركتها، آثار ادبي و هنري، گونههاي زيستي شامل گياهان و حيوانات، رويدادها، زيستشناسي، اخترشناسي در اين گراف قابل دسترسي است. با توجه به آينده اينترنت و وب معنايي كه يك پايگاه دانش جهاني پيچيده و بسيار بزرگ خواهد بود، گراف دانش فارسي ميتواند نقش مهمي را در تبيين و توسعه اين فناوري نوظهور داشته باشد.
چكيده لاتين :
Knowledge graphs are large collections of interconnected entities enriched with semantic annotations, which have become powerful assets for enhancing search and are now widely used in both academia and industry. They are applied in search engines, Natural language processing (NLP), text mining, Question answering and information retrieval (IR). In this study, a cross-domain knowledge graph in Farsi language is presented, which consists of more than 400K of entities and 6.5 million relations. Data was extracted from Farsi Wikipedia and its structured data such as infobox. According to the semantic web, RDF data model and OWL2 ontology employed to implement the Farsi Knowledge Graph (FKG). Resources and their relations are stored in triple format, therefor access to the knowledge graph is provided by a SPARQL endpoint. An ontology, retrieved from DBpedia ontology, was developed and improved Based on resources of Farsi Wikipedia. Also, more than 7000 templates and properties of Wikipedia were mapped to the ontology. In the graph, there are a large amount of information on a variety of topics including famous people, important places, organizations and companies, literary and art works, physiology, biology, events, species, astronomy, etc. Future of internet according to the semantic web will be a complex and huge global knowledge base, therefor the FKG can play a significant role in defining and developing this emerging technology.