شماره ركورد :
1284587
عنوان مقاله :
غني‌ سازي جاينامه با استفاده از آگهي‌هاي املاك
عنوان به زبان ديگر :
Gazetteer Enrichment Using Real Estate Advertisements
پديد آورندگان :
شاخصي، مهدي دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري , آل شيخ، علي اصغر دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري , حبيبي، رويا دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري
تعداد صفحه :
14
از صفحه :
1
از صفحه (ادامه) :
0
تا صفحه :
14
تا صفحه(ادامه) :
0
كليدواژه :
غني سازي جاينامه , بازيابي اطلاعات مكاني , آگهي هاي املاك , جنگل هاي تصادفي
چكيده فارسي :
با توجه به افزايش روزافزون كاربردهاي بازيابي اطلاعات مكاني، جاينامه‌ها به عنوان بخش مهمي از فرآيند بازيابي اطلاعات مكاني، نيازمند غني‌سازي هستند. يكي از جنبه‌هاي غني‌سازي شناسايي و افزودن نام‌هاي جغرافيايي جديد به جاينامه و به‌هنگام‌سازي آن مي‌باشد. از جمله چالش ­هاي مهم در غني ­سازي جاينامه ­ها، در نظر گرفته شدن ديدگاه رسمي و اغلب ناديده گرفته شدن جاينام ­هاي محلي و همچنين پرهزينه و زمان بر بودن به­ هنگام­ سازي جاينامه ها است. در اين تحقيق، با تمركز بر گردآوري جاينام‌هاي شهري، روشي داده محور جهت شناسايي نام‌هاي جغرافيايي از نوع همسايگي و خيابان با استفاده از آگهي‌هاي املاك ارائه شده است. آگهي‌هاي املاك براي چهار كلانشهر تهران، مشهد، اصفهان و شيراز از وبسايت ديوار وبكاوي شده و پس از استخراج ان-گرم‌ها و اعمال پيش‌پردازش‌هاي لازم، ان-گرم‌ها برچسب‌گذاري شدند. بر مبناي 24 معيار مكاني و تحت مدل جنگل تصادفي براي هر كدام از اين چهار شهر مدل توليد شده و روي داده ساير شهرها آزموده شد. نتايج نشان‌دهنده‌ي اين است كه هم در شناسايي خيابان و هم همسايگي، عملكرد مدل آموزش‌يافته براساس داده شهر اول و آزمون روي داده ساير شهرها قابل قبول است. براي مثال، مدل آموزش يافته براساس داده شهر تهران در آزمون روي شهر مشهد، مقادير 61% و 74% را براي F_score به ترتيب در شناسايي خيابان و همسايگي كسب كرده است. لذا بر اين اساس مي‌توان گفت كه گردآوري نام‌هاي جغرافيايي در شرايطي كه ابزارهاي پردازش متن از كارايي كافي برخوردار نباشند، مي‌تواند با تكيه بر رفتار مكاني آن‌ها به خوبي انجام پذيرد.
چكيده لاتين :
Gazetteers are geospatial dictionaries of geographic names containing triples of place names, geographic footprints, and feature types for named geographic places. As an important element in Geospatial Information Retrieval (GIR), these precious resources should be enriched according to new applications. . Identification and adding new place names to the gazetteer, and keeping it up to date are important issues in the gazetteer enrichment. The main challenge in this era is that in most gazetteers only a top-down approach is considered. Consequently, most local place names are ignored in such gazetteers. In addition, updating gazetteers is a time-consuming and expensive process. Since the emergence of Web 2.0, using volunteered Geographic Information (VGI) and social media in harvesting place names have been attracted the attention of many researchers due to containing local place names and recently created ones. In a similar condition, online property ads published by people contain such place names. This article presents a data-driven method for identifying urban place names including neighborhoods and main streets using online real estate advertisements. Materials and Methods The online real estate ads of four metropolises including Tehran, Mashhad, Isfahan, and Shiraz mined from the Divar website. After n-gram extraction and applying required pre-processes, the n-grams got labeled. To remove outlier points from an n-gram set and consider the scenario that several places can have the same name through a city, the point set of the n-gram get clustered. Based on a set of spatial statistics, the random forest models on housing data of each city trained and then tested on the ads data of other cities. Discussion and Results The results show that either in detecting the main street or neighborhood, the model trained on ads data from one city has a successful prediction on the other ones. For example, the models trained based on the data of Tehran and tested on the data of Mashhad achieved 61% and 74% respectively in identifying street and neighbourhood. However, for some reasons such as imbalancement of datasets, data labeling challenges, and in some cases, identifying non-spatial n-grams due to clustering, precision has been decreased. Also, because of differences in urban patterns and place naming patterns between the cities, the recall has been slightly decreased. Conclusion A place can be referenced in two different ways: 1- By calling its name and 2- By coordinate data. Gazetteers are considered a bridge between that two types of georeferencing. According to the importance of these resources in geospatial applications, the enrichment of them is a necessity. For containing local place names, online property listings can be considered as a valuable resource for harvesting toponyms and enriching gazetteers. Regarding to that most users in publishing online property, ads consider a neighborhood or main street name which is well-known for the readers, these place names usually are written without any clue for identifying a location in a text processing manner. The behavior with respect to a set of spatial statistics can be considered as a spatial signature to recognize an n-gram as a neighborhood or street place name.
سال انتشار :
1400
عنوان نشريه :
علوم و فنون نقشه برداري
فايل PDF :
8674205
لينک به اين مدرک :
بازگشت