عنوان مقاله :
مكان مرجع سازي منابع محل مبناي نيمه ساختاريافته در وب با استفاده از يادگيري ماشين
عنوان به زبان ديگر :
Georeferencing Semi-Structured Place-Based Web Resources Using Machine Learning
پديد آورندگان :
عباسي، اميدرضا دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري , آل شيخ، علي اصغر دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري
كليدواژه :
مكان مرجع سازي , اطلاعات محل مبنا , منابع تحت وب , جنگل هاي تصادفي
چكيده فارسي :
در سال هاي اخير محتواي منتشرشده بر روي وب به طور چشمگيري افزايش يافته است. بخش عمدهاي از اين اطلاعات به صورت نيمه ساختاريافته در اختيار عموم قرار دارند. علاوه بر اين، حجم عظيمي از اطلاعات مرتبط با محل هستند. اين گونه اطلاعات به يك مكان بر روي زمين اشاره دارند، اما داراي مختصات صريح آن محل نيستند. در اين مقاله به مكان مرجع سازي منابع نيمه ساختاريافته در وب با استفاده از يادگيري ماشين پرداخته شده است. مزيت اين روش عدم نياز به استفاده از روشهاي پيچيده متنكاوي جهت مكان مرجع سازي است. بدين منظور، از آگهي هاي تبليغاتي تارنماي ديوار مرتبط با املاك و مستغلات در شهر تهران استفاده شده است. به منظور جمع آوري داده از روش خزيدن در وب بهره برده شده است. همچنين، جهت دستيابي به هدف تحقيق، الگوريتم جنگل هاي تصادفي به عنوان يك روش يادگيري ماشين مناسب بكار گرفته شده است. نتايج تحقيق نشان مي دهد كه با استفاده از اين روش، آگهي هاي تبليغاتي تارنماي ديوار با دقت مناطق تهران قابل مكان مرجع سازي است. به طور كمّي، دقت بدست آمده در اين تحقيق حدود 6 كيلومتر در راستاي طول جغرافيايي و حدود 2 كيلومتر در راستاي عرض جغرافيايي است. همچنين، نتايج اين تحقيق نشان ميدهد كه متغير قيمت ملك نسبت به ديگر متغيرها از اهميت و تاثير بيشتري در تعيين مكان آگهي برخوردار است. علاوه بر اين، از نتايج اين تحقيق مي توان نتيجه گرفت كه قيمت املاك در شهر تهران در راستاي شمالي – جنوبي داراي الگوي مكاني بيشتري نسبت به راستاي شرقي – غربي هستند.
چكيده لاتين :
In recent years, the shared content on the web has had significant growth. A great part of these information are publicly available in the form of semi-strunctured data. Moreover, a significant amount of these information are related to place. Such types of information refer to a location on the earth, however, they do not contain any explicit coordinates. In this research, we tried to georeference the semi-structured resources on the web using machine learning. To this end, we leveraged the advertisements related to real state domain in the city of Tehran, Iran, published in Divar website. In order to extract the advertisesments from the website, a crawling approach was chosen. In addition, to assign coordinates to advertisements, we used Random Forests algorithm. The results show that using this approach, the advertisements can be georeferenced at the precision of neighborhoods. The resulting presicion from this approach is about 2 km and 6 km in latitude and longitude directions, respectively. Moreover, the results demonstrate that price of the property has higher importance relative to other variables considered in this study. It can be concluded that the price of properties in Tehran shows stronger spatial pattern in North-South direction than East-West direction.
عنوان نشريه :
علوم و فنون نقشه برداري