مشخصات مقاله | |
عنوان مقاله | A hadoop based platform for natural language processing of web pages and documents |
ترجمه عنوان مقاله | پلتفرم مبتنی بر هدوپ برای پردازش زبان طبیعی اسناد و صفحات وب |
فرمت مقاله | |
نوع مقاله | ISI |
سال انتشار | مقاله سال 2015 |
تعداد صفحات مقاله | 9 صفحه |
رشته های مرتبط | مهندسی کامپیوتر و مهندسی فناوری اطلاعات |
گرایش های مرتبط | اینترنت و شبکه های گسترده، مهندسی نرم افزار و رایانش ابری |
مجله | مجله زبان ها و محاسبات ویژوال – Journal of Visual Languages and Computing |
دانشگاه | سیستم های توزیع شده و آزمایشگاه فن آوری اینترنت، گروه مهندسی اطلاعات (DINFO)، دانشگاه فلورانس، ایتالیا |
کلمات کلیدی | پردازش زبان طبیعی، هدوپ، برچسب زنی بخش گفتار، تجزیه متن، وب کرالینگ، ماینینگ بیگ دیتاها، محاسبه موازی، سیستم های توزیع شده |
کد محصول | 7163 |
نشریه | نشریه الزویر |
لینک مقاله در سایت مرجع | لینک این مقاله در سایت الزویر (ساینس دایرکت) Sciencedirect – Elsevier |
وضعیت ترجمه مقاله | ترجمه آماده این مقاله موجود نمیباشد. میتوانید از طریق دکمه پایین سفارش دهید. |
دانلود رایگان مقاله | دانلود رایگان مقاله انگلیسی |
خرید ترجمه این مقاله | خرید ترجمه این مقاله |
بخشی از متن مقاله: |
چکیده انتشار گسترده و سریع اطلاعات در وب ، پخش بخش اعظم منابع متنی زبان طبیعی بدون ساختار را بالا برده است. توجه زیادی را در دهه های گذشته برای کشف دسترسی و تقسیم این منبع گسترده از دانش به خود جلب کرده است. به همین خاطر ، پردازش حجم وسیعی از داده ها در قالب زمانی منطقی ، چالشی بزرگ و لازمه ی حوزه های تحقیقاتی و تجاری است. نمونه های محاسبه ی موازی و سیستم های توزیع شده ، خوشه های کامپیوتری و کاربرد فزاینده ای در سال های اخیر داشته چونکه دستاوردهای مهمی برای محاسبه ی عملکرد در متن های فشرده ی داده ای مثل تحلیل و big data mining ماینینگ بیگ دیتا را معرفی کرده است. پردازش زبان طبیعی و خصوصا کارهای تفسیر(حاشیه نویسی) متن و استخراج ویژگی کلیدی ، حوزه ی مطالعاتی با شرایط محاسباتی بالاست ؛ در نتیجه ، این کارها ، فایده ی قابل توجهی برای ساختارهای موازی دارد. در این مقاله ، چارچوب توزیعی اسناد کرالینگ وب و اجرای کارهای پردازش زبان طبیعی به روش موازی ارائه شده است. این سیستم بر مبنای اکوسیستم آپاچی هدوپ و نمونه ی برنامه نویسی موازی به نام مپ ردیوس است. ما انطباق مپ ردیوس را در چارچوب و کاربرد گیت به طور خاص ، اجرا کرده ایم ( ابزار منبع باز با کاربرد گسترده برای مهندسی متن و NLP ). ارزیابی ای نیز در استفاده از راه حل استخراج کلیدواژه ها و عبارت های کلیدی از اسناد وب در خوشه ی هدوپ چند گرهی ارائه شده است. ارزیابی مقیاس پذیری عملکرد در برابر مجموعه ی نوشتاری واقعی صفحات وب و اسناد آن ، انجام شده است. |