رنگارنگ

دانلود مقاله ترجمه شده شیوه متداول برای معنای کلمه

یک روش کلی برای معنا کردن کلمه ابهام زدایی در ویکی پدیا

دانلود دانلود مقاله ترجمه شده شیوه متداول برای معنای کلمه

دانلود شیوه متداول برای معنای کلمه
جزوه شیوه متداول برای معنای کلمه
مقاله شیوه متداول برای معنای کلمه
دسته بندی کامپیوتر و IT
فرمت فایل pdf
حجم فایل 547 کیلو بایت
تعداد صفحات فایل 13

بخشی از ترجمه فارسی مقاله:

چکیده

در این مقاله ما یک چارچوب کلی برای ابهامزدایی مفهوم کلمه با استفاده از دانش نهفته در ویکیپدیا پیشنهاد می‌کنیم. الی‌الخصوص، از مجموعه متون غنی و در حال رشد ویکیپدیا به منظور دستیابی به مخزن دانش بزرگ و قوی متشکل از عبارات کلیدی ها و مباحث منتخب مرتبط با آن‌ها بهره‌برداری می‌نماییم. عبارات کلیدی عمدتاً از عناوین مقالات ویکیپدیا و متون مرجع مرتبط با لینک‌های ویکی مشتق شده است. ابهامزدایی از عبارات کلیدی هم بر اساس عمومیت موضوع منتخب و هم ارتباط وابسته به متن است که در آن اطلاعات متنی غیرضروری (و به طور بالقوه مختل‌کننده) حذف شده‌اند. ما با ارزیابی‌های گسترده تجربی با استفاده از مقیاس‌های مختلف ارتباطی، نشان می‌دهیم که روش پیشنهادی به دقت ابهامزدایی قابل مقایسه‌ای نسبت به تکنیک های پیشرفته، دست می‌یابد، در حالی که مقدار هزینه محاسبه کمتری را متحمل می‌شود.
کلمات کلیدی: ابهامزدایی مفهوم کلمه، ویکیپدیا، حذف بخش‌های اضافه متن
1 مقدمه
ابهامزدایی مفهوم کلمه (WSD) مسئله شناسایی مفهوم (معنی) یک کلمه را در یک متن خاص است. در زندگی روزمره ، ذهن ما ناخودآگاه یک کلمه مبهم را بر اساس متنی که در آن بروز می‌یابد به معنای مناسب ربط می‌دهد. از اینرو در پردازش زبان طبیعی، ابهامزدایی مفهوم کلمه عمل خودکار تعیین معنای یک کلمه با توجه به متن(های) مربوطه است. این یک کار پیچیده اما اساسی در بسیاری از حوزه‌ها از قبیل تشخیص موضوع و نمایه‌سازی، عناصر هم مرجع بین اسناد [2، 18]، و جستجوی وب توسط افراد است. با توجه به رشد روبه افزایش اطلاعات و مضامین آنلاین، روش ابهامزدایی کارآمد و با کیفیت با مقیاس پذیری بالا از اهمیت حیاتی برخوردار است.
دو رویکرد اصلی را می توان در تحقیقات گذشته یافت که درصدد پرداختن به موضوع، یعنی روش‌های مبتنی بر دانش و روش‌های آموزش ماشینی نظارت هستند. رویکرد اول عمدتاً بر فرهنگ‌های لغت، اصطلاحنامه، و یا پایگاه‌های دانش لغوی، مانند، فهرست مفاهیم متشکل از کلمات / عبارات و تعاریف معانی ممکن آن‌ها متکی است. الگوریتم لسک یک الگوریتم اصلی از چنین نوعی می‌باشد، با این فرض که واژه‌های اشاره‌کننده به معانی یکسان با کلمات مجاور خود در یک موضوع مشترک هستند. به دنبال این ایده، بسیاری از تحقیقات درصدد شناسایی معنای صحیح برای یک کلمه با حداکثر توافق بین تعاریف فرهنگ لغت و اصطلاحات ضمنی از کلمه مبهم هستند. در فرایند ابهامزدایی، یک فهرست معانی با کیفیت بالا فاکتور بسیار مهمی است که بر عملکرد تأثیر می‌گذارد.
با این حال، ساخت چنین منابع لغوی در مقیاس بزرگ، قابل خواندن با ماشین، خسته کننده و پر زحمت است. بنابراین، تنگنای کسب دانش مشکل اصلی در محدود کردن عملکرد چنین سیستمی است.روش دوم مبتنی بر تلاش برای یادگیری ماشینی نظارت به منظور استخراج مجموعه ای از ویژگی‌های متنی محلی و جهانی از مجموعه داده های دستی معانی برچسب گذاشته شده و یکپارچه‌سازی نمونه های آموزشی در یک طبقه‌بندی یادگیری ماشینی است. بسیاری از تکنیک‌های یادگیری ماشینی برای WSD (ابهامزدایی مفهوم کلمه) به کار گرفته شده‌اند، و نشان داده شده که موفق بوده‌اند. با این حال، روش‌های یادگیری ماشینی بیش از حد متحمل تنگنای کسب دانش زیرا آنها به مقادیر قابل توجهی از نمونه های آموزشی نیاز دارند.
در این مقاله، ما یک روش کلی برای کاوش در استفاده از ویکیپدیا به عنوان منبع واژگانی به منظور ابهامزدایی مطرح می‌سازیم. ویکیپدیا، بزرگترین دانشنامه و مخزن دانش آنلاین مشارکتی در جهان و دارای بیش از 3.2 مگابایت مقاله صرفاً به زبان انگلیسی است. ویکی‌پدیا با یک گستردگی منطقی شمول جامعی از موضوعات، در مقایسه با بسیاری از دیگر پایگاه‌های دانش فراهم می‌کند. مطالعات قبلی نشان می‌دهد که کیفیت مقاله‌های ویکیپدیا با دانشنامه سردبیر قابل مقایسه است. ویکیپدیا به خاطر مقیاس گسترده همکاری و همچنین کاربرد خود در سال های اخیر به یک منبع مثمر ثمر در بسیاری از زمینه های تحقیقاتی تبدیل شده است.
چارچوب ابهامزدایی مطرح شده در شکل 1 نشان داده شده است. سه مؤلفه اصلی، فهرست ویکیپدیا، شناسایی عبارات کلیدی و از بین بردن عبارات کلیدی اضافی و ابهام‌زدایی ویکی‌پدیا، در تحقیق ما برای ابهامزدایی شرح و بسط داده شده‌اند. به طور خاص، ما یک فهرست از مفهوم کلمه با استخراج کلمات چند معنایی، مترادف و فراپیوند کد گذاری شده در ویکیپدیا می‌سازیم. هر مدخل در فهرست یک عبارت کلیدی است که حداقل به یک مقاله ویکیپدیا اشاره دارد. در بخش 3.1 به تفضیل، عبارت کلیدی هم یک عنوان مقاله در ویکیپدیا هستند، و هم به صورت ظاهری (یا متون مرجع) از لینک ویکی‌پدیا آمده‌اند. این عبارات کلیدی، که هر یک دقیقا به یک مقاله ویکیپدیا اشاره دارد، عبارات کلیدی بدون ابهام هستند. بعضی عبارات کلیدی مبهم هستند که هر یک از آنها به مقاله‌های چندگانه ویکیپدیا اشاره دارند (یعنی، موضوعات / مفاهیم منتخب، که در شکل 1 نشان داده شده است).
با توجه به یک متن، عبارات کلیدی بدون ابهام شناخته شده از متن به عنوان اطلاعات متنی برای ابهام‌زدایی از عبارات کلیدی مبهم هستند. در این میان، از بین بردن عبارات کلیدی اضافه به شناسایی عبارات کلیدی مهم در متن که به صورت عبارت کلیدی مبهم معین وقوع یافته به ابهامزدایی کمک می کند ، و تا حد زیادی موارد مختل کننده را فیلتر نموده و کارایی سیستم را بهبود می‌بخشد. این ابهام‌زدایی جزء اصلی چارچوب ماست. هدف از آن تعادل توافق بین مضمون عبارت کلیدی مبهم و مضمون هر مفهوم منتخب است.
ارزیابی تجربی بر اساس مجموعه داده‌های مبتنی برحقیقت نشان می‌دهد که روش ما هم از نظر اثربخشی و هم بهره‌وری بهتر از روش‌های پیشرفته دیگر، است. علاوه بر این، چون فهرست ویکی‌پدیا که ما ایجاد می‌کنیم متکی بر اطلاعات غنی معنایی موجود در ویکیپدیا است، رویکرد ما تنگنای کسب دانش سنتی اجتناب نموده و برای هر دامنه در اندازه های مختلف قابل اجرا است. این روش می‌تواند به تحقیقات موجود که به بررسی ابهامزدایی مفهوم کلمه و همچنین کاربردهای بالقوه نیاز دارد، مرتبط شود.
رویکرد ما در چندین مفهوم به طور کلی کافی است: با توجه به شمول جامع‌تر مباحث ویکیپدیا، فهرست ویکیپدیا دارای دامنه مستقلی است، و با توجه به محبوبیت رو به رشد ویکیپدیا در زبان‌های دیگر، رویکرد ما می‌تواند به آسانی در همه زبان‌های مختلف مورد استفاده مجدد قرار گیرد. و در نهایت، چارچوب های مدولار امکان استفاده از مقیاس‌های ارتباطی مختلف متناسب با نیازهای کاربردی مختلف را فراهم می‌آورد.
سایر مطالب این مقاله، به شرح زیر است: بخش 2 پژوهش‌های مرتبط را بررسی می‌کند. بخش 3 رویکرد مارا همراه با اجزای منحصر به فرد در چارچوب پیشنهادی معرفی می‌نماید. در بخش 4، ما نتایج تجربی را ارائه داده و مورد بحث قرار می‌دهیم. در نهایت، ما بخش 5 نتیجه‌گیری می‌نماییم.

بخشی از مقاله انگلیسی:

Abstract

In this paper we propose a general framework for word sense disambiguation using knowledge latent in Wikipedia. Specifically, we exploit the rich and growing Wikipedia corpus in order to achieve a large and robust knowledge repository consisting of keyphrases and their associated candidate topics. Keyphrases are mainly derived from Wikipedia article titles and anchor texts associated with wikilinks. The disambiguation of a given keyphrase is based on both the commonness of a candidate topic and the context-dependent relatedness where unnecessary (and potentially noisy) context information is pruned. With extensive experimental evaluations using different relatedness measures, we show that the proposed technique achieved comparable disambiguation accuracies with respect to state-of-the-art techniques, while incurring orders of magnitude less computation cost.

1 Introduction

Word sense disambiguation (WSD) is the problem of identifying the sense (meaning) of a word within a specific context. In our daily life, our brain subconsciously relates an ambiguous word to an appropriate meaning based on the context it appears. In natural language processing, word sense disambiguation is thus the task of automatically determining the meaning of a word by considering the associated context(s). It is a complicated but crucial task in many areas such as topic detection and indexing [7, 13], cross-document co-referencing [2, 18], and web people search [1, 12, 22]. Given the current explosive growth of online information and content, an efficient and high-quality disambiguation method with high scalability is of vital importance. Two main approaches can be found in the literature that try to address the issue, namely knowledge-based methods and supervised machine learning methods. The former relies primarily on dictionaries, thesauri, or lexical knowledge bases, e.g., a sense inventory consisting of words/phrases and definitions of their possible senses. The Lesk algorithm [11] is the seminal algorithm of such kind, with the assumption that the words referring to the same meaning share a common topic in their neighborhood. Following this idea, a lot of works attempted to identify the correct meaning for a word by maximizing the agreement between the dictionary definitions and the contextual terms of the given ambiguous word. Within the disambiguation process, a high-quality sense inventory is a critical factor that affects the performance. However, building such a large-scale, machine-readable lexical resource is tedious and laborious. Thus, the knowledge acquisition bottleneck is the main problem limiting the performance of such systems. The second method based on supervised machine learning attempts to derive a set of local and global contextual features from a manually sense-tagged dataset and to integrate these training examples into a machine learning classi- fier. Many machine learning techniques have been applied to WSD, and shown to be successful [6, 10, 17]. Nevertheless, machine learning methods too suffer from the knowledge acquisition bottleneck since they require substantial amounts of training examples. In this paper, we propose a generalized method exploring the use of Wikipedia as the lexical resource for disambiguation. Wikipedia is the largest online encyclopedia and collaborative knowledge repository in the world with over 3.2M articles in English alone. It provides with a reasonably broad if not exhaustive coverage of topics, in comparison to many other knowledge bases. Previous study has found that the quality of Wikipedia articles is comparable to the editor-based encyclopedia [5]. Because of its massive scale of collaboration as well as usage, Wikipedia has become a fruitful resource in many research areas in recent years. The proposed disambiguation framework is illustrated in Figure 1. Three key components, Wikipedia inventory, keyphrase identification and pruning, and sense disambiguator are developed in our work for disambiguation. Specifically, we build a word sense inventory by extracting the polysemy, synonym and hyperlinks encoded in Wikipedia. Each entry in the inventory is a keyphrase which refers to at least one Wikipedia article. To be detailed in Section 3.1, a keyphrase is either a Wikipedia article title, or the surface form (or anchor text) of a wikilink. Those keyphrases, each of which refers to exactly one Wikipedia article, are unambiguous keyphrases. Some keyphrases are ambiguous; each of which refers to multiple Wikipedia articles (i.e., candidate topics/senses, shown in Figure 1). Given a document, the unambiguous keyphrases recognized from the document serve as context information to disambiguate the ambiguous keyphrases. In between, the keyphrase pruning helps identify the most important keyphrases in the context of the occurrence of the given ambiguous keyphrase for disambiguation, and it can largely filter out the noise and improve efficiency of the system. The disambiguator is the core component of our framework. It aims to balance the agreement between the context of the ambiguous keyphrase and the context of each candidate sense. Empirical evaluations based on a ground-truth dataset illustrate that our method outperforms other state-of-the-art approaches in terms of both effectiveness and efficiency. Moreover, since the Wikipedia inventory we create relies on the rich semantic information contained in Wikipedia, our approach avoids the traditional knowledge acquisition bottleneck and is applicable to any domain of varying size. It can be plugged into the existing works which require to address word sense disambiguation as well as potential applications. Our approach is general enough in several senses: given rather exhaustive coverage of Wikipedia topics, the Wikipedia inventory is domain independent; given Wikipedia’s growing popularity in other languages, our approach can be readily reused across different languages; and finally, the modular framework allows for using different relatedness measures suiting different application needs. The rest of this paper is structured as follows: Section 2 reviews related works. Section 3 introduces our approach along with the individual components in the proposed framework. In Section 4, we present and discuss the experimental results. Finally, we conclude in Section 5.

دانلود دانلود مقاله ترجمه شده شیوه متداول برای معنای کلمه

  • مسعود ملک نیا

نظرات  (۰)

هیچ نظری هنوز ثبت نشده است
ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی