دانلود مقاله ترجمه شده شیوه متداول برای معنای کلمه
یک روش کلی برای معنا کردن کلمه ابهام زدایی در ویکی پدیا |
دسته بندی | کامپیوتر و IT |
فرمت فایل | |
حجم فایل | 547 کیلو بایت |
تعداد صفحات فایل | 13 |
بخشی از ترجمه فارسی مقاله:
چکیده
در این مقاله ما یک چارچوب کلی برای ابهامزدایی مفهوم کلمه با استفاده
از دانش نهفته در ویکیپدیا پیشنهاد میکنیم. الیالخصوص، از مجموعه متون
غنی و در حال رشد ویکیپدیا به منظور دستیابی به مخزن دانش بزرگ و قوی متشکل
از عبارات کلیدی ها و مباحث منتخب مرتبط با آنها بهرهبرداری مینماییم.
عبارات کلیدی عمدتاً از عناوین مقالات ویکیپدیا و متون مرجع مرتبط با
لینکهای ویکی مشتق شده است. ابهامزدایی از عبارات کلیدی هم بر اساس عمومیت
موضوع منتخب و هم ارتباط وابسته به متن است که در آن اطلاعات متنی
غیرضروری (و به طور بالقوه مختلکننده) حذف شدهاند. ما با ارزیابیهای
گسترده تجربی با استفاده از مقیاسهای مختلف ارتباطی، نشان میدهیم که روش
پیشنهادی به دقت ابهامزدایی قابل مقایسهای نسبت به تکنیک های پیشرفته،
دست مییابد، در حالی که مقدار هزینه محاسبه کمتری را متحمل میشود.
کلمات کلیدی: ابهامزدایی مفهوم کلمه، ویکیپدیا، حذف بخشهای اضافه متن
1 مقدمه
ابهامزدایی مفهوم کلمه (WSD) مسئله شناسایی مفهوم (معنی) یک کلمه را در یک
متن خاص است. در زندگی روزمره ، ذهن ما ناخودآگاه یک کلمه مبهم را بر
اساس متنی که در آن بروز مییابد به معنای مناسب ربط میدهد. از اینرو در
پردازش زبان طبیعی، ابهامزدایی مفهوم کلمه عمل خودکار تعیین معنای یک کلمه
با توجه به متن(های) مربوطه است. این یک کار پیچیده اما اساسی در بسیاری
از حوزهها از قبیل تشخیص موضوع و نمایهسازی، عناصر هم مرجع بین اسناد
[2، 18]، و جستجوی وب توسط افراد است. با توجه به رشد روبه افزایش اطلاعات
و مضامین آنلاین، روش ابهامزدایی کارآمد و با کیفیت با مقیاس پذیری بالا
از اهمیت حیاتی برخوردار است.
دو رویکرد اصلی را می توان در تحقیقات
گذشته یافت که درصدد پرداختن به موضوع، یعنی روشهای مبتنی بر دانش و
روشهای آموزش ماشینی نظارت هستند. رویکرد اول عمدتاً بر فرهنگهای لغت،
اصطلاحنامه، و یا پایگاههای دانش لغوی، مانند، فهرست مفاهیم متشکل از
کلمات / عبارات و تعاریف معانی ممکن آنها متکی است. الگوریتم لسک یک
الگوریتم اصلی از چنین نوعی میباشد، با این فرض که واژههای اشارهکننده
به معانی یکسان با کلمات مجاور خود در یک موضوع مشترک هستند. به دنبال این
ایده، بسیاری از تحقیقات درصدد شناسایی معنای صحیح برای یک کلمه با
حداکثر توافق بین تعاریف فرهنگ لغت و اصطلاحات ضمنی از کلمه مبهم هستند.
در فرایند ابهامزدایی، یک فهرست معانی با کیفیت بالا فاکتور بسیار مهمی
است که بر عملکرد تأثیر میگذارد.
با این حال، ساخت چنین منابع لغوی در
مقیاس بزرگ، قابل خواندن با ماشین، خسته کننده و پر زحمت است. بنابراین،
تنگنای کسب دانش مشکل اصلی در محدود کردن عملکرد چنین سیستمی است.روش دوم
مبتنی بر تلاش برای یادگیری ماشینی نظارت به منظور استخراج مجموعه ای از
ویژگیهای متنی محلی و جهانی از مجموعه داده های دستی معانی برچسب گذاشته
شده و یکپارچهسازی نمونه های آموزشی در یک طبقهبندی یادگیری ماشینی است.
بسیاری از تکنیکهای یادگیری ماشینی برای WSD (ابهامزدایی مفهوم کلمه) به
کار گرفته شدهاند، و نشان داده شده که موفق بودهاند. با این حال،
روشهای یادگیری ماشینی بیش از حد متحمل تنگنای کسب دانش زیرا آنها به
مقادیر قابل توجهی از نمونه های آموزشی نیاز دارند.
در این مقاله، ما
یک روش کلی برای کاوش در استفاده از ویکیپدیا به عنوان منبع واژگانی به
منظور ابهامزدایی مطرح میسازیم. ویکیپدیا، بزرگترین دانشنامه و مخزن دانش
آنلاین مشارکتی در جهان و دارای بیش از 3.2 مگابایت مقاله صرفاً به زبان
انگلیسی است. ویکیپدیا با یک گستردگی منطقی شمول جامعی از موضوعات، در
مقایسه با بسیاری از دیگر پایگاههای دانش فراهم میکند. مطالعات قبلی
نشان میدهد که کیفیت مقالههای ویکیپدیا با دانشنامه سردبیر قابل مقایسه
است. ویکیپدیا به خاطر مقیاس گسترده همکاری و همچنین کاربرد خود در سال
های اخیر به یک منبع مثمر ثمر در بسیاری از زمینه های تحقیقاتی تبدیل شده
است.
چارچوب ابهامزدایی مطرح شده در شکل 1 نشان داده شده است. سه مؤلفه
اصلی، فهرست ویکیپدیا، شناسایی عبارات کلیدی و از بین بردن عبارات کلیدی
اضافی و ابهامزدایی ویکیپدیا، در تحقیق ما برای ابهامزدایی شرح و بسط
داده شدهاند. به طور خاص، ما یک فهرست از مفهوم کلمه با استخراج کلمات
چند معنایی، مترادف و فراپیوند کد گذاری شده در ویکیپدیا میسازیم. هر
مدخل در فهرست یک عبارت کلیدی است که حداقل به یک مقاله ویکیپدیا اشاره
دارد. در بخش 3.1 به تفضیل، عبارت کلیدی هم یک عنوان مقاله در ویکیپدیا
هستند، و هم به صورت ظاهری (یا متون مرجع) از لینک ویکیپدیا آمدهاند.
این عبارات کلیدی، که هر یک دقیقا به یک مقاله ویکیپدیا اشاره دارد،
عبارات کلیدی بدون ابهام هستند. بعضی عبارات کلیدی مبهم هستند که هر یک از
آنها به مقالههای چندگانه ویکیپدیا اشاره دارند (یعنی، موضوعات / مفاهیم
منتخب، که در شکل 1 نشان داده شده است).
با توجه به یک متن، عبارات
کلیدی بدون ابهام شناخته شده از متن به عنوان اطلاعات متنی برای
ابهامزدایی از عبارات کلیدی مبهم هستند. در این میان، از بین بردن عبارات
کلیدی اضافه به شناسایی عبارات کلیدی مهم در متن که به صورت عبارت کلیدی
مبهم معین وقوع یافته به ابهامزدایی کمک می کند ، و تا حد زیادی موارد
مختل کننده را فیلتر نموده و کارایی سیستم را بهبود میبخشد. این
ابهامزدایی جزء اصلی چارچوب ماست. هدف از آن تعادل توافق بین مضمون عبارت
کلیدی مبهم و مضمون هر مفهوم منتخب است.
ارزیابی تجربی بر اساس مجموعه
دادههای مبتنی برحقیقت نشان میدهد که روش ما هم از نظر اثربخشی و هم
بهرهوری بهتر از روشهای پیشرفته دیگر، است. علاوه بر این، چون فهرست
ویکیپدیا که ما ایجاد میکنیم متکی بر اطلاعات غنی معنایی موجود در
ویکیپدیا است، رویکرد ما تنگنای کسب دانش سنتی اجتناب نموده و برای هر
دامنه در اندازه های مختلف قابل اجرا است. این روش میتواند به تحقیقات
موجود که به بررسی ابهامزدایی مفهوم کلمه و همچنین کاربردهای بالقوه نیاز
دارد، مرتبط شود.
رویکرد ما در چندین مفهوم به طور کلی کافی است: با
توجه به شمول جامعتر مباحث ویکیپدیا، فهرست ویکیپدیا دارای دامنه مستقلی
است، و با توجه به محبوبیت رو به رشد ویکیپدیا در زبانهای دیگر، رویکرد
ما میتواند به آسانی در همه زبانهای مختلف مورد استفاده مجدد قرار گیرد.
و در نهایت، چارچوب های مدولار امکان استفاده از مقیاسهای ارتباطی مختلف
متناسب با نیازهای کاربردی مختلف را فراهم میآورد.
سایر مطالب این
مقاله، به شرح زیر است: بخش 2 پژوهشهای مرتبط را بررسی میکند. بخش 3
رویکرد مارا همراه با اجزای منحصر به فرد در چارچوب پیشنهادی معرفی
مینماید. در بخش 4، ما نتایج تجربی را ارائه داده و مورد بحث قرار
میدهیم. در نهایت، ما بخش 5 نتیجهگیری مینماییم.
بخشی از مقاله انگلیسی:
Abstract
In this paper we propose a general framework for word sense disambiguation using knowledge latent in Wikipedia. Specifically, we exploit the rich and growing Wikipedia corpus in order to achieve a large and robust knowledge repository consisting of keyphrases and their associated candidate topics. Keyphrases are mainly derived from Wikipedia article titles and anchor texts associated with wikilinks. The disambiguation of a given keyphrase is based on both the commonness of a candidate topic and the context-dependent relatedness where unnecessary (and potentially noisy) context information is pruned. With extensive experimental evaluations using different relatedness measures, we show that the proposed technique achieved comparable disambiguation accuracies with respect to state-of-the-art techniques, while incurring orders of magnitude less computation cost.
1 Introduction
Word sense disambiguation (WSD) is the problem of identifying the sense (meaning) of a word within a specific context. In our daily life, our brain subconsciously relates an ambiguous word to an appropriate meaning based on the context it appears. In natural language processing, word sense disambiguation is thus the task of automatically determining the meaning of a word by considering the associated context(s). It is a complicated but crucial task in many areas such as topic detection and indexing [7, 13], cross-document co-referencing [2, 18], and web people search [1, 12, 22]. Given the current explosive growth of online information and content, an efficient and high-quality disambiguation method with high scalability is of vital importance. Two main approaches can be found in the literature that try to address the issue, namely knowledge-based methods and supervised machine learning methods. The former relies primarily on dictionaries, thesauri, or lexical knowledge bases, e.g., a sense inventory consisting of words/phrases and definitions of their possible senses. The Lesk algorithm [11] is the seminal algorithm of such kind, with the assumption that the words referring to the same meaning share a common topic in their neighborhood. Following this idea, a lot of works attempted to identify the correct meaning for a word by maximizing the agreement between the dictionary definitions and the contextual terms of the given ambiguous word. Within the disambiguation process, a high-quality sense inventory is a critical factor that affects the performance. However, building such a large-scale, machine-readable lexical resource is tedious and laborious. Thus, the knowledge acquisition bottleneck is the main problem limiting the performance of such systems. The second method based on supervised machine learning attempts to derive a set of local and global contextual features from a manually sense-tagged dataset and to integrate these training examples into a machine learning classi- fier. Many machine learning techniques have been applied to WSD, and shown to be successful [6, 10, 17]. Nevertheless, machine learning methods too suffer from the knowledge acquisition bottleneck since they require substantial amounts of training examples. In this paper, we propose a generalized method exploring the use of Wikipedia as the lexical resource for disambiguation. Wikipedia is the largest online encyclopedia and collaborative knowledge repository in the world with over 3.2M articles in English alone. It provides with a reasonably broad if not exhaustive coverage of topics, in comparison to many other knowledge bases. Previous study has found that the quality of Wikipedia articles is comparable to the editor-based encyclopedia [5]. Because of its massive scale of collaboration as well as usage, Wikipedia has become a fruitful resource in many research areas in recent years. The proposed disambiguation framework is illustrated in Figure 1. Three key components, Wikipedia inventory, keyphrase identification and pruning, and sense disambiguator are developed in our work for disambiguation. Specifically, we build a word sense inventory by extracting the polysemy, synonym and hyperlinks encoded in Wikipedia. Each entry in the inventory is a keyphrase which refers to at least one Wikipedia article. To be detailed in Section 3.1, a keyphrase is either a Wikipedia article title, or the surface form (or anchor text) of a wikilink. Those keyphrases, each of which refers to exactly one Wikipedia article, are unambiguous keyphrases. Some keyphrases are ambiguous; each of which refers to multiple Wikipedia articles (i.e., candidate topics/senses, shown in Figure 1). Given a document, the unambiguous keyphrases recognized from the document serve as context information to disambiguate the ambiguous keyphrases. In between, the keyphrase pruning helps identify the most important keyphrases in the context of the occurrence of the given ambiguous keyphrase for disambiguation, and it can largely filter out the noise and improve efficiency of the system. The disambiguator is the core component of our framework. It aims to balance the agreement between the context of the ambiguous keyphrase and the context of each candidate sense. Empirical evaluations based on a ground-truth dataset illustrate that our method outperforms other state-of-the-art approaches in terms of both effectiveness and efficiency. Moreover, since the Wikipedia inventory we create relies on the rich semantic information contained in Wikipedia, our approach avoids the traditional knowledge acquisition bottleneck and is applicable to any domain of varying size. It can be plugged into the existing works which require to address word sense disambiguation as well as potential applications. Our approach is general enough in several senses: given rather exhaustive coverage of Wikipedia topics, the Wikipedia inventory is domain independent; given Wikipedia’s growing popularity in other languages, our approach can be readily reused across different languages; and finally, the modular framework allows for using different relatedness measures suiting different application needs. The rest of this paper is structured as follows: Section 2 reviews related works. Section 3 introduces our approach along with the individual components in the proposed framework. In Section 4, we present and discuss the experimental results. Finally, we conclude in Section 5.