دانلود مطالب پژوهشی درباره مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره ...

ارسال شده در 17 آبان 1400 توسط نجفی زهرا در بدون موضوع

هرچه قدر معیار WER کمتر باشد دو جمله به هم نزدیک ترند.
نرخ خطای ترجمه^[۲۰] (TER)
گاهی ممکن است یک ترجمه مطلوب، از همان کلمات جمله مرجع استفاده کرده باشد اما این کلمات به ترتیبی متفاوت در جمله ظاهر شوند، اما معیار WER نمی تواند این حالت را به حساب آورد. این مشکل توسط معیار TER [۲۹] رفع شده است. TER همان عملیات WER را دارد به اضافه عمل شیفت. معیار TER در نظر می‌گیرد که برای تبدیل یک جمله «مرجع» به جمله «فرضیه» به چه تعداد عمل ویرایشی شامل عمل‌های: حذف، درج، جایگزینی و شیفت عبارت نیاز است. نسبت این تعداد عمل ویرایشی به کل تعداد کلمات جمله مرجع، نمره TER را می‌دهد. از اینرو هر چه نمره TER کمتر باشد دو جمله به هم نزدیک‌ترند. شکل۲-۴ یک مثال از نحوه محاسبه TER است.

HYP: THIS WEEK THE SAUDIS denied information published in the new york times
REF: SAUDI ARABIA denied THIS WEEK information published
in the AMERICAN new york times
مثالی از نحوه محاسبه نمره TER
جمله اول که با REF مشخص شده است، جمله مرجع است و جمله دوم که با HYP مشخص شده، جمله فرضیه است. در این مثال برای تبدیل جمله مرجع به فرضیه، باید عبارت «SAUDI ARABIA» با عبارت «THE SAUDIS» جایگزین شود، یعنی جایگزینی دو کلمه و دو عمل ویرایشی محسوب می‌شود. همچنین عبارت «THIS WEEK» شیفت پیدا کرده است، که یک عمل ویرایشی محسوب می‌شود. کلمه «AMERICAN» نیز در جمله مرجع آمده اما در فرضیه نیست، و یک عمل ویرایشی درج در نظر گرفته می‌شود. از اینرو چهار عمل ویرایشی لازم است و از آنجا که تعداد کلمات جمله مرجع ۱۳ کلمه است، نمره TER می‌شود ۴/۱۳ یا ۳۱%.
TERp [30] نسخه جدیدتری از TER است که همه عملیات TER را دارد به اضافه سه عملیات جدید: تطابق ریشه، تطابق معنایی و جایگزینی عبارت. PER نیز یک معیار مربوط و مشابه است که جابجایی کلمات در جمله را نیز در نظر می‌گیرد.
فصل سوم
مروری بر تحقیقات انجام شده
مروری بر تحقیقات انجام شده
مقدمه
تا کنون برای ساخت پیکره‌های موازی تلاش‌های بسیاری شده است. در اینجا کارهای انجام شده را در سه بخش اصلی ساخت پیکره موازی از روی متون هم‌ترجمه، ساخت پیکره موازی از وب و ساخت پیکره موازی از روی پیکره تطبیقی می‌آوریم. در بخشی دیگر نیز کارهای مرتبطی که رویکردی مشابه مدل ارائه شده داشته‌اند و از طبقه‌بند آنتروپی بیشینه استفاده کرده‌اند ذکر می‌شوند. بخش نهایی اشاره‌ای کوتاه به کارهای انجام شده در زبان فارسی خواهد داشت.
ساخت پیکره موازی از روی متون هم‌ترجمه
در برخی تلاش‌ها سعی بر ساخت پیکره‌های موازی از روی متونی است که همراه ترجمه هستند. این کار با همتراز کردن سندهای هم‌ترجمه در سطح جمله انجام می‌شود.
فیلیپ کوهن در سال ۲۰۰۵ [۵]، پیکره‌ای از متون موازی در یازده زبان ساخت. متون این پیکره از شرح مذاکرات مجلس اروپا گرفته شده‌اند، و به همین دلیل یوروپارل (پارلمانی اروپا) نام گرفته است. پیکره ساخته شده در این کار همچنان در حال گسترش است و اکنون ۲۱ زبان اروپایی را شامل می‌شود. پیکره یوروپارل^[۲۱] در حال حاضر پیکره‌ای شناخته شده در حوزه ترجمه ماشینی برای زبان‌های اروپایی است که در آزمایشات زیادی مورد استفاده قرار می‌گیرد.
چانگ در سال ۲۰۰۴ در [۳۱]، برای ساخت یک پیکره موازی چینی – انگلیسی، متون همراه با ترجمه را از وب جمع آوری می‌کند. این متون از دامنه‌های مختلف مانند اخبار، مقالات تخصصی، نوشتجات ادبی و زیرنویس‌های فیلم‌ها و غیره گرفته شده‌اند. او نیز اذعان می‌کند که متون الکترونیکی ترجمه شده به زبان چینی–انگلیسی بسیار کم بوده، و ساخت یک پیکره موازی که از نظر دامنه توازن داشته باشد کاری دشوار است.
ایشیساکا و همکاران در سال ۲۰۰۹ [۹] برای غلبه بر مشکل کمبود پیکره موازی برای جفت زبان ژاپنی–انگلیسی، از کتابچه‌راهنماهای نرم افزارهای متن باز استفاده کردند. آنها بیان می‌کنند که کیفیت ترجمه راهنماها نسبتا بالاست، زیرا توسط کسانی ترجمه شده‌اند که عضو خود پروژه‌ها بوده‌اند بعلاوه اینکه توسط افراد دیگری از پروژه تصحیح شده‌اند. آنها ابتدا اینگونه متون را از وب جمع آوری کرده، سپس بصورت خودکار درسطح جمله همتراز کردند. روش استفاده شده برای همترازی جملات آنها، روش استفاده شده در کار یوتیاما و آیساهارا [۳۲] بود. شباهت بین دو جمله بر مبنای تعداد کلمات مشترک (تعداد کلماتی از دو جمله که ترجمه یکدیگر هستند) در نظر گرفته شد، که برای به دست آوردن این شباهت از یک فرهنگ لغت دوزبانه با بیش از ۴۵۰ هزار مدخل استفاده کردند. در نهایت پیکره‌ای موازی با نزدیک به ۵۰۰ هزار جفت جمله ساختند. آنها آزمایشاتشان را با ماشین ترجمه آماری موزز انجام دادند و نشان دادند که پیکره‌شان برای ترجمه ماشینی آماری مفید است.
در بالا چندین مثال از کارهای انجام شده توسط رویکرد ساخت پیکره موازی با بهره گرفتن از متونی که همراه با ترجمه هستند آمد. اکثر متون دوزبانه یافت شده اغلب ترجمه دقیق هم نیستند و بنابراین همترازی آنها آسان نیست. در این رویکردها دو مشکل عمده وجود دارد؛ اول اینکه دسترسی بسیار کمی به متونی که همراه با ترجمه باشند وجود دارد چرا که اینگونه متون کم بوده و در صورت وجود نیز کمتر بصورت رایگان در اختیار عموم قرار میگیرند. دومین مسئله نیز این است که اینگونه منابع اغلب مربوط به یک دامنه خاص می‌شوند و در نتیجه پیکره‌های ساخته شده از روی این منابع دامنه محدودی دارند. لازم به ذکر است که این مشکلات برای جفت زبان فارسی–انگلیسی بسیار جدی‌تر است زیرا زبان فارسی به مراتب منابع ترجمه شده کمتری نسبت به زبان‌های اروپایی، چینی و عربی دارد.
کارهای اخیر در حوزه ساخت پیکره‌های موازی، بر استخراج جملات موازی از روی متون دوزبانه تمرکز دارند؛ که یا از وب به عنوان منبع جملات شبه موازی استفاده کرده‌اند و یا منابع دیگری از پیکره‌های تطبیقی را به کار برده‌اند. با بکارگیری اینگونه منابع برای استخراج جملات موازی و ساخت پیکره‌های موازی، می‌توان بر دو مشکلی که پیشتر عنوان شدند (کمبود منابع و محدودیت دامنه) غلبه کرد. چرا که متون موجود در وب – که نامحدوند - و یا متون پیکره‌های تطبیقی که لزوما ترجمه یکدیگر نبوده و تنها از نظر محتوا شباهت دارند، به میزان زیادی در دسترسند. بعلاوه اینکه این منابع محدودیت دامنه نیز ندارند. در ادامه، این رویکردها در دو بخش (۱) استخراج جملات موازی از وب و (۲) استخراج جملات موازی از پیکره‌های تطبیقی، ذکر می‌شوند.
استخراج جملات موازی از وب
از جمله کارهایی که از وب به عنوان منبع برای ساخت پیکره‌های موازی استفاده کرده‌اند می‌توان به موارد زیر اشاره کرد:
کار نی و همکاران [۱۲] را می‌توان در این دسته آورد که در آن PTMiner برای کاویدن پیکره موازی از وب با بهره گرفتن از تطبیق الگوی URL و چند معیار دیگر مانند ساختار HTML، طول فایل و غیره به کار می‌رود.
رسنیک و اسمیت [۱۳] از سیستم فیلترینگ ساختاری STRAN خود استفاده می‌کنند. که جفت‌های موازی کاندید شده را با توجه به مجموعه‌ای از مقادیر ساختاری مختص آن جفت که از صفحه HTML آنها بدست آمده فیلتر می‌کند. آنها برای پیکره موازی انگلیسی-چینی که توسعه دادند، دقت ۹۸% و بازخوانی ۶۱% گزارش دادند.
ژانگ و همکاران [۱۴] از یک شناساگر متن موازی چند مشخصه، از طریق طبقه‌بند k نزدیک‌ترین همسایه استفاده کردند تا جفت‌های موازی چینی-انگلیسی را از اینترنت شناسایی کنند. و دقت ۹۵% و بازخوانی ۹۷% را بدست آوردند.
فانگ و همکاران (۲۰۱۰) در [۳۳]، سعی بر کاویدن مستمر جملات موازی از تریلیون‌ها وب سایت به عنوان مستندات تطبیقی دارند، که نه از نظر دامنه محدود باشد و نه از نظر ساختار یو آر ال‌ها و یا تاریخ انتشار. اما آنها خاطر‌نشان می‌کنند که کار ارائه شده همچنان در حال انجام و پیشرفت است و مقاله را برای مطلع کردن دیگر محققان از اهداف کارشان ارائه داده‌اند.
کوانگ و همکاران در سال ۲۰۱۰ [۳۴]، سعی بر استخراج متون موازی از پیکره‌های تطبیقی داشتند. آنها از ترکیب سه روش (۱) فیلتر کردن مبتنی بر طول جملات، (۲) شرط همشکل بودن دو جمله (از نظر نشانه‌گذاری‌های جمله) و (۳) شباهت مبتنی بر محتوا استفاده کردند. در مرحله اول از معیار گیل و چرچ [۲۵] برای فیلتر کردن جملات بر مبنای طولشان استفاده کردند. ابتدا نسبت طول تمامی جفت جملات موازی که در دسترسشان بود را محاسبه و سپس میانگین و واریانس این نسبت‌ها را به دست آوردند. جفت جملات کاندیدی که نسبت طولشان در محدوده این مقدار میانگین و واریانس آنها قرار نگیرد از بین جفت جملات کاندید حذف می‌شوند. در مرحله دوم ترتیب نشانه گذاری‌های به کار رفته در دو جمله (مانند علامت سوال، پرانتز، گیومه و …) با هم مقایسه می‌شوند. در این مرحله هم باید ترتیب نشانه گذاری‌های دو جمله مشابه باشد و هم طول زیربخش‌های دو جمله شرط مرحله اول را داشته باشند تا جفت جمله کاندید از این مرحله عبور کند، در غیر اینصورت حذف خواهد شد. در مرحله سوم شباهت محتوایی بین دو جمله کاندید تخمین زده می‌شود. به این شباهت یک نمره داده می‌شود و جفت مجملاتی که نمره شباهتشان از یک حد آستانه تعیین شده بیشتر باشد به عنوان جفت جمله موازی در نظر گرفته می‌شوند. برای به دست آوردن این شباهت محتوایی ابتدا یکی از دو جمله به عنوان جمله مبدأ به زبان مقابل ترجمه شده، سپس نمره شباهت دو جمله بر مبنای میزان عبارات مشترک و طول دو جمله به دست می‌آید. آزمایشات آنها بر روی جفت زبان انگلیسی–ویتنامی و متون گرفته شده از ویکی پدیا است. آنها ارزیابی‌هایشان را در یک مرحله بر مبنای افزایش میزان حد آستانه برای نمره شباهت محتوایی قرار دادند و در مرحله‌ای دیگر میزان تأثیر پیکره موازی استخراج شده در بهبود ترجمه ماشینی آماری را با بهره گرفتن از معیار بلو ارزیابی کردند، و در این مرحله از ماشین ترجمه آماری موزز استفاده کردند.
استخراج جملات موازی از پیکره‌های تطبیقی
استخراج جفت جملات موازی از وب مشکلاتی را نیز دارد که از آن جمله می‌توان به وجود متونی که بصورت خودکار ترجمه شده‌اند و در وبسایت‌ها قرار می‌گیرند اشاره کرد[۳۵] بعلاوه اینکه این داده‌های خام دقت پایینی دارند. کارهایی با هدف استخراج جملات موازی از پیکره‌های تطبیقی انجام شده‌اند، که کمتر با چنین مشکلاتی مواجهند. در ادامه برخی از این پژوهش‌ها آورده می‌شود:
ماسوآیچی و همکاران در [۳۶]، برای استخراج جفت متن‌های موازی از پیکره شبه تطبیقی که تولید کرده بودند، روشی ارائه کردند. آنها بر روی یک روش CLIR موجود که بر مبنای رویکرد نگاشت اطلاعاتی است، یک رویکرد خود راه‌انداز اعمال کردند.
ژائو و واگل [۳۷] برای پیدا کردن جملات موازی از پیکره تطبیقی خبری Xinhua از یک روش ابداعی استفاده کردند. آنها روش‌های بر مبنای لغت و جمله را با درنظر گرفتن معیار احتمال بیشینه، ترکیب کردند. و در همترازی کلمات، بر مبنای جملات موازی یافت شده شان، بهبود داشتند.
یوتیاما و آیساهارا [۳۲] برای استخراج جمله‌ها از یک پیکره تطبیقی خبری انگلیسی-ژاپنی، از تکنیک‌های CLIR و برنامه نویسی پویا استفاده کردند. آنها جفت مقاله‌های مشابه را شناسایی کرده، و سپس با این جفت‌ها مشابه متون موازی برخورد کرده، و جملاتشان را بر اساس یک نمره شباهت همتراز کرده و با بهره گرفتن از برنامه نویسی پویا همترازی با کمترین هزینه در سراسر جفت مقاله را می‌یابند.
یانگ و لی [۳۸] یک رویکرد بر مبنای برنامه نویسی پویا پیش گرفتند، تا بتوانند جملات موازی پنهان در جفت عناوین یک پیکره تطبیقی انگلیسی-چینی را شناسایی کنند. سپس برای تعیین ضریب اطمینان، طولانی‌ترین توالی مشترک، عملیات ویرایشی و توابع امتیاز دهی تطابق محور به کار می‌روند.
فانگ و چیونگ [۳۹] بر روی “پیکره بسیار غیر موازی” کار کردند، و بوسیله معیار شباهت کسینوسی مستندات چینی و انگلیسی را تطابق دادند. آنها همه جفت جمله‌های ممکن را تولید کرده و سپس بهترینشان را بر اساس یک آستانه روی معیار شباهت کسینوسی، انتخاب کردند. با یادگیری یک لغت نامه از روی جملات استخراج شده و تکرار با جفت جمله‌های بیشتر بوسیله یک خودراه‌انداز، کارآیی را بهبود بخشیدند.
Wu و فانگ [۴۰] از گرامر انتقال معکوس همراه با تکنیک‌های CLIR استفاده کردند، تا جملات موازی را از پیکره “شبه تطبیقی بسیار غیر موازی” بیابند.
در کاری که در سال ۲۰۰۵ توسط مونتینو و مارکو صورت گرفت [۴۱]، از یک واژه‌نامه دوزبانه برای ترجمه برخی از کلمات جمله مبدا استفاده شد. سپس این ترجمه‌ها برای ساخت کوئری از پایگاه داده به کار می‌روند، تا با بهره گرفتن از روش‌های بازیابی اطلاعات (IR) ترجمه‌های قابل تطبیق یافته شوند. جملات نامزد بر اساس میزان اشتراک کلمه تعیین شده و تصمیم گیری برای اینکه یک جفت جمله موازی هستند یا نه، توسط طبقه‌بند حداکثر آنتروپی که با جملات موازی آموزش داده شده صورت می‌گیرد. برای بدست آوردن نتایج بهتر، با بهره گرفتن از رویکرد خودراه‌اندازی، اندازه لغت نامه دوزبانه مکررا در حال افزایش است.
کار Eisele و Xu [42] را می‌توان نام برد، که در چارچوب پروژه ACCURAT کار می‌کنند. هدف آن، تحلیل و ارزیابی روش‌های نوین در استخراج پیکره‌های تطبیقی، و همچنین ارزیابی برخی روش‌های ارائه شده پیشین می‌باشد. مقصود فراهم کردن نسخه‌های دوباره پیاده سازی شده از روش‌های پایه‌ای مختلف برای محققان است. تمرکز تحقیقات این پروژه بر روی هجده جفت زبان اروپایی کم منبع است.
عبد الرئوف و اسچونک در سال ۲۰۱۱ [۲۴]، از پیکره LDC Gigaword به عنوان پیکره تطبیقی استفاده کردند. این پیکره شامل متن‌هایی از آژانس‌های خبری چند زبانه است. آنها جمله زبان مبدا را توسط یک ماشین ترجمه آماری، ترجمه کرده و سپس آن را به عنوان کوئری به موتور بازیابی اطلاعات (IR) می‌دهند. در فرایند IR نیز ۵ جمله با نمره بالاتر، از مستندات زبان مقصد (که در بازه زمانی a±۵ روز هستند) برگردانده می‌شوند. سپس جمله‌های جفت شده از یک سری فیلتر‌ها عبور داده می‌شوند تا میزان مشابهت بین ترجمه ماشین آماری و جمله‌های بازیابی شده‌اندازه گیری شود. در نهایت جفت جمله‌ها بر مبنای نمره مشابهت به عنوان موازی یا غیر موازی طبقه‌بندی می‌شوند. گیل و چرچ [۲۵] برنامه همترازیشان را بر مبنای این حقیقت قرار دادند که جملات طولانی تر/کوچک‌تر در یک زبان به جملات طولانی تر/کوتاه‌تر در زبان دیگر ترجمه می‌شوند. اما مشاهدات عبد الرئوف و اسچونک [۲۴] نشان داد که این فیلتر در هنگامی که اختلاف طول دو جمله خیلی زیاد است درست عمل نمی کند. آنها از سه فیلتر WER (فاصله لون اشتاین )، TER [29] و TERp [30] استفاده کردند. WER تعداد عملیات مورد نیاز برای تبدیل یک جمله به جمله دیگر را اندازه می‌گیرد که این عملیات عبارتند از درج، حذف، جایگزینی. TER همان عملیات WER را دارد به اضافه عمل شیفت و TERp نیز همه عملیات TER را دارد به اضافه سه عملیات جدید: تطابق ریشه، تطابق معنایی و جایگزینی عبارت.
تشخیص جملات موازی با بهره گرفتن از طبقه‌بند آنتروپی بیشینه
از میان کارهایی که در آنها از طبقه‌بند آنتروپی بیشینه برای رسیدن به این هدف استفاده شده است می‌توان به موارد زیر اشاره کرد:
مانتیانو و همکاران در [۴۳] تلاش می‌کنند تا جملات موازی را از پیکره‌های تطبیقی خبری استخراج کنند. طبقه‌بند آنتروپی بیشینه قسمت اصلی کار آنهاست. آنها ابتدا تمام جملات هر دو مقاله خبری مشابه را با یکدیگر جفت کردند و سپس این جفت جملات را از فیلتر طول کلمه و فیلتر کلمات مشترک عبور دادند. به این معنی که نسبت طول هر جفت جمله باید کمتر از ۲ باشد و حداقل نیمی از کلمات جمله مبدأ ترجمه‌ای در جمله مقصد داشته باشند. آنها از ویژگی‌های عمومی جمله‌ها و همچنین ویژگی‌های مبتنی بر همترازی در سطح کلمه بین دو جمله برای تشخیص موازی بودن یا غیر موازی بودن دو جمله استفاده کردند. آنها برای آموزش طبقه‌بند آنتروپی بیشینه از دو پیکره موازی ۵۰۰۰ جمله‌ای که یکی از داده‌های «در دامنه» و دیگری «خارج از دامنه» است استفاده کردند. داده‌های آزمایشی آنها نیز شامل ۷۰۰۰ جمله خارج از دامنه است.
نتایج ارزیابی‌های آنها از طبقه‌بند آنتروپی بیشینه نشان داد که طبقه‌بندی که با داده‌های در دامنه آموزش داده شده، دقت بالایی به دست می‌آورد و این به خاطر کیفیت بالای داده‌های در دامنه است. از طرف دیگر میزان بازخوانی برای طبقه‌بندی که با داده‌های مشابه داده‌های آزمایشی یعنی داده‌های خارج از دامنه آموزش داده شده، بسیار بالا است. آنها از ارزیابی‌ها دریافتند که ۹۹% کارآیی طبقه‌بند آنتروپی بیشینه از ویژگی‌های عمومی به همراه ویژگی‌های مربوط به درصد کلماتی که در همترازی در سطح کلمه اتصالی نداشته‌اند، به دست می‌آید. اما آنها اظهار داشتند برای داده‌های واقعی مانند جملات ورودی طبقه‌بند آنها که از پیکره‌های تطبیقی به دست می‌آید تفاوت بین جملات موازی و غیر موازی خیلی واضح نیست، بنابراین باید از دیگر ویژگی‌های مربوط به همترازی در سطح کلمه یک جفت جمله نیز استفاده کرد.
منصوری و فیلی نیز در [۸] تلاشی برای ساخت یک پیکره موازی داشته‌اند. آنها برای ساخت پیکره موازی از کتاب‌های دوزبانه انگلیسی-فارسی استفاده کردند. این کتاب‌ها در مرحله اول از فرمت پی دی اف به فرمت متن با یونیکد UTF-8 در می‌آیند، سپس بر اساس فصل از هم جدا می‌شوند. در مرحله بعد فاصله بین کلمات تعیین و تصحیح می‌شوند و در نهایت مرحله شکستن متن به جملات، که جهت تعیین مرز بین جملات از ابزار OpenNLP استفاده می‌کنند. روشی که آنها برای همترازی در سطح جمله به کار گرفتند، ترکیبی از روش‌های برپایه طول و روش‌های مبتنی بر کلمات مرتبط است. آنها اظهار داشتند که جملات همتراز شده در این سطح شامل برخی خطاها بوده و نویزی هستند. سپس برای فیلتر کردن این جملات نویزی از طبقه‌بند آنتروپی بیشینه استفاده کردند. آنها ویژگی‌های عمومی یک جفت جمله را در نظر گرفتند و همچنین احتمال ترجمه با میانگین هندسی به دست آمده از آی بی ام مدل ۱ را به عنوان ویژگی به کارگرفتند. آنها علاوه بر نسبت تعداد کلمات همتراز نشده هر کدام از جمله‌های مبدأ و مقصد به طول جمله، از نسبت تعداد کلمات همتراز نشده هر کدام از جمله‌های مبدأ و مقصد به ضرب طول جمله مبدأ در طول جمله مقصد نیز استفاده کردند. آنها در ارزیابی طبقه‌بند آنتروپی بیشینه از چهار مجموعه داده آزمایشی شامل ۴۰۰ جمله استفاده کردند و به دقت و بازخوانی بالایی دست یافتند.
کافمن در [۴۴] برای تشخیص جملات موازی و جملات غیر موازی، یک طبقه‌بند آنتروپی بیشینه پیاده سازی شده با جاوا به نام «JMaxAlign» ارائه می‌دهد. او از مجموعه ویژگی‌هایی که در [۴۳] آمده است استفاده می‌کند و ادعا می‌کند فیلترهایی که آنها برای ورودی طبقه‌بند آنتروپی بیشینه به کار می‌برند در حقیقت باعث می‌شود طبقه‌بند نمونه‌های خوبی را برای آموزش از دست بدهد. او میزان شباهت زبان‌های به کار رفته را بررسی کرد و نشان داد که در جفت زبان‌هایی که از نظر زبانی به هم نزدیکترند معیار F بالاتری به دست می‌آید. او همچنین نشان داد که دامنه داده‌های آموزشی و آزمایشی تأثیر زیادی بر کیفیت طبقه‌بند آنتروپی بیشینه دارد، و هنگامی که دامنه داده‌های آموزشی و آزمایشی مشابه باشند معیار F بسیار بیشتر می‌شود.
چو و همکاران در مقاله‌ای که در سال ۲۰۱۳ ارائه دادند [۴۵]، جفت جملات موازی چینی–ژاپنی را از پیکره شبه تطبیقی استخراج می‌کنند. آنها کار مانتیانو و همکاران را توسعه می‌دهند با این تفاوت که پیکره مورد استفاده برای استخراج جملات شبه تطبیقی است. قسمت اصلی کار آنها طبقه‌بند آنتروپی بیشینه است. آنها ادعا می‌کنند که فرایند یادگیری و آزمایش طبقه‌بند که در کار پیشین استفاده شده، واقعی نیست زیرا از ضرب کارتزین برای جفت کردن جملات استفاده می‌کنند. آنها علاوه بر آن چند ویژگی که مختص کاراکترهای مشترک بین زبان چینی و ژاپنی هستند را به طبقه‌بند اضافه کردند.
فرایند استخراج جملات موازی به کار رفته در چهار مرحله انجام می‌شود: ۱) جملات پیکره چینی با ماشین ترجمه، به ژاپنی ترجمه می‌شوند. ۲) جملات ترجمه شده به عنوان کوئری در فرایند بازیابی اطلاعات از پیکره ژاپنی مورد استفاده قرار می‌گیرند. ۳) به ازای هر جمله ترجمه شده، بالاترین N سند بازگردادنده شده توسط چارچوب بازیابی اطلاعات را در نظر می‌گیرند. ۴) جمله ترجمه شده مورد نظر را با تمام جملات موجود در N سند بازیابی شده جفت می‌کنند. ۵) از فیلترهای طول کلمات و کلمات مشترک برای فیلتر کردن جفت جمله‌ها و تولید جفت جملات کاندید استفاده می‌کنند. ۶) برای تشخیص جفت جملات موازی از بین جفت جملات کاندید، از طبقه‌بند آنتروپی بیشینه که با مقدار کمی جمله موازی آموزش داده شده، استفاده می‌کنند.

مجله علمی، خبری و آموزشی

مجله علمی، خبری و آموزشی

جستجو

موضوعات

آخرین مطالب

فیدهای XML