هرچه قدر معیار WER کمتر باشد دو جمله به هم نزدیک ترند.
نرخ خطای ترجمه[۲۰] (TER)
گاهی ممکن است یک ترجمه مطلوب، از همان کلمات جمله مرجع استفاده کرده باشد اما این کلمات به ترتیبی متفاوت در جمله ظاهر شوند، اما معیار WER نمی تواند این حالت را به حساب آورد. این مشکل توسط معیار TER [۲۹] رفع شده است. TER همان عملیات WER را دارد به اضافه عمل شیفت. معیار TER در نظر میگیرد که برای تبدیل یک جمله «مرجع» به جمله «فرضیه» به چه تعداد عمل ویرایشی شامل عملهای: حذف، درج، جایگزینی و شیفت عبارت نیاز است. نسبت این تعداد عمل ویرایشی به کل تعداد کلمات جمله مرجع، نمره TER را میدهد. از اینرو هر چه نمره TER کمتر باشد دو جمله به هم نزدیکترند. شکل۲-۴ یک مثال از نحوه محاسبه TER است.
HYP: THIS WEEK THE SAUDIS denied information published in the new york times
REF: SAUDI ARABIA denied THIS WEEK information published
in the AMERICAN new york times
مثالی از نحوه محاسبه نمره TER
جمله اول که با REF مشخص شده است، جمله مرجع است و جمله دوم که با HYP مشخص شده، جمله فرضیه است. در این مثال برای تبدیل جمله مرجع به فرضیه، باید عبارت «SAUDI ARABIA» با عبارت «THE SAUDIS» جایگزین شود، یعنی جایگزینی دو کلمه و دو عمل ویرایشی محسوب میشود. همچنین عبارت «THIS WEEK» شیفت پیدا کرده است، که یک عمل ویرایشی محسوب میشود. کلمه «AMERICAN» نیز در جمله مرجع آمده اما در فرضیه نیست، و یک عمل ویرایشی درج در نظر گرفته میشود. از اینرو چهار عمل ویرایشی لازم است و از آنجا که تعداد کلمات جمله مرجع ۱۳ کلمه است، نمره TER میشود ۴/۱۳ یا ۳۱%.
TERp [30] نسخه جدیدتری از TER است که همه عملیات TER را دارد به اضافه سه عملیات جدید: تطابق ریشه، تطابق معنایی و جایگزینی عبارت. PER نیز یک معیار مربوط و مشابه است که جابجایی کلمات در جمله را نیز در نظر میگیرد.
فصل سوم
مروری بر تحقیقات انجام شده
مروری بر تحقیقات انجام شده
مقدمه
تا کنون برای ساخت پیکرههای موازی تلاشهای بسیاری شده است. در اینجا کارهای انجام شده را در سه بخش اصلی ساخت پیکره موازی از روی متون همترجمه، ساخت پیکره موازی از وب و ساخت پیکره موازی از روی پیکره تطبیقی میآوریم. در بخشی دیگر نیز کارهای مرتبطی که رویکردی مشابه مدل ارائه شده داشتهاند و از طبقهبند آنتروپی بیشینه استفاده کردهاند ذکر میشوند. بخش نهایی اشارهای کوتاه به کارهای انجام شده در زبان فارسی خواهد داشت.
ساخت پیکره موازی از روی متون همترجمه
در برخی تلاشها سعی بر ساخت پیکرههای موازی از روی متونی است که همراه ترجمه هستند. این کار با همتراز کردن سندهای همترجمه در سطح جمله انجام میشود.
فیلیپ کوهن در سال ۲۰۰۵ [۵]، پیکرهای از متون موازی در یازده زبان ساخت. متون این پیکره از شرح مذاکرات مجلس اروپا گرفته شدهاند، و به همین دلیل یوروپارل (پارلمانی اروپا) نام گرفته است. پیکره ساخته شده در این کار همچنان در حال گسترش است و اکنون ۲۱ زبان اروپایی را شامل میشود. پیکره یوروپارل[۲۱] در حال حاضر پیکرهای شناخته شده در حوزه ترجمه ماشینی برای زبانهای اروپایی است که در آزمایشات زیادی مورد استفاده قرار میگیرد.
چانگ در سال ۲۰۰۴ در [۳۱]، برای ساخت یک پیکره موازی چینی – انگلیسی، متون همراه با ترجمه را از وب جمع آوری میکند. این متون از دامنههای مختلف مانند اخبار، مقالات تخصصی، نوشتجات ادبی و زیرنویسهای فیلمها و غیره گرفته شدهاند. او نیز اذعان میکند که متون الکترونیکی ترجمه شده به زبان چینی–انگلیسی بسیار کم بوده، و ساخت یک پیکره موازی که از نظر دامنه توازن داشته باشد کاری دشوار است.
ایشیساکا و همکاران در سال ۲۰۰۹ [۹] برای غلبه بر مشکل کمبود پیکره موازی برای جفت زبان ژاپنی–انگلیسی، از کتابچهراهنماهای نرم افزارهای متن باز استفاده کردند. آنها بیان میکنند که کیفیت ترجمه راهنماها نسبتا بالاست، زیرا توسط کسانی ترجمه شدهاند که عضو خود پروژهها بودهاند بعلاوه اینکه توسط افراد دیگری از پروژه تصحیح شدهاند. آنها ابتدا اینگونه متون را از وب جمع آوری کرده، سپس بصورت خودکار درسطح جمله همتراز کردند. روش استفاده شده برای همترازی جملات آنها، روش استفاده شده در کار یوتیاما و آیساهارا [۳۲] بود. شباهت بین دو جمله بر مبنای تعداد کلمات مشترک (تعداد کلماتی از دو جمله که ترجمه یکدیگر هستند) در نظر گرفته شد، که برای به دست آوردن این شباهت از یک فرهنگ لغت دوزبانه با بیش از ۴۵۰ هزار مدخل استفاده کردند. در نهایت پیکرهای موازی با نزدیک به ۵۰۰ هزار جفت جمله ساختند. آنها آزمایشاتشان را با ماشین ترجمه آماری موزز انجام دادند و نشان دادند که پیکرهشان برای ترجمه ماشینی آماری مفید است.
در بالا چندین مثال از کارهای انجام شده توسط رویکرد ساخت پیکره موازی با بهره گرفتن از متونی که همراه با ترجمه هستند آمد. اکثر متون دوزبانه یافت شده اغلب ترجمه دقیق هم نیستند و بنابراین همترازی آنها آسان نیست. در این رویکردها دو مشکل عمده وجود دارد؛ اول اینکه دسترسی بسیار کمی به متونی که همراه با ترجمه باشند وجود دارد چرا که اینگونه متون کم بوده و در صورت وجود نیز کمتر بصورت رایگان در اختیار عموم قرار میگیرند. دومین مسئله نیز این است که اینگونه منابع اغلب مربوط به یک دامنه خاص میشوند و در نتیجه پیکرههای ساخته شده از روی این منابع دامنه محدودی دارند. لازم به ذکر است که این مشکلات برای جفت زبان فارسی–انگلیسی بسیار جدیتر است زیرا زبان فارسی به مراتب منابع ترجمه شده کمتری نسبت به زبانهای اروپایی، چینی و عربی دارد.
کارهای اخیر در حوزه ساخت پیکرههای موازی، بر استخراج جملات موازی از روی متون دوزبانه تمرکز دارند؛ که یا از وب به عنوان منبع جملات شبه موازی استفاده کردهاند و یا منابع دیگری از پیکرههای تطبیقی را به کار بردهاند. با بکارگیری اینگونه منابع برای استخراج جملات موازی و ساخت پیکرههای موازی، میتوان بر دو مشکلی که پیشتر عنوان شدند (کمبود منابع و محدودیت دامنه) غلبه کرد. چرا که متون موجود در وب – که نامحدوند - و یا متون پیکرههای تطبیقی که لزوما ترجمه یکدیگر نبوده و تنها از نظر محتوا شباهت دارند، به میزان زیادی در دسترسند. بعلاوه اینکه این منابع محدودیت دامنه نیز ندارند. در ادامه، این رویکردها در دو بخش (۱) استخراج جملات موازی از وب و (۲) استخراج جملات موازی از پیکرههای تطبیقی، ذکر میشوند.
استخراج جملات موازی از وب
از جمله کارهایی که از وب به عنوان منبع برای ساخت پیکرههای موازی استفاده کردهاند میتوان به موارد زیر اشاره کرد:
کار نی و همکاران [۱۲] را میتوان در این دسته آورد که در آن PTMiner برای کاویدن پیکره موازی از وب با بهره گرفتن از تطبیق الگوی URL و چند معیار دیگر مانند ساختار HTML، طول فایل و غیره به کار میرود.
رسنیک و اسمیت [۱۳] از سیستم فیلترینگ ساختاری STRAN خود استفاده میکنند. که جفتهای موازی کاندید شده را با توجه به مجموعهای از مقادیر ساختاری مختص آن جفت که از صفحه HTML آنها بدست آمده فیلتر میکند. آنها برای پیکره موازی انگلیسی-چینی که توسعه دادند، دقت ۹۸% و بازخوانی ۶۱% گزارش دادند.
ژانگ و همکاران [۱۴] از یک شناساگر متن موازی چند مشخصه، از طریق طبقهبند k نزدیکترین همسایه استفاده کردند تا جفتهای موازی چینی-انگلیسی را از اینترنت شناسایی کنند. و دقت ۹۵% و بازخوانی ۹۷% را بدست آوردند.
فانگ و همکاران (۲۰۱۰) در [۳۳]، سعی بر کاویدن مستمر جملات موازی از تریلیونها وب سایت به عنوان مستندات تطبیقی دارند، که نه از نظر دامنه محدود باشد و نه از نظر ساختار یو آر الها و یا تاریخ انتشار. اما آنها خاطرنشان میکنند که کار ارائه شده همچنان در حال انجام و پیشرفت است و مقاله را برای مطلع کردن دیگر محققان از اهداف کارشان ارائه دادهاند.
کوانگ و همکاران در سال ۲۰۱۰ [۳۴]، سعی بر استخراج متون موازی از پیکرههای تطبیقی داشتند. آنها از ترکیب سه روش (۱) فیلتر کردن مبتنی بر طول جملات، (۲) شرط همشکل بودن دو جمله (از نظر نشانهگذاریهای جمله) و (۳) شباهت مبتنی بر محتوا استفاده کردند. در مرحله اول از معیار گیل و چرچ [۲۵] برای فیلتر کردن جملات بر مبنای طولشان استفاده کردند. ابتدا نسبت طول تمامی جفت جملات موازی که در دسترسشان بود را محاسبه و سپس میانگین و واریانس این نسبتها را به دست آوردند. جفت جملات کاندیدی که نسبت طولشان در محدوده این مقدار میانگین و واریانس آنها قرار نگیرد از بین جفت جملات کاندید حذف میشوند. در مرحله دوم ترتیب نشانه گذاریهای به کار رفته در دو جمله (مانند علامت سوال، پرانتز، گیومه و …) با هم مقایسه میشوند. در این مرحله هم باید ترتیب نشانه گذاریهای دو جمله مشابه باشد و هم طول زیربخشهای دو جمله شرط مرحله اول را داشته باشند تا جفت جمله کاندید از این مرحله عبور کند، در غیر اینصورت حذف خواهد شد. در مرحله سوم شباهت محتوایی بین دو جمله کاندید تخمین زده میشود. به این شباهت یک نمره داده میشود و جفت مجملاتی که نمره شباهتشان از یک حد آستانه تعیین شده بیشتر باشد به عنوان جفت جمله موازی در نظر گرفته میشوند. برای به دست آوردن این شباهت محتوایی ابتدا یکی از دو جمله به عنوان جمله مبدأ به زبان مقابل ترجمه شده، سپس نمره شباهت دو جمله بر مبنای میزان عبارات مشترک و طول دو جمله به دست میآید. آزمایشات آنها بر روی جفت زبان انگلیسی–ویتنامی و متون گرفته شده از ویکی پدیا است. آنها ارزیابیهایشان را در یک مرحله بر مبنای افزایش میزان حد آستانه برای نمره شباهت محتوایی قرار دادند و در مرحلهای دیگر میزان تأثیر پیکره موازی استخراج شده در بهبود ترجمه ماشینی آماری را با بهره گرفتن از معیار بلو ارزیابی کردند، و در این مرحله از ماشین ترجمه آماری موزز استفاده کردند.
استخراج جملات موازی از پیکرههای تطبیقی
استخراج جفت جملات موازی از وب مشکلاتی را نیز دارد که از آن جمله میتوان به وجود متونی که بصورت خودکار ترجمه شدهاند و در وبسایتها قرار میگیرند اشاره کرد[۳۵] بعلاوه اینکه این دادههای خام دقت پایینی دارند. کارهایی با هدف استخراج جملات موازی از پیکرههای تطبیقی انجام شدهاند، که کمتر با چنین مشکلاتی مواجهند. در ادامه برخی از این پژوهشها آورده میشود:
ماسوآیچی و همکاران در [۳۶]، برای استخراج جفت متنهای موازی از پیکره شبه تطبیقی که تولید کرده بودند، روشی ارائه کردند. آنها بر روی یک روش CLIR موجود که بر مبنای رویکرد نگاشت اطلاعاتی است، یک رویکرد خود راهانداز اعمال کردند.
ژائو و واگل [۳۷] برای پیدا کردن جملات موازی از پیکره تطبیقی خبری Xinhua از یک روش ابداعی استفاده کردند. آنها روشهای بر مبنای لغت و جمله را با درنظر گرفتن معیار احتمال بیشینه، ترکیب کردند. و در همترازی کلمات، بر مبنای جملات موازی یافت شده شان، بهبود داشتند.
یوتیاما و آیساهارا [۳۲] برای استخراج جملهها از یک پیکره تطبیقی خبری انگلیسی-ژاپنی، از تکنیکهای CLIR و برنامه نویسی پویا استفاده کردند. آنها جفت مقالههای مشابه را شناسایی کرده، و سپس با این جفتها مشابه متون موازی برخورد کرده، و جملاتشان را بر اساس یک نمره شباهت همتراز کرده و با بهره گرفتن از برنامه نویسی پویا همترازی با کمترین هزینه در سراسر جفت مقاله را مییابند.
یانگ و لی [۳۸] یک رویکرد بر مبنای برنامه نویسی پویا پیش گرفتند، تا بتوانند جملات موازی پنهان در جفت عناوین یک پیکره تطبیقی انگلیسی-چینی را شناسایی کنند. سپس برای تعیین ضریب اطمینان، طولانیترین توالی مشترک، عملیات ویرایشی و توابع امتیاز دهی تطابق محور به کار میروند.
فانگ و چیونگ [۳۹] بر روی “پیکره بسیار غیر موازی” کار کردند، و بوسیله معیار شباهت کسینوسی مستندات چینی و انگلیسی را تطابق دادند. آنها همه جفت جملههای ممکن را تولید کرده و سپس بهترینشان را بر اساس یک آستانه روی معیار شباهت کسینوسی، انتخاب کردند. با یادگیری یک لغت نامه از روی جملات استخراج شده و تکرار با جفت جملههای بیشتر بوسیله یک خودراهانداز، کارآیی را بهبود بخشیدند.
Wu و فانگ [۴۰] از گرامر انتقال معکوس همراه با تکنیکهای CLIR استفاده کردند، تا جملات موازی را از پیکره “شبه تطبیقی بسیار غیر موازی” بیابند.
در کاری که در سال ۲۰۰۵ توسط مونتینو و مارکو صورت گرفت [۴۱]، از یک واژهنامه دوزبانه برای ترجمه برخی از کلمات جمله مبدا استفاده شد. سپس این ترجمهها برای ساخت کوئری از پایگاه داده به کار میروند، تا با بهره گرفتن از روشهای بازیابی اطلاعات (IR) ترجمههای قابل تطبیق یافته شوند. جملات نامزد بر اساس میزان اشتراک کلمه تعیین شده و تصمیم گیری برای اینکه یک جفت جمله موازی هستند یا نه، توسط طبقهبند حداکثر آنتروپی که با جملات موازی آموزش داده شده صورت میگیرد. برای بدست آوردن نتایج بهتر، با بهره گرفتن از رویکرد خودراهاندازی، اندازه لغت نامه دوزبانه مکررا در حال افزایش است.
کار Eisele و Xu [42] را میتوان نام برد، که در چارچوب پروژه ACCURAT کار میکنند. هدف آن، تحلیل و ارزیابی روشهای نوین در استخراج پیکرههای تطبیقی، و همچنین ارزیابی برخی روشهای ارائه شده پیشین میباشد. مقصود فراهم کردن نسخههای دوباره پیاده سازی شده از روشهای پایهای مختلف برای محققان است. تمرکز تحقیقات این پروژه بر روی هجده جفت زبان اروپایی کم منبع است.
عبد الرئوف و اسچونک در سال ۲۰۱۱ [۲۴]، از پیکره LDC Gigaword به عنوان پیکره تطبیقی استفاده کردند. این پیکره شامل متنهایی از آژانسهای خبری چند زبانه است. آنها جمله زبان مبدا را توسط یک ماشین ترجمه آماری، ترجمه کرده و سپس آن را به عنوان کوئری به موتور بازیابی اطلاعات (IR) میدهند. در فرایند IR نیز ۵ جمله با نمره بالاتر، از مستندات زبان مقصد (که در بازه زمانی a±۵ روز هستند) برگردانده میشوند. سپس جملههای جفت شده از یک سری فیلترها عبور داده میشوند تا میزان مشابهت بین ترجمه ماشین آماری و جملههای بازیابی شدهاندازه گیری شود. در نهایت جفت جملهها بر مبنای نمره مشابهت به عنوان موازی یا غیر موازی طبقهبندی میشوند. گیل و چرچ [۲۵] برنامه همترازیشان را بر مبنای این حقیقت قرار دادند که جملات طولانی تر/کوچکتر در یک زبان به جملات طولانی تر/کوتاهتر در زبان دیگر ترجمه میشوند. اما مشاهدات عبد الرئوف و اسچونک [۲۴] نشان داد که این فیلتر در هنگامی که اختلاف طول دو جمله خیلی زیاد است درست عمل نمی کند. آنها از سه فیلتر WER (فاصله لون اشتاین )، TER [29] و TERp [30] استفاده کردند. WER تعداد عملیات مورد نیاز برای تبدیل یک جمله به جمله دیگر را اندازه میگیرد که این عملیات عبارتند از درج، حذف، جایگزینی. TER همان عملیات WER را دارد به اضافه عمل شیفت و TERp نیز همه عملیات TER را دارد به اضافه سه عملیات جدید: تطابق ریشه، تطابق معنایی و جایگزینی عبارت.
تشخیص جملات موازی با بهره گرفتن از طبقهبند آنتروپی بیشینه
از میان کارهایی که در آنها از طبقهبند آنتروپی بیشینه برای رسیدن به این هدف استفاده شده است میتوان به موارد زیر اشاره کرد:
مانتیانو و همکاران در [۴۳] تلاش میکنند تا جملات موازی را از پیکرههای تطبیقی خبری استخراج کنند. طبقهبند آنتروپی بیشینه قسمت اصلی کار آنهاست. آنها ابتدا تمام جملات هر دو مقاله خبری مشابه را با یکدیگر جفت کردند و سپس این جفت جملات را از فیلتر طول کلمه و فیلتر کلمات مشترک عبور دادند. به این معنی که نسبت طول هر جفت جمله باید کمتر از ۲ باشد و حداقل نیمی از کلمات جمله مبدأ ترجمهای در جمله مقصد داشته باشند. آنها از ویژگیهای عمومی جملهها و همچنین ویژگیهای مبتنی بر همترازی در سطح کلمه بین دو جمله برای تشخیص موازی بودن یا غیر موازی بودن دو جمله استفاده کردند. آنها برای آموزش طبقهبند آنتروپی بیشینه از دو پیکره موازی ۵۰۰۰ جملهای که یکی از دادههای «در دامنه» و دیگری «خارج از دامنه» است استفاده کردند. دادههای آزمایشی آنها نیز شامل ۷۰۰۰ جمله خارج از دامنه است.
نتایج ارزیابیهای آنها از طبقهبند آنتروپی بیشینه نشان داد که طبقهبندی که با دادههای در دامنه آموزش داده شده، دقت بالایی به دست میآورد و این به خاطر کیفیت بالای دادههای در دامنه است. از طرف دیگر میزان بازخوانی برای طبقهبندی که با دادههای مشابه دادههای آزمایشی یعنی دادههای خارج از دامنه آموزش داده شده، بسیار بالا است. آنها از ارزیابیها دریافتند که ۹۹% کارآیی طبقهبند آنتروپی بیشینه از ویژگیهای عمومی به همراه ویژگیهای مربوط به درصد کلماتی که در همترازی در سطح کلمه اتصالی نداشتهاند، به دست میآید. اما آنها اظهار داشتند برای دادههای واقعی مانند جملات ورودی طبقهبند آنها که از پیکرههای تطبیقی به دست میآید تفاوت بین جملات موازی و غیر موازی خیلی واضح نیست، بنابراین باید از دیگر ویژگیهای مربوط به همترازی در سطح کلمه یک جفت جمله نیز استفاده کرد.
منصوری و فیلی نیز در [۸] تلاشی برای ساخت یک پیکره موازی داشتهاند. آنها برای ساخت پیکره موازی از کتابهای دوزبانه انگلیسی-فارسی استفاده کردند. این کتابها در مرحله اول از فرمت پی دی اف به فرمت متن با یونیکد UTF-8 در میآیند، سپس بر اساس فصل از هم جدا میشوند. در مرحله بعد فاصله بین کلمات تعیین و تصحیح میشوند و در نهایت مرحله شکستن متن به جملات، که جهت تعیین مرز بین جملات از ابزار OpenNLP استفاده میکنند. روشی که آنها برای همترازی در سطح جمله به کار گرفتند، ترکیبی از روشهای برپایه طول و روشهای مبتنی بر کلمات مرتبط است. آنها اظهار داشتند که جملات همتراز شده در این سطح شامل برخی خطاها بوده و نویزی هستند. سپس برای فیلتر کردن این جملات نویزی از طبقهبند آنتروپی بیشینه استفاده کردند. آنها ویژگیهای عمومی یک جفت جمله را در نظر گرفتند و همچنین احتمال ترجمه با میانگین هندسی به دست آمده از آی بی ام مدل ۱ را به عنوان ویژگی به کارگرفتند. آنها علاوه بر نسبت تعداد کلمات همتراز نشده هر کدام از جملههای مبدأ و مقصد به طول جمله، از نسبت تعداد کلمات همتراز نشده هر کدام از جملههای مبدأ و مقصد به ضرب طول جمله مبدأ در طول جمله مقصد نیز استفاده کردند. آنها در ارزیابی طبقهبند آنتروپی بیشینه از چهار مجموعه داده آزمایشی شامل ۴۰۰ جمله استفاده کردند و به دقت و بازخوانی بالایی دست یافتند.
کافمن در [۴۴] برای تشخیص جملات موازی و جملات غیر موازی، یک طبقهبند آنتروپی بیشینه پیاده سازی شده با جاوا به نام «JMaxAlign» ارائه میدهد. او از مجموعه ویژگیهایی که در [۴۳] آمده است استفاده میکند و ادعا میکند فیلترهایی که آنها برای ورودی طبقهبند آنتروپی بیشینه به کار میبرند در حقیقت باعث میشود طبقهبند نمونههای خوبی را برای آموزش از دست بدهد. او میزان شباهت زبانهای به کار رفته را بررسی کرد و نشان داد که در جفت زبانهایی که از نظر زبانی به هم نزدیکترند معیار F بالاتری به دست میآید. او همچنین نشان داد که دامنه دادههای آموزشی و آزمایشی تأثیر زیادی بر کیفیت طبقهبند آنتروپی بیشینه دارد، و هنگامی که دامنه دادههای آموزشی و آزمایشی مشابه باشند معیار F بسیار بیشتر میشود.
چو و همکاران در مقالهای که در سال ۲۰۱۳ ارائه دادند [۴۵]، جفت جملات موازی چینی–ژاپنی را از پیکره شبه تطبیقی استخراج میکنند. آنها کار مانتیانو و همکاران را توسعه میدهند با این تفاوت که پیکره مورد استفاده برای استخراج جملات شبه تطبیقی است. قسمت اصلی کار آنها طبقهبند آنتروپی بیشینه است. آنها ادعا میکنند که فرایند یادگیری و آزمایش طبقهبند که در کار پیشین استفاده شده، واقعی نیست زیرا از ضرب کارتزین برای جفت کردن جملات استفاده میکنند. آنها علاوه بر آن چند ویژگی که مختص کاراکترهای مشترک بین زبان چینی و ژاپنی هستند را به طبقهبند اضافه کردند.
فرایند استخراج جملات موازی به کار رفته در چهار مرحله انجام میشود: ۱) جملات پیکره چینی با ماشین ترجمه، به ژاپنی ترجمه میشوند. ۲) جملات ترجمه شده به عنوان کوئری در فرایند بازیابی اطلاعات از پیکره ژاپنی مورد استفاده قرار میگیرند. ۳) به ازای هر جمله ترجمه شده، بالاترین N سند بازگردادنده شده توسط چارچوب بازیابی اطلاعات را در نظر میگیرند. ۴) جمله ترجمه شده مورد نظر را با تمام جملات موجود در N سند بازیابی شده جفت میکنند. ۵) از فیلترهای طول کلمات و کلمات مشترک برای فیلتر کردن جفت جملهها و تولید جفت جملات کاندید استفاده میکنند. ۶) برای تشخیص جفت جملات موازی از بین جفت جملات کاندید، از طبقهبند آنتروپی بیشینه که با مقدار کمی جمله موازی آموزش داده شده، استفاده میکنند.