Beta
297051

DEVELOPMENT THE DATASET FOR AUTOMATIC TRANSLATION SYSTEM

Article

Last updated: 24 Dec 2024

Subjects

-

Tags

Electrical engineering

Abstract

The Automatic translation systems (ATS) for translation text have extent widely in recent years. The ARS developed to correct several types of text errors explained by the Mossop's prototype such as spelling, typographical, syntactic, semantic, word, and formal ones. The ARS need a large amount of data training in its forms. There is a shortage in German-Arabic datasets for translation and revision purposes. Building dataset is the most time-consuming and the most important part of the text translation process. We make an effort to analyze and work on this large amount of data Sentences, and the form of text free dataset on the ARS, most efforts focus on German and Arabic data. Despite the increase in the number of Arabic, users and the increase in Arabic content on ARS. Therefore, in this paper, Arabic dataset built to use in text translation purpose. This research offers the German-Arabic dataset from the Taxonomy of errors in post-editing text for growth the ARS. Our dataset gathered from A Game of Throne saga in German (GR) and Arabic (AR) saga. Our dataset consists of 65,000 bilingual sentences collected from Text. The most significant penalties of this research were the Mossop's prototype terminates to explain all errors; and the prototype had to be lengthy in demand to include the Consistency. Finally, human evaluators were employed to grade the quality of ATS outputs and to revision them. We used a Rapid Miner tool to evaluate the performance of our dataset, the dataset accuracy of 95.12%.   إنتشرت أنظمة المراجعة التلقائية للنص المترجم على نطاق واسع في السنوات الأخيرة. تم تطوير نظام المراجعة التلقائية للنص المترجم لتصحيح عدة أنواع من أخطاء النص المترجم التي ذكرها النموذج الأولي لـموسوب مثل الإملائية ، والمطبعية ، والنحوية ، والدلالية ، والكلامية ، والشكلية. يحتاج نظام المراجعة التلقائية للنص المترجم إلى كمية كبيرة من البيانات في أشكالها لعمل تدريب عليها. هناك نقص في مجموعات البيانات الألمانية-العربية لأغراض الترجمة والمراجعة. يعد إنشاء مجموعة البيانات الجزء الأكثر استهلاكا للوقت والأكثر أهمية في عملية ترجمة النص. لقد قمنا ببذل جهدًا لتحليل هذه الكمية الكبيرة من جمل البيانات والعمل عليها وتشكيل مجموعة البيانات النصية الحالية من نظام المراجعة التلقائية للنص المترجم ، وتركز معظم الجهود على البيانات الألمانية والعربية. على الرغم من زيادة عدد المستخدمين للغة العربية وزيادة المحتوى العربي على نظام المراجعة التلقائية للنص المترجم. لذلك في هذه الورقة ، تم بناء مجموعة البيانات الألمانية-العربية لاستخدامها في أغراض ترجمة النص. يقدم هذا البحث مجموعة البيانات الألمانية العربية من تصنيف الأخطاء في نص ما بعد تصحيح الترجمة لنظام المراجعة التلقائية للنص المترجم. تم جمع مجموعة البيانات الخاصة بنا من ملحمة لعبة العروش  باللغتين الألمانية والعربية وتتكون مجموعة البيانات الخاصة بنا من 65000 جملة ثنائية اللغة تم جمعها من النص. كانت أهم نتائج هذا البحث هي عجز النموذج الأولي لـموسوب لشرح جميع الأخطاء ؛ وكان يجب أن يكون النموذج الأولي طويلاً ليشمل الاتساق. قمنا بتقييم صحة مجموعة البيانات الخاصة بالترجمة الألية والتدقيق بواسطة الخبراء البشريين. استخدمنا أداة Rapid Miner لتقييم أداء مجموعة البيانات الخاصة بنا وكانت دقة مجموعة البيانات 95.12٪.

DOI

10.21608/auej.2023.297051

Keywords

ATS Errors, APES Errors, ARS Errors, classification of errors in Translation text, (GR-AR) corpus. أخطاء نظام الترجمة الألية ، أخطاء نظام التدقيق الألي ، تصنيف الأخطاء في نص الترجمة ، مجموعة البيانات الألمانية-العربية

Authors

First Name

Dahey

Last Name

Ghanem

MiddleName

G.

Affiliation

Department of Systems Engineering and Computers, Faculty of Engineering, Al-Azhar University, Egypt.

Email

adahey@yahoo.com

City

cairo

Orcid

-

Volume

18

Article Issue

67

Related Issue

41037

Issue Date

2023-04-01

Receive Date

2022-09-03

Publish Date

2023-04-01

Page Start

413

Page End

422

Print ISSN

1687-8418

Online ISSN

3009-7622

Link

https://jaes.journals.ekb.eg/article_297051.html

Detail API

https://jaes.journals.ekb.eg/service?article_code=297051

Order

6

Type

Original Article

Type Code

706

Publication Type

Journal

Publication Title

Journal of Al-Azhar University Engineering Sector

Publication Link

https://jaes.journals.ekb.eg/

MainTitle

DEVELOPMENT THE DATASET FOR AUTOMATIC TRANSLATION SYSTEM

Details

Type

Article

Created At

24 Dec 2024