Subjects
-Tags
-Abstract
الذخيرة اللغوية هي مجموعة من النصوص المکتوبة بلغة معينة، أو بأکثر من لغة، والتي يتم جمعها، وتخزينها، ومعالجتها، آلياً بشکل منظم على الحاسب الآلي؛ وفقاً لطريقة استخدامها والعمل عليها، وهي تعد أحد أهم المصادر في مجال البحث في استرجاع المعلومات، والمعالجة الطبيعية للغة، وکذلک اللغويات الحاسوبية، وقد أصبح بناء الذخائر اللغوية أمراً شائعاً ومألوفاً في هذه المجالات منذ سنوات، کما أن أحجام الذخائر قد زادت بشکل کبير في الآونة الأخيرة؛ بسبب التطور الهائل في التکنولوجيا المستخدمة في بنائها. إن هذه الدراسة هي محاولة من قبل الباحث لبناء ذخيرة لُغوية قياسية معاصرة للغة العربية. والذخيرة الناتجة، هي ذخيرة نصية مکتوبة مکونة مما يزيد على خمسة ملايين مقال وتحقيق صحفي، بإجمالي عدد کلمات يزيد على مليار ونصف المليار کلمة، منها حوالي أکثر من ثلاث ملايين کلمة فريدة لم تتکرر، وقد تم جمعها من المقالات الصحفية في عشرة مصادر من ثمانِ دول عربية، على مدار أربع عشرة سنة، وقد تم تشفير الذخيرة بنوعين من التشفير هما: الکود الموحد UTF-8، وکود ويندوز للغة العربية Windows cp-1256، کما تم توسيمها بلغة SGML ، ولغة XML.
DOI
10.21608/sjrc.2017.82652
Keywords
الذخائر اللغوية Corpus, Corpora، استرجاع المعلومات Information Retrieval، بناء الذخائر اللغوية Corpus Creation، المعالجة الطبيعية للغة Natural Language Processing، اللغويات الحاسوبية Computational Li
Authors
MiddleName
-Affiliation
قسم علم المعلومات، کلية العلوم الاجتماعية - جامعة أم القرى - مکة المکرمة - السعودية
Email
-City
-Orcid
-Link
https://sjrc.journals.ekb.eg/article_82652.html
Detail API
https://sjrc.journals.ekb.eg/service?article_code=82652
Publication Title
بحوث في علم المکتبات والمعلومات
Publication Link
https://sjrc.journals.ekb.eg/
MainTitle
-