Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus

دەربارەی کوردیپێدیا

بابەت بەهەڵکەوت

ڕێساکانی بەکارهێنان

ئەرشیڤوانانی کوردیپێدیا

بیروڕاکانتان

دڵخوازەکان

کڕۆنۆلۆژیای ڕووداوەکان

چالاکییەکان - کوردیپێدیا

یارمەتی

زۆرتر

ناونامە بۆ منداڵانی کورد

گەڕان بە کرتە

ئامار

بابەت

586,634

وێنە

124,528

پەرتووک PDF

22,125

فایلی پەیوەندیدار

126,725

ڤیدیۆ

2,194

زمان

کوردیی ناوەڕاست - Central Kurdish

317,537

Kurmancî - Upper Kurdish (Latin)

95,810

هەورامی - Kurdish Hawrami

67,767

عربي - Arabic

44,219

کرمانجی - Upper Kurdish (Arami)

26,772

فارسی - Farsi

15,923

English - English

8,538

Türkçe - Turkish

3,838

Deutsch - German

2,040

لوڕی - Kurdish Luri

1,785

Pусский - Russian

1,145

Français - French

359

Nederlands - Dutch

131

Zazakî - Kurdish Zazaki

Svenska - Swedish

Español - Spanish

Italiano - Italian

Polski - Polish

Հայերեն - Armenian

لەکی - Kurdish Laki

Azərbaycanca - Azerbaijani

日本人 - Japanese

Norsk - Norwegian

中国的 - Chinese

עברית - Hebrew

Ελληνική - Greek

Fins - Finnish

Português - Portuguese

Catalana - Catalana

Esperanto - Esperanto

Ozbek - Uzbek

Тоҷикӣ - Tajik

Srpski - Serbian

ქართველი - Georgian

Čeština - Czech

Lietuvių - Lithuanian

Hrvatski - Croatian

балгарская - Bulgarian

Kiswahili سَوَاحِلي -

हिन्दी - Hindi

Cebuano - Cebuano

қазақ - Kazakh

ترکمانی - Turkman (Arami Script)

پۆل

کوردیی ناوەڕاست

ژیاننامە

32,224

شوێنەکان

17,029

پارت و ڕێکخراوەکان

1,482

بڵاوکراوەکان (گۆڤار، ڕۆژنامە، ماڵپەڕ و دەزگا میدیاییەکان و ...)

1,070

وێنە و پێناس

9,466

کارە هونەرییەکان

1,725

ڕێکەوت و ڕووداو (کڕۆنۆلۆژیا)

16,030

نەخشەکان

284

ناوی کوردی

2,820

پەند

13,749

وشە و دەستەواژە

109,193

شوێنەوار و کۆنینە

786

خواردنی کوردی

134

پەرتووکخانە

27,065

کلتوور - گاڵتەوگەپ

4,714

کورتەباس

22,266

شەهیدان

12,078

کۆمەڵکوژی

11,392

بەڵگەنامەکان

8,744

هۆز - تیرە - بنەماڵە

236

ئامار و ڕاپرسی

4,631

کلتوور - مەتەڵ

3,147

یارییە کوردەوارییەکان

279

زانستە سروشتییەکان

ڤیدیۆ

2,064

بەرهەمە کوردستانییەکان

کەلوپەلی سەربازیی بەکارهاتوو لە کوردستان

ژینگەی کوردستان

102

هۆنراوە

10,639

دۆزی ژن

فەرمانگەکان

1,121

مۆزەخانە

نەریت

161

گیانلەبەرانی کوردستان

734

ڕووه‌كی كورده‌واری (گژوگیا و دار)

910

گەشتوگوزار

ئیدیۆم

929

دەزگەی چاپ و بڵاوکردنەوە

کۆگای فایلەکان

MP3

1,499

PDF

34,775

MP4

4,015

IMG

235,088

∑ تێکڕا

275,377

گەڕان بەدوای ناوەڕۆکدا

Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus

پۆل: کورتەباس

زمانی بابەت:

English - English

وێنە مێژووییەکان موڵکی نەتەوەییمانە! تکایە بە لۆگۆ و تێکستەکانتان و ڕەنگکردنیان بەهاکانیان مەشکێنن!

Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus

Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus.
Sina Ahmadi, Hossein Hassani, Daban Q. Jaff.
2020.
Machine translation has been a major motivation of development in natural language processing. Despite the burgeoning achievements in creating more efficient machine translation systems thanks to deep learning methods, parallel corpora have remained indispensable for progress in the field. In an attempt to create parallel corpora for the Kurdish language, in this paper, we describe our approach in retrieving potentially-alignable news articles from multi-language websites and manually align them across dialects and languages based on lexical similarity and transliteration of scripts. We present a corpus containing 12,327 translation pairs in the two major dialects of Kurdish, Sorani and Kurmanji. We also provide 1,797 and 650 translation pairs in English-Kurmanji and English-Sorani. The corpus is publicly available under the CC BY-NC-SA 4.0 license. [1]
=KTML_Link_External_Begin=https://www.kurdipedia.org/docviewer.aspx?id=445059&document=0001.PDF=KTML_Link_External_Between= Click to read the article: Leveraging Multilingual News Websites for Building a Kurdish Parallel Corpus=KTML_Link_External_End=

کوردیپێدیا بەرپرس نییە لە ناوەڕۆکی ئەم تۆمارە و خاوەنەکەی لێی بەرپرسیارە. کوردیپێدیا بە مەبەستی ئەرشیڤکردن تۆماری کردووە.

ئەم بابەتە بەزمانی (English) نووسراوە، کلیک لە ئایکۆنی

بکە بۆ کردنەوەی بابەتەکە بەو زمانەی کە پێی نووسراوە!

This item has been written in (English) language, click on icon

to open the item in the original language!

ئەم بابەتە 2,589 جار بینراوە

ڕای خۆت دەربارەی ئەم بابەتە بنووسە!

هاشتاگ

سەرچاوەکان

[1] ماڵپەڕ | English | academia.edu

فایلی پەیوەندیدار: 1

[زۆرتر...]