دسترسی سریع

بدنه خبر

دانشگاه کردستان / پورتال اخبار / بدنه خبر
پیکره زبان کردی
سه‌شنبه، 26 بهمن 1395
پیکره زبان کردی
در جمع آوری متون این پیکره از وب سایتهای خبری کردی مانند کوردپرس استفاده شده است و پس از نرمالسازی گزارش آماری زیر به دست آمده است.
نسخه فعلی این پیکره شامل 69000 سند خبری است که محتوی آنها شامل اخبار گوناگون از دسته های مختلف است. مراحل برچسب زنی نحوی پیکره با 40 سند شروع شده است که اسناد با دقت تمام  برچسب زده شده اند. این اسناد شامل  14,898,062 کلمه میباشند که از این تعداد واژه 436,655 واژه منحصر بفرد هستند. لازم به ذکر است که بر روی پیکره، از ریشه یاب استفاده نشده است و این عدد به واژه های خام بدون ریشه یابی اشاره دارد. به عنوان مثال دو واژه “کتێب ” و “کتێبەکان” دو واژه منحصر بفرد محاسبه شده اند.
پراکندگی سایزی فایلهای متنی از 2 کیلو بایت تا 247 کیلو بایت میباشد. و پراکندگی زمانی از سال 1389 تا 1394 است
برای دریافت اطلاعات بیشتر اینجا کلیک نمایید.
 
پورتال اخبار
آمار بازدید خبر
کاربران آنلاین 139
امروز 273
دیروز 4172
ماه جاری 11160
سال جاری 3442322
از ابتدا 4922052
صفحه جاری 5070