دسترسی سریع

بدنه خبر

دانشگاه کردستان / پورتال اخبار / بدنه خبر
پیکره زبان کردی
سه‌شنبه، 26 بهمن 1395
پیکره زبان کردی
در جمع آوری متون این پیکره از وب سایتهای خبری کردی مانند کوردپرس استفاده شده است و پس از نرمالسازی گزارش آماری زیر به دست آمده است.
نسخه فعلی این پیکره شامل 69000 سند خبری است که محتوی آنها شامل اخبار گوناگون از دسته های مختلف است. مراحل برچسب زنی نحوی پیکره با 40 سند شروع شده است که اسناد با دقت تمام  برچسب زده شده اند. این اسناد شامل  14,898,062 کلمه میباشند که از این تعداد واژه 436,655 واژه منحصر بفرد هستند. لازم به ذکر است که بر روی پیکره، از ریشه یاب استفاده نشده است و این عدد به واژه های خام بدون ریشه یابی اشاره دارد. به عنوان مثال دو واژه “کتێب ” و “کتێبەکان” دو واژه منحصر بفرد محاسبه شده اند.
پراکندگی سایزی فایلهای متنی از 2 کیلو بایت تا 247 کیلو بایت میباشد. و پراکندگی زمانی از سال 1389 تا 1394 است
برای دریافت اطلاعات بیشتر اینجا کلیک نمایید.
 
پورتال اخبار
آمار بازدید خبر
کاربران آنلاین 387
امروز 17912
دیروز 23547
ماه جاری 60202
سال جاری 1235313
از ابتدا 8123609
صفحه جاری 5521