دسترسی سریع

بدنه خبر

دانشگاه کردستان / پورتال اخبار / بدنه خبر
پیکره زبان کردی
سه‌شنبه، 26 بهمن 1395
پیکره زبان کردی

در جمع آوری متون این پیکره از وب سایتهای خبری کردی مانند کوردپرس استفاده شده است و پس از نرمالسازی گزارش آماری زیر به دست آمده است.
نسخه فعلی این پیکره شامل 69000 سند خبری است که محتوی آنها شامل اخبار گوناگون از دسته های مختلف است. مراحل برچسب زنی نحوی پیکره با 40 سند شروع شده است که اسناد با دقت تمام  برچسب زده شده اند. این اسناد شامل  14,898,062 کلمه میباشند که از این تعداد واژه 436,655 واژه منحصر بفرد هستند. لازم به ذکر است که بر روی پیکره، از ریشه یاب استفاده نشده است و این عدد به واژه های خام بدون ریشه یابی اشاره دارد. به عنوان مثال دو واژه “کتێب ” و “کتێبەکان” دو واژه منحصر بفرد محاسبه شده اند.
پراکندگی سایزی فایلهای متنی از 2 کیلو بایت تا 247 کیلو بایت میباشد. و پراکندگی زمانی از سال 1389 تا 1394 است
برای دریافت اطلاعات بیشتر اینجا کلیک نمایید.
 
پورتال اخبار
آمار بازدید خبر
کاربران آنلاین 899
امروز 13315
دیروز 16879
ماه جاری 60855
سال جاری 2442039
از ابتدا 3921769
صفحه جاری 4376