پیکرهی تک زبانهی فارسی ارزیابی سامانههای تشخیص دستبرد علمی
پیکره حاضر با هدف ارزیابی سامانههای تشخیص دستبرد علمی در زبان فارسی تهیه شده است. این پیکره می تواند به عنوان یک مرجع تخصصی برای اهداف پردازش رایانهای زبان جهت توسعهی سیستمهای کشف دستبرد علمی در زبان فارسی مورد استفاده قرار بگیرد.
شناسنامه پیکره
نام فارسی پیکره | پیکره فارسی همتا - 3 |
نام انگلیسی پیکره | Hamta-3 Persian corpus |
معرفی پیکره | پیکرهی فارسی ارزیابی سامانههای تشخیص دستبرد علمی در زبان فارسی |
تاریخ تولید پیکره | شهریور 94 |
منبع تولید محتوی | متون ویکی پدیا - سال 2015 میلادی |
زبان پیکره | فارسی |
مالکیت | پژوهشکده فناوری اطلاعات جهاد دانشگاهی |
حمایت | معاونت علمی و فناوری ریاست جمهوری |
اطلاعات ارجاع | Khoshnavataher, K., Zarrabi, V., Mohtaj, S., & Asghari, H. (2015). Developing Monolingual Persian Corpus for Extrinsic Plagiarism Detection Using Artificial Obfuscation. In the 13th evaluation lab on uncovering plagiarism, authorship, and social software misuse (PAN15) |
شرایط استفاده | استفاده از این پیکره برای کاربردهای پژوهشی آزاد است. |
اطلاعات تماس |
آدرس : خیابان انقلاب اسلامی، چهارراه كالج، كوچه سعیدی، پلاك 5 تلفن : 88930150 دورنگار : 88930157 صندوق پستی : 13145-799 كدپستی : 1599616313 |
توضیحات | این پیکره در سومین دوره مسابقات بین المللی هوش مصنوعی جام دانشگاه صنعتی امیرکبیر (AAIC 2015)جهت ارزیابی سامانههای کشف تقلب مورد استفاده قرار گرفته است. |
مشخصات پیکره
پیکرهی "همتا – 3" بیش از 3000 سند فارسی دارد. اسناد مورد استفاده در تهیه پیکره از اسناد فارسی ویکی پدیا انتخاب شده است. صفحات فارسی ویکیپدیا سال 2015 میلادی خزش شده است و محتوای هر یک از اسناد شامل محتوای متنی مربوط به برچسب text از صفحات ویکیپدیا میباشد.
بخشی از اسناد به عنوان اسناد مرجع یا به عبارت دیگر، اسناد پایه جهت استخراج موارد سرقت علمی مورد استفاده قرار گرفته¬اند. بخشی دیگر نیز اسناد مشکوک به تقلب میباشند و موارد سرقت علمی در آنها درج شده است.
اسناد پیکره
اسناد مرجع | 1524 |
اسناد مشکوک | 1501 |
اسناد بدون تقلب | 763 |
اسناد با تقلب | 2262 |
کل اسناد | 3025 |
برای تولید موارد تقلب از فرآیند ابهامافزایی "مصنوعی" استفاده گردیده است. در این بخش، عملیاتی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن کلمات با کلمات هممعنا اعمال شده است.
موارد سرقت ادبی (انواع ابهام افزایی)
ابهام افزایی مصنوعی | 1717 |
ابهام افزایی کم | 940 |
ابهام افزایی زیاد | 777 |
ابهام افزایی شبیه سازی شده | 167 |
بدون ابهام افزایی | 184 |
تعداد کل موارد سرقت علمی | 2068 |
متوسط طول موارد سرقت علمی | 5 جمله |
پیکرهی تک زبانهی انگلیسی ارزیابی سامانههای تشخیص دستبرد علمی
پیکره حاضر با هدف ارزیابی سامانههای تشخیص دستبرد علمی در زبان انگلیسی تهیه شده است. این پیکره میتواند به عنوان یک مرجع تخصصی برای اهداف پردازش رایانهای زبان جهت توسعهی سیستمهای کشف دستبرد علمی در زبان انگلیسی مورد استفاده قرار بگیرد.
شناسنامه پیکره
نام فارسی پیکره | پیکره انگلیسی همتا - 2 |
نام انگلیسی پیکره | Hamta-2 English corpus |
معرفی پیکره | پیکرهی انگلیسی ارزیابی سامانههای تشخیص دستبرد علمی در زبان انگلیسی |
تاریخ تولید پیکره | فروردین 94 |
منبع تولید محتوی | متون ویکی پدیا - سال 2015 میلادی |
زبان پیکره | انگلیسی |
مالکیت | پژوهشکده فناوری اطلاعات جهاد دانشگاهی |
حمایت | معاونت علمی و فناوری ریاست جمهوری |
اطلاعات ارجاع | Mohtaj, S., Asghari, H. & Zarrabi, V. (2015). Developing Monolingual English Corpus for Plagiarism Detection using Human Annotated Paraphrase Corpus. In the 13th evaluation lab on uncovering plagiarism, authorship, and social software misuse (PAN15) |
شرایط استفاده | استفاده از این پیکره برای کاربردهای پژوهشی آزاد است. |
اطلاعات تماس |
آدرس : خیابان انقلاب اسلامی، چهارراه كالج، كوچه سعیدی، پلاك 5 تلفن : 88930150 دورنگار : 88930157 صندوق پستی : 13145-799 كدپستی : 1599616313 |
توضیحات | این پیکره در مسابقات PAN-2015 منتشر شده است. این پیکره معادل پیکره انگلیسی همتا -1 میباشد با این تفاوت که حجم آن کمتر شده و روی سایت مسابقات PAN قرار گرفته است. |
مشخصات پیکره
پیکرهی انگلیسی "همتا – 2" مشتمل بر بیش از 2500 سند انگلیسی است. اسناد مورد استفاده در تهیه پیکره از اسناد انگلیسی ویکی پدیا انتخاب شده است. صفحات انگلیسی ویکیپدیا در سال 2015 میلادی خزش شده است و محتوای هر یک از اسناد شامل محتوای متنی مربوط به برچسب text از صفحات ویکیپدیا میباشد.
بخشی از اسناد به عنوان اسناد مرجع، یا به عبارت دیگر، اسناد پایه جهت استخراج موارد سرقت علمی مورد استفاده قرار گرفته است. بخشی دیگر نیز اسناد مشکوک به تقلب میباشند و موارد سرقت علمی در آنها درج شده است.
اسناد پیکره
اسناد مرجع | 1969 |
اسناد مشکوک | 775 |
اسناد بدون تقلب | 199 |
اسناد با تقلب | 576 |
کل اسناد | 2744 |
برای تولید موارد تقلب از دو فرآیند ابهامافزایی "مصنوعی" و ابهامافزایی "شبیهسازی شده" استفاده گردیده است. در بخش ابهامافزایی مصنوعی، عملیاتی چون جابجایی کلمات، حذف و اضافه نمودن کلمات و جایگزین نمودن کلمات با کلمات هممعنا اعمال شده است. در بخش ابهام افزایی شبیهسازی شده نیز از پیکره¬ی بخش مشابهتیابی معنایی متون در مسابقات SemEval استفاده شده است که شامل موارد سرقت ادبی است که توسط عامل انسانی تولید شدهاند.
موارد سرقت ادبی (انواع ابهام افزایی)
ابهام افزایی مصنوعی | 2103 |
ابهام افزایی کم | 1263 |
ابهام افزایی زیاد | 840 |
ابهام افزایی شبیه سازی شده | 409 |
بدون ابهام افزایی | 235 |
تعداد کل موارد سرقت علمی | 2747 |
متوسط طول موارد سرقت علمی | 5 جمله |
پیکره بین زبانی فارسی - انگلیسی برای ارزیابی سامانههای تشخیص دستبرد علمی
پیکره¬ی بین¬زبانی فارسی - انگلیسی با هدف ارزیابی سامانههای بین زبانی تشخیص دستبرد علمی تهیه شده است. این پیکره میتواند به عنوان یک مرجع تخصصی برای اهداف پردازش رایانهای زبان جهت توسعهی سیستمهای کشف دستبرد علمی بینزبانی مورد استفاده قرار بگیرد.
شناسنامه پیکره
نام فارسی پیکره | پیکرهی فارسی- انگلیسی همتا - 2 |
نام انگلیسی پیکره | Hamta-2 Persian-English corpus |
معرفی پیکره | پیکرهی بین زبانی فارسی - انگلیسی ارزیابی سامانههای بین زبانی تشخیص دستبرد علمی |
تاریخ تولید پیکره | فروردین 94 |
منبع تولید محتوی | متون ویکی پدیا - سال 2015 میلادی |
زبان پیکره | فارسی - انگلیسی |
مالکیت | پژوهشکده فناوری اطلاعات جهاد دانشگاهی |
حمایت | معاونت علمی و فناوری ریاست جمهوری |
اطلاعات ارجاع | Asghari, H., Khoshnavataher, K., Fatemi, O. & Faili, H. (2015). Developing Bilingual Plagiarism Detection Corpus Using Sentence Aligned Parallel Corpus. In the 13th evaluation lab on uncovering plagiarism, authorship, and social software misuse (PAN15) |
شرایط استفاده | استفاده از این پیکره برای کاربردهای پژوهشی آزاد است. |
اطلاعات تماس |
آدرس : خیابان انقلاب اسلامی، چهارراه كالج، كوچه سعیدی، پلاك 5 تلفن : 88930150 دورنگار : 88930157 صندوق پستی : 13145-799 كدپستی : 1599616313 |
توضیحات | این پیکره در مسابقات PAN-2015 منتشر شده است. پیکره¬ی حاضر در واقع همان پیکره فارسی - انگلیسی همتا -1 میباشد با این تفاوت که حجم آن نسبت به پیکره¬ی قبلی کمتر شده است و روی سایت مسابقات PAN منتشر شده است. |
مشخصات پیکره
پیکرهی فارسی- انگلیسی "همتا – 2" مشتمل بر بیش از 20000 سند فارسی و انگلیسی است. اسناد مورد استفاده در تهیه پیکره از اسناد ویکی پدیا انتخاب شده است. صفحات فارسی ویکیپدیا و معادل انگلیسی آن¬ها سال 2015 میلادی خزش شده است. محتوای هر یک از اسناد شامل محتوای متنی مربوط به برچسب text صفحات میباشد.
اسناد انگلیسی به عنوان اسناد مرجع یا به عبارت دیگر، اسناد پایه جهت استخراج موارد سرقت علمی مورد استفاده قرار گرفته است. اسناد فارسی نیز اسناد مشکوک به تقلب میباشند و موارد سرقت علمی در آنها درج شده است.
اسناد پیکره
اسناد مرجع | 15959 |
اسناد مشکوک | 5470 |
اسناد بدون تقلب | 2742 |
اسناد با تقلب | 2728 |
کل اسناد | 21429 |
برای تولید موارد سرقت علمی بین زبانی از پیکره¬ی موازی فارسی – انگلیسی که شامل جملات موازی فارسی و معادل انگلیسی آن¬ها می¬باشد استفاده گردیده است.
موارد سرقت ادبی (انواع ابهام افزایی)
ابهام افزایی کم | 2735 |
ابهام افزایی متوسط | 2841 |
ابهام افزایی زیاد | 26 |
تعداد کل موارد سرقت علمی | 5602 |
متوسط طول موارد سرقت علمی | 5 جمله |