Немцы разработали программу, определяющую краденые тексты

Даже для тех, кто из страха быть пойманным программой будет использовать не цифровые источники, а списывать с книг, настанут тяжелые времена...

 

Выделить, скопировать, добавить. Выглядит заманчиво: скачать из интернета готовый текст и вставить его в свой документ, выдав все это затем за собственный труд. В ходе одного исследования, проведенного в Университете Лейпцига, 23% студентов признались, что занимаются плагиатом при подготовке домашних заданий – то есть не указывают в конце работы источник. Даже при написании докторских диссертаций случается нечто подобное. Как сообщает Взгляд, этой манией охвачены даже люди, защищающие дипломы и диссертации. Так, 120-страничная дипломная работа некоей одной особы из австрийского Клагенфурта на четверть состояла из чужих творений. При этом автор признала, что вставляла в работу информацию, скаченную из онлайн-энциклопедии Wikipedia и сайта Amazon, при этом не удосужившись поставить ссылку на них. Австрийский исследователь Штефан Вебер нашёл несколько своих страниц в диссертациях аж трёх учёных, в том числе некоего теолога из Тюбингенского университета.

Новая компьютерная программа, которая в настоящее время разрабатывается в Университете Баухаус (Веймар), должна будет в будущем помочь раскрыть кражу чужих мыслей, сообщает Инопресса.

"Вот уже около 10 лет существуют компьютерные программы, которые дают указания на то, скопировал ли автор текст из другого источника", – говорит преподаватель информатики Мартин Поттхаст из Университета Баухаус. Он и его коллеги с кафедры "Управления сайтами и интернет-технологий" усовершенствовали известные механизмы обнаружения плагиата и объединили в программу под названием Picapica. Эта программа способна отлавливать даже тех, кто переставляет предложения местами, говорит Поттхаст.

Программа, разработанная веймарскими специалистами, разделяет любой текст на отрезки, в каждом из которых содержится около 100 слов. Эти отрезки автоматически проверяются при помощи 30 различных статистических методов. Так, например, просчитывается, с какой периодичностью повторяются определенные начальные буквы. В конце все статистические данные суммируются. Полученный результат достаточно точно характеризует весь текст. А поскольку статистические методы не учитывают места слов в предложении, то перестановка предложений лишь в незначительной степени может сказаться на результатах такой проверки.

Программа определяет ключевые понятия заданного текста и сверяет их с теми, которые находит в системах Google и Yahoo, а также в онлайн-энциклопедиях. Единственный недостаток программы состоит в том, что она не может найти плагиат, если анализируемый текст переведён с другого языка, пишет Novopol.ru.

Поскольку программа проверяет, имеются ли в интернет-энциклопедии Википедия отрезки, которые имеют одинаковые хеш-функции. Для этого веймарские ученые в прошлом году проанализировали все немецко- и англоязычные статьи энциклопедии одним и тем же методом и сохранили полученные результаты. Благодаря этому проверка текста сегодня занимает всего несколько секунд.

На самом деле статьи в Википедии меняются, поскольку эта интернет-энциклопедия постоянно расширяется. Но при этом статистические методы остаются весьма надежными. Небольшие изменения не коснутся хеша, говорят программисты. "Но для абсолютной уверенности нужно постоянно обновлять анализ статей".
Как и другие программы по поиску плагиата, Picapica может сравнивать исходный текст только с материалом, выложенным в сети. "Но именно такие материалы используются для плагиата чаще всего", – утверждает социолог Нильс Тауберт из Университета Билефельда.

Даже для тех, кто из страха быть пойманным программой будет использовать не цифровые источники, а списывать с книг, настанут тяжелые времена. Ведь Picapica способна анализировать и стиль. Например, она сравнивает длину предложений или среднее число слогов в словах. Эти данные становятся признаком того, насколько сложен текст – а здесь бывают отличия в зависимости от темы и автора. Если показатели внутри исследуемого текста сильно отличаются, то это является прямым указанием на то, что данный автор не все написал самостоятельно.