Версия // Конфликт // Монополия системы «Антиплагиат» на проверку диссертаций и ограничения доступа к научным публикациям вредят российской науке

Монополия системы «Антиплагиат» на проверку диссертаций и ограничения доступа к научным публикациям вредят российской науке

2778

Чёрный ящик с лампочкой

Монополия системы «Антиплагиат» на проверку диссертаций и ограничения доступа к научным публикациям вредит российской науке (фото: commons.wikimedia.org/ Florstein)
В разделе

Спустя 12 лет после начала реформы Российской академии наук руки наших учёных оказались дважды связанными. Сначала – непрозрачной системой проверки на плагиат, которая безусловно нужна, но явно не в таком виде. Затем – грабительским подходом издателей крупнейших научных журналов. Настало время решить обе проблемы, тем более, что с каждым годом они становятся острее. Решить их невозможно без вдумчивого внимания законодателей.

Реформа российской науки, начатая законом о реформе РАН в 2013 году, сопровождалась внедрением неоднозначных требований к учёным по выполнению KPI по научным публикациям и цитированию. KPI эти выглядели весьма странно на фоне того, что фактический доступ к мировым базам научного цитирования Scopus и Web of Science контролируется двумя западными коммерческими издательствами, которые были совершенно не заинтересованы, чтобы предоставлять российским научным и образовательным учреждениям доступ к своим базам по реально доступной цене.

Их российский конкурент – РИНЦ, длительное время выглядел на фоне этих международных научно-издательских монстров откровенно слабо. Да и сейчас нельзя сказать, что возможности РИНЦ качественно сопоставимы с зарубежными конкурентами.

РИНЦ – это агрегатор информации, а владелец индекса Scopus – Elsevier – вертикально интегрированный издатель научной литературы. Разница в доступных ресурсах примерно как между небольшой бензоколонкой и вертикально интегрированной нефтяной компанией – совершенно не сопоставима.

Но как же так получилось, что российская научная инфраструктура оказалась плотно завязана на Запад, в том числе на монополиста Elsevier, открыто заявившего на своём сайте недружественную к России политическую позицию?

Накрыли монополией

Напомним о событиях, предшествовавших реформе РАН и ставших в известной степени поводом для введения в отношении российских учёных упомянутых KPI. Они начались с громкого скандала вокруг плагиата сразу в нескольких диссертациях. Скандал привёл к основанию в январе 2013 года Вольного сообщества Диссернет, поднявшего знамя борьбы с плагиатом, и уже к лету того года, после нескольких лет непрерывных провалов в Госдуме законопроект о реформе РАН был стремительно принят в двух чтениях. Длительные «успехи» Диссернета на почве «поиска плагиата» и вызванный его основателями громкий публичный скандал стали одним из ключевых факторов, убедивших депутатов всё же провести реформу.

Ещё немного – и реформа стартовала, причём кроме упомянутых выше KPI для учёных, именно в тот период ВУЗам и научным учреждениям навязали обязательную проверку научных и студенческих работ с использованием системы «Антиплагиат». Эта система не имеет до настоящего времени убедительных конкурентов на российском рынке.

Теперь самое время сказать несколько слов о том, почему слова «успех» и «поиск плагиата» мною забраны в кавычки.

Иноагенты и анонимы

Начнём, собственно говоря, с Диссернета. Основатели проекта длительное время обходили вопрос о методиках своей работы и об источниках волшебным образом получаемых сведений о заимствованиях, ссылаясь лишь на то, что используют для поиска два программных пакета – «диссерорубку Ростовцева» и упомянутую выше систему «Антиплагиат». Об использовании последней они сами заявляли, причём многократно.

Но программа и есть программа – для получения сведений о том, что в чьей-то диссертации содержатся заимствования из чужих работ, её самой по себе недостаточно. Программе необходимо также иметь возможность сравнить проверяемый текст с предполагаемыми источниками, причём эти источники, конечно, заранее не известны.

По теме

В фонде диссертаций РГБ на февраль 2025 года содержится около 1,1 млн диссертаций. В январе 2013-го их было, конечно, намного меньше, но общей ситуации это не меняет. Сегодня нам следует сказать, что электронная база данных диссертаций РГБ, похоже, была украдена основателями Диссернета для использования в своих целях.

У них не существовало ни одного легального способа разом получить эти тексты в свои руки, как не существует его в настоящее время ни у кого из читателей РГБ. Это легко проверить: любой может обратиться в Ленинку с просьбой предоставить такую базу данных и услышать отрицательный ответ.

Поскольку Диссернет осуществляет проверку не только по диссертациям, очевидно, что механика заимствования им чужой интеллектуальной собственности работала одинаково и в случае других материалов, с которыми производится сверка проверяемых диссертаций. Более того, диссернетовское электронное хранилище чужих научных текстов пополнялось вплоть до последнего времени, а возможно, пополняется и в настоящее время.

В ситуации, когда изрядная часть диссернетовских антиплагиаторов получила статус иноагента (кое-кто – и за границу релоцировался), а сама структура 1 июня 2024 года заявила, что теперь работает в анонимном режиме и не публикует информацию о своих участниках, продолжение подпитки Диссернета информацией из цифровых фондов РГБ, если оно продолжается, выглядит не просто антиправовым, но и антиобщественным действием. Продолжается ли сотрудничество хоть каких-то структур РАН с этой группой частных лиц? Очень интересный вопрос.

Но аналогичные вопросы можно было бы и задать частной организации АО «Антиплагиат», необычайным образом обладающей фактической монополией в России на проверку студенческих и научных работ на наличие заимствований. Правовые основания её эксклюзивной работы с базой данных оцифрованных диссертаций РГБ, на самом деле совершенно не ясны.

Дело хорошее, но вопросов всё больше

Какие объяснения по поводу источников данных мы видим на сайте АО «Антиплагиат»? «Мы проверяем тексты по открытым источникам Интернета, коллекциям наших партнеров (РГБ, eLibrary, Лань, БиблиоРоссика, Юрайт, Айбукс, и др.), а также по специализированным собраниям и архивам научных и юридических изданий. На сегодняшний день в базе системы «Антиплагиат» собрано более 1 млрд источников на разных языках, в том числе на языках стран СНГ», – заявляет компания.

Какой вывод мы можем из этого сделать? Или у АО «Антиплагиат» оцифрованные сведения РГБ находятся на собственных серверах, и тогда это выглядит не более законным, чем «заимствование» этой БД Диссернетом. Или у АО «Антиплагиат» есть внешний доступ к поиску по БД РГБ по какому-то API. В этом случае встаёт вопрос об условиях такого доступа и открытости его для других желающих. Возникает вопрос и о том, что получают правообладатели текстов по результатам такой работы. Кажется – ничего, и это может противоречить требованиям ГК РФ.

Является ли сам по себе поиск плагиата в научных работах чем-то плохим?

Нет, это общественно полезная деятельность. Российское общество, конечно, заслуживает того, чтобы попытки необоснованно присвоить себе статус учёного (или человека с высшим образованием) пресекались на ранних подступах. Автоматизированные системы борьбы с плагиатом тут, конечно, могут быть хорошим, вспомогательным инструментом.

Хороша ли для России фактическая монополизация этой борьбы Диссернетом и АО «Антиплагиат», которые временами выглядят работающими в тандеме? – Нет, и не только из абстрактных соображений борьбы с монополизмом к деятельности обеих структур есть целый ряд очевидных и неочевидных претензий.

Что касается Диссернета, то с ним всё более очевидно. Тут и явная политизированность, и методическая небрежность, и усилия по самопиару, которые зачастую выглядят избыточными. Неофициальный статус организации обеспечивает ей вольности как в обращении с материалом, так и непосредственно в своей публикационной активности.

Примеров можно привести довольно много. Из быстро попавшегося на глаза во время написания этой статьи – давние обвинения нового главы Роскосмоса Дмитрия Баканова в том, что автореферат его диссертации содержит плагиат, а текста самой научной работы якобы нет в РГБ. Отметим, что обвинение было растиражировано прессой, а через некоторое время на сайте Диссернета появилось уточнение о том, что те ссылки на других авторов, которые представители Диссернета не обнаружили в автореферате, есть в самой диссертации, а её текст позднее появился в РГБ в числе других диссертаций, вовремя не представленных СПбГЭУ в библиотеку.

По теме

То есть, следим за руками. Недоставка текста диссертации в РГБ вовсе не была организована специально для Баканова, Диссернет это прямо признаёт, а обвинение в возможном плагиате построено на очевидной технической небрежности с библиографическим списком – часть работ из него в автореферате выпала, и понятно, что это произошло только на стадии обрезки большого текста до более компактного. Но обвинение в недобросовестности автора диссертации уже пошло в народ и в прессу.

Вопрос о том, была ли эта небрежность чисто технической или нет, закрывается очень просто. Защита диссертации производится всё-таки с предоставлением текста работы целиком, а не только автореферата. Любой, кто проходил через многоступенчатый ад российских диссоветов подтвердит, что преодолеть его без полного комплекта документов нереально. В тексте диссертации может быть разное, но при его отсутствии защитить её было бы невозможно. Ну и если в диссертации ссылки есть, то какой смысл был специально удалять их из автореферата? Никакого.

Дальше мы приходим к следующей части проблемы – к тому, как Диссернет анализирует научные работы. С той же диссертацией Баканова представители этой структуры утверждают на своём сайте, что якобы выводы автореферата не соответствуют выводам диссертации.

Искусственные мозги вместо ВАК?

По очевидным соображениям, вывод, о котором сказано выше, не может быть сделан на основании простого анализа совпадения текста. Но если заявляется, что два разных варианта текста несут разный смысл, то как минимум нужен специалист в той сфере, по которой написана диссертация, чтобы достоверно сделать такой вывод. На основе чего и кем этот вывод был сделан в обсуждаемом случае, обладал ли этот человек необходимой квалификацией по теме диссертации, и был ли это вообще человек, а не программный скрипт – никаких объяснений на сайте Диссернета мы не видим.

Другой разительный пример – появившиеся в 2017 году на сайте Диссернет многочисленные обвинения в нарушении публикационной этики в адрес входящего в список ВАК российского научного журнала «Живая Психология».

Собственная позиция журнала по приведённым Диссернетом претензиям была опубликована на его сайте, и в ней, наряду с вопросами, которые могли бы потребовать какой-то специальной экспертизы, видны и довольно бесспорные и легко проверяемые тезисы о том, что представители Диссернет, публикуя свой критический отзыв о журнале, перепутали главного редактора и шеф-редактора издания, перепутали издателя и учредителя журнала, выдумали заявленный журналом (и совершенно нереальный на практике) срок рецензирования, который нигде журналом не заявлялся.

Все эти вещи Диссернет мог бы легко выяснить перед критической публикацией. Правда, для этого необходим прозрачный и отлаженный административный процесс предпубликационной верификации собственных работ. Но в Диссернете такого процесса нет. В «вольном сообществе» его просто не может быть по определению.

В истории с «Живой Психологией» ещё более интересно то, что относится непосредственно к качеству работы программного обеспечения, проверяющего публикации.

Диссернет на своем сайте указал среди множественных публикаций (то есть повторов ранее опубликованных текстов) этого издания такую, которая была опубликована позже статьи в журнале, и такую, которая вышла одновременно в другом издании, и на публикацию которых редакция «Живой Психологии», разумеется, никак не могла повлиять.

Я не могу однозначно утверждать, что такая небрежность была намеренной. Вполне можно допустить, что скрипты Диссернета просто плохо работают. Но надёжной ручной верификации их результатов Диссернет не показал.

Напротив, вопреки принятой в научном мире этике, Диссернет, имея за 6 лет своей работы массу возможностей отозвать или исправить свои утверждения и отразить это на соответствующей странице своего сайта, не сделал этого.

И это несмотря на то, что любой желающий может легко убедиться в справедливости позиции журнала «Живая Психология», просто изучив даты публикаций обсуждаемых статей. По состоянию на февраль 2025 года информация об этих публикациях, так же, как и ошибки с личностью главного редактора и издателя, по-прежнему отображены на сайте Диссернет.

По теме

Такой подход Диссернета вовсе не выглядит лежащим в русле высоких стандартов соблюдения научной этики, за которые официально борется этот проект. И дело касается не только диссертации Дмитрия Баканова и публикаций журнала «Живая психология». Достаточно взглянуть на раздел этого сайта, посвящённый деятельности член-корреспондента РАН Александра Запесоцкого. В этом разделе в качестве публикаций с множественными заимствованиями размещены в том числе два учебных пособия за авторством учёного. Где-то в глубине текста скрыты фразы, дающие Диссернету формальную юридическую защиту от обвинений в диффамации – мол использование автором фрагментов из собственных более ранних работ является правомерным, а плагиата пока не обнаружено. Сложно совместить подобные утверждения с утверждениями о добросовестности авторов проекта.

Ведь если бы речь шла о чисто научных работах, можно было бы предположить, что они пытались выявить имитацию Запесоцким научной активности. Но в отношении учебников, которые авторы по общепринятой практике многократно перерабатывают и переделывают, улучшая и вылизывая их текст, подобные выпады выглядят сознательно неэтичными.

Итак, в этих трёх довольно быстро найденных и перепроверенных мною примерах (а я уверен, что при систематическом поиске их можно найти на порядки больше) можно увидеть, что публикации Диссернета формируются небрежно, моральной ответственности у некоммерческой и неформальной организации за то, что она делает, нет.

Приговор без апелляции

Авторитет Диссернета в значительной степени определяется тем, что проект имеет возможность, как представляется очевидным, неправомерно использовать в своей работе громадную и не принадлежащую ему базу данных отсканированных научных работ. Другие исследователи, в том числе специалисты по наукометрии, не обладают неограниченным доступом к базе, и потому Диссернет оказывается вне конкуренции. Означают ли приведённые ранее примеры неоднозначных выводов о качестве научных работ, что вопросы подобного сорта у научного сообщества есть только к Диссернету? Вовсе нет. Существует множество, буквально сотни и тысячи свидетельств о том, что студенты и аспиранты вынуждены искусственно подгонять свои тексты под совершенно неочевидные для них механизмы работы системы «Антиплагиат» одноимённого АО, совершенно некритично воспринимаемые ВУЗовскими преподавателями и научным начальством.

Здесь мне придётся сделать некоторый шаг в сторону и пояснить, что, разумеется, точная дословная проверка всех фрагментов одного текста на соответствие всем фрагментам корпуса в миллион с лишним многостраничных текстов технически невозможна. Производительности целого дата-центра для этого не хватит. Поэтому при таком поиске любая поисковая система – хоть Яндекс, хоть Гугл, хоть «Антиплагиат» – использует очень сильные и неочевидные упрощения, оптимизации процесса проверки. Эти упрощения обычно уничтожают прослеживаемость происходящего и снижают фактическую точность поиска.

Сейчас фактически «Антиплагиат» выступает в качестве этакого чёрного ящика с лампочкой: в него загружают текст, если плагиат вроде бы виден – лампочка загорается, система выдаёт некую, непонятно как посчитанную меру совпадения, которую невозможно воспроизвести самостоятельным опытом нигде и никак. А дальше преподаватели и упомянутое научное начальство решают – большая цифра или маленькая.

Написание научных работ в результате подобных методов взаимодействия с компьютерной системой начинает постепенно превращаться в торговлю со священным оракулом – автор ему жертвы пихает и пихает на алтарь, а тот то ли смилостивится, то ли нет.

Это всё можно было бы назвать пустой придиркой, если бы ситуация не ухудшилась стремительно, в том числе и руками разработчика этой системы. Напомню, кстати, что её использование при проверке студенческих работ и диссертаций в наше время является, де-факто, обязательным.

Ни для кого не секрет, что в последнее время активнейшим образом внедряется генерация текстов с использованием т.н. больших языковых моделей, в просторечии называемых «Искусственным Интеллектом». Искусственный Интеллект может самостоятельно переформулировать чужой текст, переписать его своими словами и т.д. и т.п.

По теме

Конечно, возможности злоупотреблений тут открываются фантастические, но и не менее фантастически растёт фронт работ.

А что нам сообщают о работе своей системы представители АО «Антиплагиат»?

«Система Антиплагиат безошибочно определяет фрагменты текста, сгенерированные искусственным интеллектом...», «Система распознает заимствованные тексты, даже если они переведены с другого языка...». Это, разумеется, является неправдой и выглядит недобросовестной саморекламой.

Возможность безошибочного распознавания авторства ИИ современной науке неизвестна, речь может идти только о вероятностях. В ситуации с переводом такие однозначные заявления выглядят ещё более странными.

Однако, чем дальше, тем чаще авторам научных работ будут предъявляться на основании показаний системы претензии вида – «тебе этот текст ИИ написал». И дальше с этим невозможно будет сделать вообще ничего, в том числе и, тем более, с показаниями искусственного болвана, что некий текст – это вольное изложение нескольких других текстов, написанных на других языках. Апелляционная инстанция отсутствует, и сейчас наше научное начальство считает, что так и надо. Но нет, оставлять ситуацию как есть – это просто разрушать российскую науку, которая и так сейчас не в идеальном состоянии из-за искусственной информационной изоляции, организованной нашими бывшими западными партнёрами.

Всё это безобразие уже невозможно остановить, но как минимум его можно перенаправить в конструктивное русло, разрушив искусственную и незаконную монополию небольшого числа организаций на легальный (или ненаказуемый) доступ к большим массивам научных текстов.

Вопрос об авторских правах

Из любого жёсткого регулирования вопросов собственности, в том числе интеллектуальной, существуют широко известные и отработанные способы выхода. Когда государство или общество считают это целесообразным, они эту собственность или изымают, предоставив правообладателям уместную компенсацию, либо обеспечивают доступ к этим материалам в режиме коллективного управления авторскими правами, препятствующем злоупотреблению ими.

Напомню, что сейчас российская наука испытывает радикальные проблемы с доступом к современным западным научным изданиям из-за невозможности хотя бы просто провести из России платёж за подписку на иностранный научный журнал. Но и до СВО экономические ограничения со стороны монополистов, в том числе того же Elsevier или Springer выглядели малоадекватным злодейством. Большое число российских научных организаций не имело никаких шансов снабжать своих сотрудников доступом ко всему массиву научных знаний – запрашиваемые суммы лежали за границей бюджетов и разума.

Перевод всего массива опубликованных научных текстов – как иностранных, так и российских – в режим коллективного управления авторскими правами решил бы все упомянутые в этой статье проблемы. Ничто не мешало бы сделать несколько уровней подписки: для индивидуального исследователя, для научной, учебной организации, и для оператора Искусственного Интеллекта – и предоставлять этот доступ любому желающему оператору, зарегистрировавшемуся в Российском авторском обществе. Да хотя бы и той же Александре Элбакян с её SCI-HUB. Или ещё кому-нибудь.

Почему здесь упомянут именно ИИ? Очевидно, что выделенный и структурированный набор научных текстов – намного лучший материал для его обучения, чем большая помойка Интернет, которая, кстати, и зарубежными, и российскими разработчиками ИИ более-менее уже освоена.

В России между тем развивается собственная школа в сфере ИИ – свои разработки ведут и Яндекс, и Сбер, и ВК, и ряд компаний меньшего размера, но с очень хорошими компетенциями.

Предоставление им легального (за разумную абонентскую плату) доступа ко всему массиву доступных научных текстов не только даст импульс развитию российских технологий ИИ как таковому, не только усилит их позиции, но и очевидным образом создаст конкуренцию текущему монополисту в сфере проверки учебных и научных работ.

Мы можем ожидать появления более эффективных систем антиплагиата, чем уже имеющееся на рынке, конкуренция будет полезна для его развития. Свою выгоду получит и государство, так как ВУЗы и научные учреждения смогут выбирать оператора антиплагиат-систем на открытом конкурсе госзакупок, определяя оптимальные ценовые условия. Здесь нельзя не вспомнить, что информация о собственниках АО «Антиплагиат» публично не доступна. Мы не знаем, нет ли среди них, например, иностранных граждан, и это следовало бы выяснить.

Также нельзя не вспомнить, что компания Elsevier длительное время навязывала российской науке явно живодёрские условия доступа к научной информации. После известных событий она начала демонстративно направлять деньги российских учёных, взятые за публикации в своих журналах, на помощь ВСУ. Насколько будет уместным возвращение этой компании на российский рынок на её собственных условиях?

Увы, Elseiver – одно из четырёх крупнейших мировых научных издательств, и нам не обойтись без информации, публикуемой в её журналах. Но эта интеллектуальная собственность должна быть конфискована через механизм принудительного лицензирования. Россия не может, не должна и не будет кормить спонсоров враждебных вооружённых формирований. Надеюсь, моя статья привлечёт общественное внимание к этой проблеме и станет началом открытой дискуссии о ней, в том числе и в Госдуме.

А.Н.Смирнов. к.т.н., библиограф

Логотип versia.ru
Опубликовано:
Отредактировано: 24.02.2025 15:45
Комментарии 1
Еще на сайте
Наверх