Нахождение наличия заимствований в научных работах на основе марковских цепей
DOI:
https://doi.org/10.21638/11701/spbu10.2023.104Аннотация
Цель исследования заключается в выработке оптимальных подходов для поиска заимствований в научных работах. Рассматриваются этапы нахождения наличия заимствований: предобработка, грубое фильтрование текстов, нахождение схожих текстов, нахождение заимствований. Основное внимание уделяется описанию подходов и техник, которые можно эффективно реализовать на каждом из этапов, например перевод символов текста из заглавных в строчные, удаление знаков препинаний, удаление стоп-слов для этапа предобработки; фильтры по темам и частоте слов для этапа грубого фильтрования текста; подсчет важности слов в контексте текста и представление слова в виде вектора в многомерном пространстве для определения меры близости для этапа нахождения схожих текстов; поиск точного совпадения, перефразов и меры близости выражений для этапа нахождения заимствований. Научная новизна заключается в предлагаемом в статье использовании марковских цепей для нахождения схожести текстов для второго и третьего этапов процесса поиска заимствований. На примере показана методика применения марковских цепей для представления текста, поиска наиболее часто встречающихся слов, построения графа марковской цепи слов и перспективы использования марковских цепей текстов для грубого фильтрования и поиска схожих текстов.
Ключевые слова:
поиск заимствований, алгоритмы нахождения заимствований, марковские цепи, программное обеспечение проверки на оригинальность
Скачивания
Библиографические ссылки
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Статьи журнала «Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления» находятся в открытом доступе и распространяются в соответствии с условиями Лицензионного Договора с Санкт-Петербургским государственным университетом, который бесплатно предоставляет авторам неограниченное распространение и самостоятельное архивирование.