Нахождение наличия заимствований в научных работах на основе марковских цепей

Авторы

  • Рустам Рафикович Саакян Ванадзорский государственный университет им. О. Туманяна, Республика Армения, 2001, Ванадзор, ул. Тигран Мец, 36 https://orcid.org/0009-0001-4088-6411
  • Ирина Александровна Шпехт Академия маркетинга и социально-информационных технологий - ИМСИТ, Российская Федерация, 350010, Краснодар, ул. Зиповская, 5 https://orcid.org/0009-0001-4088-6411
  • Геворг Арменович Петросян Ванадзорский государственный университет им. О. Туманяна, Республика Армения, 2001, Ванадзор, ул. Тигран Мец, 36 https://orcid.org/0000-0003-1286-5223

DOI:

https://doi.org/10.21638/11701/spbu10.2023.104

Аннотация

Цель исследования заключается в выработке оптимальных подходов для поиска заимствований в научных работах. Рассматриваются этапы нахождения наличия заимствований: предобработка, грубое фильтрование текстов, нахождение схожих текстов, нахождение заимствований. Основное внимание уделяется описанию подходов и техник, которые можно эффективно реализовать на каждом из этапов, например перевод символов текста из заглавных в строчные, удаление знаков препинаний, удаление стоп-слов для этапа предобработки; фильтры по темам и частоте слов для этапа грубого фильтрования текста; подсчет важности слов в контексте текста и представление слова в виде вектора в многомерном пространстве для определения меры близости для этапа нахождения схожих текстов; поиск точного совпадения, перефразов и меры близости выражений для этапа нахождения заимствований. Научная новизна заключается в предлагаемом в статье использовании марковских цепей для нахождения схожести текстов для второго и третьего этапов процесса поиска заимствований. На примере показана методика применения марковских цепей для представления текста, поиска наиболее часто встречающихся слов, построения графа марковской цепи слов и перспективы использования марковских цепей текстов для грубого фильтрования и поиска схожих текстов.

Ключевые слова:

поиск заимствований, алгоритмы нахождения заимствований, марковские цепи, программное обеспечение проверки на оригинальность

Скачивания

Данные скачивания пока недоступны.
 

Библиографические ссылки

Литература

Заимствования в научных публикациях и рекомендации по оформлению цитирований. М.: Рос. эконом. ун-т им. Г. В. Плеханова, 2022. URL: https://www.rea.ru/ru/org/managements/orgnirupr/Pages/Заимствования.aspx (дата обращения: 1 сентября 2022 г.).

Agrawal R. Must known techniques for text preprocessing in NLP // Analytics Vidhya. 2022. URL: https://www.analyticsvidhya.com/blog/2021/06/must-known-techniques-for-text-preprocessing-in-nlp/ (дата обращения: 1 сентября 2022 г.).

Camacho-Collados J., Pilehvar M. T. On the role of text preprocessing in neural network architectures // An evaluation study on text categorization and sentiment analysis. 2018. URL: https://arxiv.org/pdf/1707.01780.pdf (дата обращения: 1 сентября 2022 г.).

Minaee Sh., Kalchbrenner N., Cambria E., Nikzad N., Chenaghlu M., Gao J. Deep learning based text classification: a comprehensive review. Cornell: Cornell University, 2020. URL: https://arxiv.org/pdf/2004.03705.pdf (дата обращения: 1 сентября 2022 г.).

Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space. Cornell: Cornell University, 2013. URL: https://arxiv.org/pdf/1301.3781.pdf (дата обращения: 1 сентября 2022 г.).

Le V., Mikolov T. Distributed representations of sentences and documents. Cornell: Cornell University, 2014. URL: https://arxiv.org/pdf/1405.4053.pdf (дата обращения: 1 сентября 2022 г.).

Yang Zh., Jin Sh., Huang Y., Zhang Y., Li H. Automatically generate steganographic text based on Markov model and Huffman coding. Cornell: Cornell University, 2018. URL: https://arxiv.org/ftp/arxiv/papers/1811/1811.04720.pdf (дата обращения: 1 сентября 2022 г.).

Thelin R. Build a deep learning text generator project with Markov chains // Educative, 2022. URL: https://www.educative.io/blog/deep-learning-text-generation-markov-chains (дата обращения: 1 сентября 2022 г.).

Papadopoulos A., Roy P., Pachet F. Avoiding plagiarism in Markov sequence generation // Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence. July 27-31, 2014. P. 2731-2737. URL: https://www.francoispachet.fr/wp-content/uploads/2021/01/papadopoulos-14a.pdf (дата обращения: 1 сентября 2022 г.).

References

Borrowings in scientific publications and recommendations for citations. Moscow, Plekhanov Russian University of Economics Press, 2022. Avalaible at: https://www.rea.ru/ru/org/managements/orgnirupr/Pages/Заимствования.aspx (accessed: September 1, 2022).

Agrawal R. Must known techniques for text preprocessing in NLP. Analytics Vidhya, 2022. Avalaible at: https://www.analyticsvidhya.com/blog/2021/06/must-known-techniques-for-text-preprocessing-in-nlp/ (accessed: September 1, 2022).

Camacho-Collados J., Pilehvar M. T. On the role of text preprocessing in neural network architectures. An evaluation study on text categorization and sentiment analysis, 2018. Avalaible at: https://arxiv.org/pdf/1707.01780.pdf (accessed: September 1, 2022).

Minaee Sh., Kalchbrenner N., Cambria E., Nikzad N., Chenaghlu M., Gao J. Deep learning based text classification: a comprehensive review. Cornell, Cornell University Press, 2020. Avalaible at: https://arxiv.org/pdf/2004.03705.pdf (accessed: September 1, 2022).

Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space. Cornell, Cornell University Press, 2013. Avalaible at: https://arxiv.org/pdf/1301.3781.pdf (accessed: September 1, 2022).

Le V., Mikolov T. Distributed representations of sentences and documents. Cornell, Cornell University Press, 2014. Avalaible at: https://arxiv.org/pdf/1405.4053.pdf (accessed: September 1, 2022).

Yang Zh., Jin Sh., Huang Y., , Zhang Y., Li H. Automatically generate steganographic text based on Markov model and Huffman coding. Cornell, Cornell University Press, 2018. Avalaible at: https://arxiv.org/ftp/arxiv/papers/1811/1811.04720.pdf (accessed: September 1, 2022).

Thelin R. Build a deep learning text generator project with Markov chains. Educative, 2022. Avalaible at: https://www.educative.io/blog/deep-learning-text-generation-markov-chains (accessed: September 1, 2022).

Papadopoulos A., Roy P., Pachet F. Avoiding plagiarism in Markov sequence generation. Proceedings of the Twenty-Eighth AAAI Conference on Artificial Intelligence, July 27-31, 2014, pp. 2731-2737. Avalaible at: https://www.francoispachet.fr/wp-content/uploads/2021/01/papadopoulos-14a.pdf (accessed: September 1, 2022).

Загрузки

Опубликован

27.04.2023

Как цитировать

Саакян, Р. Р., Шпехт, И. А., & Петросян, Г. А. (2023). Нахождение наличия заимствований в научных работах на основе марковских цепей. Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления, 19(1), 43–50. https://doi.org/10.21638/11701/spbu10.2023.104

Выпуск

Раздел

Прикладная математика