Выделение текстовых трендов в социальной сети OK

Евгений Алексеевич Малютин; Дмитрий Юрьевич Бугайченко; Алексей Николаевич Мишенин

doi:10.21638/11701/spbu10.2017.308

Авторы

Евгений Алексеевич Малютин Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9
Дмитрий Юрьевич Бугайченко Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9
Алексей Николаевич Мишенин Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9

DOI:

https://doi.org/10.21638/11701/spbu10.2017.308

Аннотация

Социальные сети все чаще выступают не только как средство досуга или развлечения, но и как канал распространения информации, заменяя собой традиционные СМИ. В данной статье представлена модель масштабируемой системы выделения текстовых трендов, реализованная в социальной сети ОК. Акторы (пользователи и коммьюнити) совместно конструируют широкую новостную повестку, которая обладает определенной спецификой:
• текст написан пользователями, а не профессиональными журналистами, что усложняет его обработку;
• пользователи социальной сети генерируют текст на разных языках, что в классическом подходе к анализумедиапространства требует привлечения большого количества высокооплачиваемых специалистов;
• учитывая характер современного информационного пространства и время отклика социальной сети, необходима система, способная работать в режиме реального времени;
• социальные сети зачастую используются спамерами как площадка для продвижения и навязчивой рекламы, что требует привлечения дополнительных средств для фильтрации подобного контента.
Использование традиционных средств медиаанализа представляется крайне затруднительным, что естественным образом формирует запрос на разработку и внедрение программных средств детектирования и анализа текстовых трендов. В научной литературе при решении подобных задач предлагается использование одного из двух подходов: тематического моделирования с последующим анализом эволюции выделенных тем или построения дистрибутивных моделей, основанных на отслеживании частотных характеристик термов в корпусе. В статье приведен анализ существующих научных работ, основанных на обоих подходах с учетом специфики, предполагающей применение данной модели в рамках социальной сети. В результате было принято решение использовать дистрибутивную модель в качестве основы дальнейшей системы. OK — одна из крупнейших социальных сетей на территории России и стран СНГ, акторы которой генерируют более 100M символов текста в день. Даже базовая обработка подобного потока информации является тяжелой технической задачей, так что при разработке необходимо прибегать к методам анализа «больших данных». Система детектирования трендов состоит из трех компонент:
• пакетный компонент, реализованный на основе фреймворка Apache Spark;
• потоковый компонент, реализованный на основе Apache Samza;
• mini-batch-компонент, реализованный на основе Spark Streaming.
В статье подробно описаны архитектура и технические особенности каждого из компонентов, приведены результаты работы системы, а также направления для дальнейшего исследования и развития. Библиогр. 13 назв. Ил. 7. Табл. 1.

Ключевые слова:

анализ естественного языка, выделение трендов, большие данные

Скачивания

Данные скачивания пока недоступны.

Библиографические ссылки

Литература

Lau J. H., Collier N., Baldwin T. On-line trend analysis with topic models: twitter trends detection topic model online // Proceedings of COLING: technical papers. Mumbai, 2012. P. 1519–1534.

Ahmed A., Xing E. P. Timeline: A dynamic hierarchical dirichlet process model for recovering birth/death and evolution of topics in text stream // Proceedings of the Twenty-Sixth Conference. Conference on Uncertainty in Artificial Intelligence. 2010. Vol. 20. P. 29.

Schubert E., Weiler M., Kriegel H.-P. Signitrend: scalable detection of emerging topics in textual streams by hashed significance thresholds // Proceedings of the 20th ACM SIGKDD International conference on Knowledge discovery and data mining. 2014. P. 871–880.

Cvijikj I. P., Michahelles F. Monitoring trends on facebook // Dependable, Autonomic and Secure Computing (DASC), 2011. IEEE Ninth Intern. Conference on. 2011. P. 895–902.

Finch T. Incremental calculation of weighted mean and variance: technical report. Cambridge, 2009. Vol. 4.

Ester M., Kriegel H.-P., Sander J., Xu X. A density-based algorithm for discovering clusters in large spatial databases with noise // Kdd. 1996. Vol. 96, N 34. P. 226–231.

Open-source library for language detection. URL: https://github.com/optimaize/languagedetector (accessed: 26.02.2017).

Additional language profile for CIS-languages. URL: https://github.com/denniean/language_profiles (accessed: 26.02.2017).

Jeffrey D., Ullman Anand Rajaraman, Jure Leskovec. Mining of massive datasets, 2013. URL: http://infolab.stanford.edu/~ullman/mmds.html (accessed: 26.02.2017).

Open-source library for data analysis. URL: https://elki-project.github.io/ (accessed: 26.02.2017).

Scalable stream processing platform. URL: https://kafka.apache.org/ (accessed: 26.02.2017).

Apache Samza: distributed stream processing framework. URL: http://samza.apache.org/ (accessed: 26.02.2017).

Apache Zeppelin: web-dashboard for interactive data analysis. URL: https://zeppelin.apache.org/ (accessed: 26.02.2017).

References

Lau J. H., Collier N., Baldwin T. On-line trend analysis with topic models: twitter trends detection topic model online. Proceedings of COLING: Technical Papers. Mumbai, 2012, pp. 1519–1534.

Ahmed A., Xing E. P. Timeline: A dynamic hierarchical dirichlet process model for recovering birth/death and evolution of topics in text stream. Proceedings of the Twenty-Sixth Conference. Conference on Uncertainty in Artificial Intelligence, 2010, iss. 20, p. 29.

Schubert E., Weiler M., Kriegel H.-P. Signitrend: scalable detection of emerging topics in textual streams by hashed significance thresholds. Proceedings of the 20th ACM SIGKDD International conference on Knowledge discovery and data mining, 2014, pp. 871–880.

Cvijikj I. P., Michahelles F. Monitoring trends on facebook. Dependable, Autonomic and Secure Computing (DASC), IEEE Ninth International Conference on., 2011, pp. 895–902.

Finch T. Incremental calculation of weighted mean and variance. Technical report. Cambridge, 2009, vol. 4.

Ester M., Kriegel H.-P., Sander J., Xu X. A density-based algorithm for discovering clusters in large spatial databases with noise. Kdd, 1996, vol. 96, no. 34, pp. 226–231.

Open-source library for language detection. Available at: https://github.com/optimaize/languagedetector (accessed: 26.02.2017).

Additional language profile for CIS-languages. Available at: https://github.com/denniean/language_profiles (accessed: 26.02.2017).

Jeffrey D., Ullman Anand Rajaraman, Jure Leskovec. Mining of massive datasets, 2013. Available at: http://infolab.stanford.edu/~ullman/mmds.html (accessed: 26.02.2017).

Open-source library for data analysis. Available at: https://elki-project.github.io/ (accessed: 26.02.2017).

Scalable stream processing platform. Available at: https://kafka.apache.org/ (accessed: 26.02.2017).

Apache Samza: distributed stream processing framework. Available at: http://samza.apache.org/ (accessed: 26.02.2017).

Apache Zeppelin: web-dashboard for interactive data analysis. Available at: https://zeppelin.apache.org/ (accessed: 26.02.2017).

Выделение текстовых трендов в социальной сети OK

Авторы

DOI:

Аннотация

Ключевые слова:

Скачивания

Библиографические ссылки

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

Лицензия

Язык

indexed

Информация