Использование тематических моделей для парного сравнения коллекций научных статейстатья
Статья опубликована в журнале из списка RSCI Web of Science
Статья опубликована в журнале из перечня ВАК
Статья опубликована в журнале из списка Web of Science и/или Scopus
Дата последнего поиска статьи во внешних источниках: 14 октября 2021 г.
Аннотация:Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели. Разработанная методика получила название сравнительного тематического анализа (СТА). Сравнительный тематический анализ позволяет получать не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций как в количественном виде, так и с помощью средств визуализации, разработанных авторами. В данном исследовании проведено сравнение существующих подходов к тематическому моделирования применительно к рассматриваемой задаче сравнения коллекций научных статей. Рассмотрены вероятностные и генеративные тематические модели. Проведен анализ требований к текстовым коллекциям для корректного применения СТА. Методика СТА показала высокую эффективность на выделении структурных различий близких по тематике коллекций. Авторами разработана интегральная метрика, позволяющая сравнивать коллекции между собой: коэффициент контентной аутентичности. По результатам цифрового эксперимента наиболее информативной показала себя тематическая модель с аддитивной регуляризацией (ARTM, additive regularization of topic model).