Аннотация
статья посвящена сравнительному анализу методов извлечения ключевых слов из текстовых данных с использованием статистических и нейросетевых подходов, таких как YAKE, и языковых моделей на основе трансформеров (например, BERT). В работе исследуются их точность, производительность и применимость к различным типам текстов. Основное внимание уделено разработке рекомендаций по оптимизации этих методов для повышения эффективности обработки текстов в условиях роста объемов данных. Результаты основаны на экспериментах с реальными текстами из научных статей.
Литература
Campos R., Mangaravite V., Pasquali A., Jorge A., Nunes C., Jatowt A. YAKE! Keyword Extraction from Single Documents Using Multiple Local Features. Information Sciences. 2020;509:257–289.
Ванюшкин А. С., Гращенко Л. А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы. Новые информационные технологии в автоматизированных системах. 2017;20:95–102. Режим доступа: https://cyberleninka.ru/article/n/otsenka-algoritmov-izvlecheniya-klyuchevyh-slov-instrumentariy-i-resursy.
Ванюшкин А. С., Гращенко Л. А. Методы и алгоритмы извлечения ключевых слов. Новые информационные технологии в автоматизированных системах. 2016;19:85-93. Режим доступа: https://cyberleninka.ru/article/n/metody-i-algoritmy-izvlecheniya-klyuchevyh-slov.
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
Горлевич Д. Алгоритмы для выделения ключевых слов: Rake, YAKE!, TextRank. NewTechAudit. Режим доступа: https://newtechaudit.ru/algoritmy-dlya-vydeleniya-klyuchevyh-slov-rake-yake-textrank.
Мутаиров Ш. И., Бушмелева К. И. Алгоритмы обработки и вычисления сходства текстовых данных пользователей социальных сетей. Успехи кибернетики. 2023;4(1):33–38.
Sharma P., Li Y. Self-Supervised Contextual Keyword and Keyphrase Retrieval with Self-Labelling. Preprints.org. Режим доступа: https://www.preprints.org/manuscript/201908.0073/v1.