Аннотация
в работе рассматриваются разные способы автоматического извлечения терминов: от давно известных и технологически несложных — вроде TF-IDF, RAKE или TextRank — до более современных решений, основанных на трансформерах, включая KeyBERT и модели типа LLM. Применение методов выделения ключевых слов показало, что именно гибридные схемы проявляют себя наиболее эффективно: когда статистика и нейросетевые модели работают не по отдельности, а в связке, удается добиться как формальной релевантности, так и смысловой глубины в отборе терминов. Предложен поэтапный подход: сначала — чистка и разметка текста, потом — параллельный запуск нескольких алгоритмов, позволяющий свести к минимуму случайные отклонения, и уже затем — более тонкое ранжирование на основе нейросетевых моделей. Такой алгоритм, основанный на комплексном подходе к автоматическому построению баз знаний, позволяет существенно улучшить качество автоматического выделения релевантных терминов и значительно повысить как точность, так и полезность извлекаемой информации. Автоматизация анализа больших текстовых массивов без необходимости предварительной разметки и обучения под конкретную предметную область дает возможность быстро масштабировать подход как для исследовательских задач, так и для прикладных решений в сфере цифровизации, например, в медицине, образовании, документообороте.
Литература
Sparck Jones K. A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation. 1972;28:11–21.
Rose S., Engel D., Cramer N., Cowley W. Automatic Keyword Extraction from Individual Documents. Text Mining: Applications and Theory. 2010. DOI: 10.1002/9780470689646.ch1.
Mihalcea R., Tarau P. TextRank: Bringing Order into Text. Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain. Association for Computational Linguistics; 2004:404–411.
Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск. Вильямс; 2020. 528 с. ISBN 978-5-907203-20-4.
Grootendorst M. KeyBERT: Minimal Keyword Extraction with BERT. Режим доступа: https://www.maartengrootendorst.com/blog/keybert/.