Обогащение базы знаний с помощью автоматического извлечения ключевых слов и аннотаций
PDF

Ключевые слова

обогащение баз знаний
извлечение терминов
ключевые слова
аннотация
TF-IDF
RAKE
TextRank
KeyBERT
LLM
интеллектуальный поиск
автоматизация обработки текста
семантический анализ

Как цитировать

1.
Тунян Э.Г., Сазиков Р.С., Харламов С.А. Обогащение базы знаний с помощью автоматического извлечения ключевых слов и аннотаций // Успехи кибернетики. 2025. Т. 6, № 2. С. 108–113.

Аннотация

в работе рассматриваются разные способы автоматического извлечения терминов: от давно известных и технологически несложных — вроде TF-IDF, RAKE или TextRank — до более современных решений, основанных на трансформерах, включая KeyBERT и модели типа LLM. Применение методов выделения ключевых слов показало, что именно гибридные схемы проявляют себя наиболее эффективно: когда статистика и нейросетевые модели работают не по отдельности, а в связке, удается добиться как формальной релевантности, так и смысловой глубины в отборе терминов. Предложен поэтапный подход: сначала — чистка и разметка текста, потом — параллельный запуск нескольких алгоритмов, позволяющий свести к минимуму случайные отклонения, и уже затем — более тонкое ранжирование на основе нейросетевых моделей. Такой алгоритм, основанный на комплексном подходе к автоматическому построению баз знаний, позволяет существенно улучшить качество автоматического выделения релевантных терминов и значительно повысить как точность, так и полезность извлекаемой информации. Автоматизация анализа больших текстовых массивов без необходимости предварительной разметки и обучения под конкретную предметную область дает возможность быстро масштабировать подход как для исследовательских задач, так и для прикладных решений в сфере цифровизации, например, в медицине, образовании, документообороте.

PDF

Литература

Sparck Jones K. A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation. 1972;28:11–21.

Rose S., Engel D., Cramer N., Cowley W. Automatic Keyword Extraction from Individual Documents. Text Mining: Applications and Theory. 2010. DOI: 10.1002/9780470689646.ch1.

Mihalcea R., Tarau P. TextRank: Bringing Order into Text. Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain. Association for Computational Linguistics; 2004:404–411.

Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск. Вильямс; 2020. 528 с. ISBN 978-5-907203-20-4.

Grootendorst M. KeyBERT: Minimal Keyword Extraction with BERT. Режим доступа: https://www.maartengrootendorst.com/blog/keybert/.

Скачивания

Данные скачивания пока не доступны.