Обогащение базы знаний с помощью автоматического извлечения ключевых слов и аннотаций

Э. Г. Тунян; Р. С. Сазиков; С. А. Харламов

Том 6 № 2 (2025), Статьи

Том 6 № 2 (2025)

Обогащение базы знаний с помощью автоматического извлечения ключевых слов и аннотаций

Статьи

Опубликовано Июнь 30, 2025

Э. Г. Тунян^∗⁻
Р. С. Сазиков^∗⁻
С. А. Харламов^∗⁻

Э. Г. Тунян

Сургутский государственный университет, г. Сургут, Российская Федерация; ООО «ЕДРО», г. Сургут, Российская Федерация; Сургутский филиал федерального государственного автономного учреждения «Федеральный научный центр Научно-исследовательский институт системных исследований Национального исследовательского центра «Курчатовский институт», г. Сургут, Российская Федерация

https://orcid.org/0009-0003-3260-1310

Р. С. Сазиков

Сургутский государственный университет, г. Сургут, Российская Федерация; ООО «ЕДРО», г. Сургут, Российская Федерация; Сургутский филиал федерального государственного автономного учреждения «Федеральный научный центр Научно-исследовательский институт системных исследований Национального исследовательского центра «Курчатовский институт», г. Сургут, Российская Федерация

https://orcid.org/0009-0005-0078-0013

С. А. Харламов

Сургутский государственный университет, г. Сургут, Российская Федерация; ООО «ЕДРО», г. Сургут, Российская Федерация

https://orcid.org/0009-0000-5605-0531

PDF

Ключевые слова

обогащение баз знаний
извлечение терминов
ключевые слова
аннотация
TF-IDF
RAKE
TextRank
KeyBERT
LLM
интеллектуальный поиск
автоматизация обработки текста
семантический анализ

Как цитировать

1.

Тунян Э.Г., Сазиков Р.С., Харламов С.А. Обогащение базы знаний с помощью автоматического извлечения ключевых слов и аннотаций // Успехи кибернетики. 2025. Т. 6, № 2. С. 108–113.

Аннотация

в работе рассматриваются разные способы автоматического извлечения терминов: от давно известных и технологически несложных — вроде TF-IDF, RAKE или TextRank — до более современных решений, основанных на трансформерах, включая KeyBERT и модели типа LLM. Применение методов выделения ключевых слов показало, что именно гибридные схемы проявляют себя наиболее эффективно: когда статистика и нейросетевые модели работают не по отдельности, а в связке, удается добиться как формальной релевантности, так и смысловой глубины в отборе терминов. Предложен поэтапный подход: сначала — чистка и разметка текста, потом — параллельный запуск нескольких алгоритмов, позволяющий свести к минимуму случайные отклонения, и уже затем — более тонкое ранжирование на основе нейросетевых моделей. Такой алгоритм, основанный на комплексном подходе к автоматическому построению баз знаний, позволяет существенно улучшить качество автоматического выделения релевантных терминов и значительно повысить как точность, так и полезность извлекаемой информации. Автоматизация анализа больших текстовых массивов без необходимости предварительной разметки и обучения под конкретную предметную область дает возможность быстро масштабировать подход как для исследовательских задач, так и для прикладных решений в сфере цифровизации, например, в медицине, образовании, документообороте.

PDF

Литература

Sparck Jones K. A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation. 1972;28:11–21.

Rose S., Engel D., Cramer N., Cowley W. Automatic Keyword Extraction from Individual Documents. Text Mining: Applications and Theory. 2010. DOI: 10.1002/9780470689646.ch1.

Mihalcea R., Tarau P. TextRank: Bringing Order into Text. Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain. Association for Computational Linguistics; 2004:404–411.

Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск. Вильямс; 2020. 528 с. ISBN 978-5-907203-20-4.

Grootendorst M. KeyBERT: Minimal Keyword Extraction with BERT. Режим доступа: https://www.maartengrootendorst.com/blog/keybert/.

Скачивания

Данные скачивания пока не доступны.

Обогащение базы знаний с помощью автоматического извлечения ключевых слов и аннотаций

Ключевые слова

Как цитировать

Скачать ссылку

Аннотация

Литература

Скачивания