Аннотация
в статье рассматривается лингво-математическое обеспечение интеллектуальных информационно-поисковых систем. Активно развивающиеся последнее десятилетие большие языковые модели, способные решать задачи информационного поиска, часто оказываются ресурсоемкими и имеют избыточный функционал при встраивании в специализированные информационные системы. Это создает необходимость разработки более легковесных методов обработки текста на естественном языке. Рассматривается экстрактивный подход к организации вопросно-ответного поиска, задача которого состоит в нахождении предложений, отвечающих на вопрос в заранее выбранном документе. В рамках организации этого подхода предлагаются методы анализа морфологии, синтаксиса и семантики естественного языка. Для реализации графового синтаксического анализа, основанного на взвешивании полного ориентированного графа искусственной нейронной сетью прямого распространения, собран корпус текстов на русском языке, содержащий 8800 предложений. Также этот корпус используется для получения набора синтаксически ориентированных векторных представлений слов, применяющегося на этапе семантического анализа, посредством модели, основанной на архитектуре непрерывного мешка слов. Механизм ранжирования предложений относительно вопроса основан на формализации семантики текста на естественном языке в виде сильно-связного ориентированного графа, выявляющего неявные содержательные закономерности языковых структур.
Литература
Could ChatGPT Pose a Threat to Google’s Dominance in Search? Режим доступа: https://www.entrepreneur.com/science-technology/could-chatgpt-pose-a-threat-to-googles-dominance-in-search/449033.
Проект «Открытый корпус». Режим доступа: http://opencorpora.org.
Дяченко П. В., Иомдин Л. Л., Лазурский А. В. и др. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус). Труды института русского языка им. В. В. Виноградова. 2015;6:272–300. EDN: VJQBEX.
Перцев Ю. В., Япарова Н. М. Синтаксически аннотированный корпус веб-текстов русского языка. Свидетельство о государственной регистрации базы данных № 2023621467 от 02.05.2023.
Shazeer N., Stern M. Adafactor: Adaptive Learning Rates with Sublinear Memory Cost. DOI: 10.48550/arXiv.1804.04235.
Перцев Ю. В., Япарова Н. М. Программа анализа русскоязычных текстов с выделением некоторых синтаксических зависимостей. Свидетельство о государственной регистрации программы для ЭВМ № 2022681794 от 10.11.2022.
Mikolov T., Yih W., Zweig G. Linguistic Regularities in Continuous Space Word Representations. Proceedings of NAACL-HLT. 2013. P. 746–751.
Mikolov T., Chen K., Corrado G. S., Dean J. Efficient Estimation of Word Representations in Vector Space. International Conference on Learning Representations. DOI: 10.48550/arXiv.1301.3781.
Levy O., Goldberg Y. Dependency-Based Word Embeddings. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics 2014;2:302–308. DOI: 10.3115/v1/P14-2050.
Перцев Ю. В., Япарова Н. М. Программа синтеза синтаксически ориентированных векторных представлений слов. Свидетельство о государственной регистрации программы для ЭВМ № 2024617697 от 01.04.2024.