О возможностях современных мультимодальных трансформеров в области анализа изображений

П. А. Александров; А. А. Прусаков; Г. Н. Антонова; М. Н. Шахов; С. Е. Стельмак; А. В. Беклемишева; В. Г. Саркисов

Том 7 № 1 (2026), Статьи

Том 7 № 1 (2026)

О возможностях современных мультимодальных трансформеров в области анализа изображений

Статьи

Опубликовано Март 31, 2026

П. А. Александров^∗⁻
А. А. Прусаков^∗⁻
Г. Н. Антонова^∗⁻
М. Н. Шахов^∗⁻
С. Е. Стельмак^∗⁻
А. В. Беклемишева^∗⁻
В. Г. Саркисов^∗⁻

П. А. Александров

НИЦ «Курчатовский институт», г. Москва, Российская Федерация

А. А. Прусаков

НИЦ «Курчатовский институт», г. Москва, Российская Федерация

Г. Н. Антонова

НИЦ «Курчатовский институт», г. Москва, Российская Федерация

М. Н. Шахов

НИЦ «Курчатовский институт», г. Москва, Российская Федерация

С. Е. Стельмак

НИЦ «Курчатовский институт», г. Москва, Российская Федерация

А. В. Беклемишева

НИЦ «Курчатовский институт», г. Москва, Российская Федерация

В. Г. Саркисов

НИЦ «Курчатовский институт», г. Москва, Российская Федерация

PDF

Ключевые слова

компьютерное зрение
машинное обучение
системы искусственного интеллекта
искусственные нейронные сети
анализ изображений
ChatGPT
DeepSeek
трансформеры
большие языковые модели
обучение на малом числе примеров

Как цитировать

1.

Александров П.А., Прусаков А.А., Антонова Г.Н., Шахов М.Н., Стельмак С.Е., Беклемишева А.В., Саркисов В.Г. О возможностях современных мультимодальных трансформеров в области анализа изображений // Успехи кибернетики. 2026. Т. 7, № 1. С. 93-103.

Аннотация

в работе представлены результаты исследования возможностей анализа изображений, которые широкому кругу пользователей предоставляют два нейросетевых сервиса: ChatGPT-5 mini и DeepSeek-3.1 Thinking. Для этих сервисов в соответствии с новой методикой и на уникальной экспериментальной базе оценивалось качество формирования признаковых описаний и выявления аналогий при предъявлении всего четырех обучающих примеров для каждого из двух классов. В экспериментах из 93 предложенных уникальных и автоматически сгенерированных модифицированных тестов Бонгарда ChatGPT-5 mini успешно справился с 15 (16,1%), а DeepSeek-3.1 Thinking — с 17 (18,3%) тестами. Обосновывается утверждение, что, несмотря на несомненные достижения в области решения задачи обучения по малому числу примеров, современная технология контекстного обучения мультимодальных нейросетевых трансформеров имеет принципиальные ограничения.

PDF

Литература

GPT-5 is here – OpenAI. Режим доступа: https://openai.com/gpt-5.

DeepSeek. Режим доступа: https://www.deepseek.com.

Face Recognition Grand Challenge (FRGC). Режим доступа: https://www.nist.gov/programs-projects/face-recognition-grand-challenge-frgc.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Режим доступа: https://image-net.org/challenges/LSVRC/index.php.

Radford А. et al. Learning Transferable Visual Models from Natural Language Supervision. International Conference on Machine Learning. 2021:8748-8763. DOI: https://doi.org/10.48550/arXiv.2103.00020.

Бонгард М. М. Проблема узнавания. М.: Физматгиз; 1967. 320 с.

Hofstadter D. R. Gödel, Escher, Bach: an Eternal Golden Braid. Basic books; 1999.

Nie W. et al. Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and Reasoning. Advances in Neural Information Processing Systems. 2020;33:16468-16480. Режим доступа: https://proceedings.neurips.cc/paper_files/paper/2020/file/bf15e9bbff22c7719020f9df4badc20a-Paper.pdf.

Index of Bongard Problems. Режим доступа: https://www.foundalis.com/res/bps/bpidx.htm.

Małkiński M., Pawlonka S., Mańdziuk J. Reasoning Limitations of Multimodal Large Language Models. A Case Study of Bongard Problems. 2024. arXiv:2411.01173. Режим доступа: https://arxiv.org/abs/2411.01173.

IQ Test. Режим доступа: https://www.mensa.org/mensa-iq-challenge/#test.

Tracking AI. Monitoring Artificial Intelligence. Режим доступа: https://www.trackingai.org/home.

Chollet F. On the Measure of Intelligence. 2019. arXiv:1911.01547. Режим доступа: https://arxiv.org/pdf/1911.01547.

Chollet F. How We Get To AGI. 2025. Режим доступа: https://www.youtube.com/watch?v=5QcCeSsNRks.

ARC Prize 2024: Technical Report. 2024. Режим доступа: https://arcprize.org/competitions/2024/.

Akyürek E. et al. The Surprising Effectiveness of Test-Time Training for Few-Shot Learning. 2024. arXiv:2411.07279. Режим доступа: https://arxiv.org/html/2411.07279v2.

ARC Prize 2024. Режим доступа: https://arcprize.org/competitions/2024/.

База данных 93 изображений тестов МТБ 2025. Режим доступа: https://disk.yandex.ru/d/SDvvt4xqDh49ZQ.

Мясников В. В. и др. Методы обнаружения и распознавания объектов на цифровых изображениях. Самара: Изд-во СГАУ; 2006. 168 c. Режим доступа: https://repo.ssau.ru/handle/Uchebnye-posobiya/Metody-obnaruzheniya-i-raspoznavaniya-obektov-na-cifrovyh-izobrazheniyah-Elektronnyi-resurs-uchebposobie-54225.

Copilot 3D Transforms an Image into a Usable 3D Model. Режим доступа: https://copilot.microsoft.com/labs/experiments/copilot-3d.

Скачивания

Данные скачивания пока не доступны.

О возможностях современных мультимодальных трансформеров в области анализа изображений

Ключевые слова

Как цитировать

Скачать ссылку

Аннотация

Литература

Скачивания