Трансфер знаний для LLM-ориентированных алгоритмов машинного обучения в мультиагентных системах
| Авторы: Морозов К.А., Алфимцев А.Н. | Опубликовано: 15.04.2026 |
| Опубликовано в выпуске: #1(154)/2026 | |
| DOI: | |
| Раздел: Информатика, вычислительная техника и управление | Рубрика: Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей | |
| Ключевые слова: мультиагентное обучение с подкреплением, большие языковые модели, машинное обучение, рассуждение | |
Аннотация
Способность больших языковых моделей справляться с интеллектуальными задачами является крайне важным навыком в различных средах, для которых требуется принимать решения на основе общедоступной информации. В обучении с подкреплением, особенно в мультиагентном, независимо от сложности среды, крайне важно на основе простых действий достигать значимых результатов, которые с точки зрения ретроспективы могли казаться невыполнимыми. Рассмотрена возможность использования большой языковой модели Mistral-7B Instruct-v0.3 для применения в задаче мультиагентного обучения с подкреплением. Разработан метод взаимодействия с Large Language Model (LLM) для использования рассуждения большой языковой модели для задачи планирования и распределения действий. Проведена оценка рефлексии большой языковой модели в результате действий, которые обозначены как необходимые для достижения поставленной в среде цели. Реализуемый трансфер знаний из LLM позволяет использовать успешные подходы для задач мультиагентного обучения с подкреплением в среде мира-сетки. Выполнено экспериментальное сравнение алгоритмов машинного обучения, которые могут эффективно взаимодействовать с предоставляемой им информацией, полученной в результате взаимодействия с большой языковой моделью. Предлагаемый метод позволяет встроить в обучение мультиагентной системы структуру рассуждения LLM
Работа выполнена в рамках Государственного задания (№ FSFN-2024-0059)
Просьба ссылаться на эту статью следующим образом:
Морозов К.А., Алфимцев А.Н. Трансфер знаний для LLM-ориентированных алгоритмов машинного обучения в мультиагентных системах. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение, 2026, № 1 (154), с. 80--95. EDN: FIHEJC
Литература
[1] Морозов К.А. Баланс между использованием большой языковой модели и обучением с подкреплением. Наука, технологии и бизнес. VI Межвуз. конф. аспирантов, соискателей и молодых ученых. М., Изд-во МГТУ им. Н.Э. Баумана, 2024, с. 328--334.
[2] Jiang A.Q., Sablayrolles A., Mensch A., et al. Mistral 7B. arXiv:2310.06825. DOI: https://doi.org/10.48550/arXiv.2310.06825
[3] Морозов К.А. Особенности алгоритма обучения с подкреплением в мультиагентных средах на основе нейронных сетей трансформеров. ИИАСУ’23. Сб. ст. II Всерос. науч. конф. Т. 1. М., КДУ, Добросвет, 2023, с. 188--195. DOI: https://doi.org/10.31453/kdu.ru.978-5-7913-1351-5-2023-435
[4] Velichko N.A. Distributed multi-agent reinforcement learning based on feudal networks. 6th REEPE, 2024. DOI: https://doi.org/10.1109/REEPE60449.2024.10479775
[5] Morgunov E.F., Alfimtsev A.N. The "Stag Hunt" social dilemma in multi-agent reinforcement learning. 6th REEPE, 2024. DOI: https://doi.org/10.1109/REEPE60449.2024.10479770
[6] Morozov K.A. Models as a key factor of environments design in multi-agent reinforcement learning. 6th REEPE, 2024. DOI: https://doi.org/10.1109/REEPE60449.2024.10479882
[7] Zhu Z., Lin K., Jain A.K., et al. Transfer learning in deep reinforcement learning: a survey. IEEE Trans. Pattern Anal. Mach. Intell., 2023, vol. 45, pp. 13344--13362. DOI: https://doi.org/10.1109/TPAMI.2023.3292075
[8] Kostrikov I., Nair A., Levine S. Offline reinforcement learning with implicit Q-learning. arXiv:2110.06169. DOI: https://doi.org/10.48550/arXiv.2110.06169
[9] Mnih V., Kavukcuoglu K., Silver D., et al. Human-level control through deep reinforcement learning. Nature, 2015, vol. 518, pp. 529--533. DOI: https://doi.org/10.1038/nature14236
[10] Lowe R., Wu Y., Tamar A., et al. Multi-agent actor-critic for mixed cooperative-competitive environments. arXiv:1706.02275. DOI: https://doi.org/10.48550/arXiv.1706.02275
[11] Leike J., Martic M., Krakovna V., et al. AI safety gridworlds. arXiv:1711.09883. DOI: https://doi.org/10.48550/arXiv.1711.09883
[12] Wei J., Wang X., Schuurmans D., et al. Chain-of-thought prompting elicits reasoning in large language models. arXiv:2201.11903. DOI: https://doi.org/10.48550/arXiv.2201.11903
[13] Lightman H., Kosaraju V., Burda Y., et al. Let’s verify step by step. arXiv 2305.20050. DOI: https://doi.org/10.48550/arXiv.2305.20050
[14] Huang L., Yu E., Ma W., et al. A survey on hallucination in large language models: principles, taxonomy, challenges, and open questions. ACM Trans. Inf. Syst., 2025, no. 2, vol. 43, pp. 1--55. DOI: https://doi.org/10.1145/3703155
[15] Pawitan Y., Holmes C. Confidence in the reasoning of large language models. arXiv:2412.15296. DOI: https://doi.org/10.48550/arXiv.2412.15296
[16] Xue Y., Kudenko D., Khosla M. Graph learning-based generation of abstractions for reinforcement learning. Neural Comput. & Applic., 2025, vol. 37, no. 19, pp. 13187--13207. DOI: https://doi.org/10.1007/s00521-023-08211-x
[17] Величко Н.А., Голубев Е.Ж., Моргунов Е.Ф. и др. Пешеходные ловушки как социальные дилеммы умного города и их решение алгоритмом WoLF-PHC. ИИАСУ’22. Сб. ст. Всерос. науч. конф. Т. 1. М., Изд-во МГТУ им. Н.Э. Баумана, 2022, с. 181--191. EDN: HWZUKR
[18] Моргунов Е.Ф., Алфимцев А.Н. Распознавание и решение социальной дилеммы "охота на оленя" с помощью мультиагентного обучения с подкреплением. ИИАСУ’23. Сб. ст. II Всерос. науч. конф. Т. 1. М., КДУ, Добросвет, 2023, с. 182--187. DOI: https://doi.org/10.31453/kdu.ru.978-5-7913-1351-5-2023-435
[19] Zhang Y., Mao S., Ge T., et al. LLM as a mastermind: a survey of strategic reasoning with large language models. arXiv:2404.01230. DOI: https://doi.org/10.48550/arXiv.2404.01230
[20] Liu I.J., Jain U., Yeh R.A., et al. Cooperative exploration for multi-agent deep reinforcement learning. Proc. PMLR, 2021, vol. 139, pp. 6826--6836. URL: https://proceedings.mlr.press/v139/liu21j
[21] Алфимцев А.Н. Нечеткое агрегирование мультимодальной информации в интеллектуальном интерфейсе. Программные продукты и системы, 2011, № 3, с. 44--48. EDN: OWJLVH
[22] Vidmanov D.A., Alfimtsev A.N. MARLMUI: multi-agent reinforcement learning approach in mobile adaptive user interface. 5th REEPE, 2023. DOI: https://doi.org/10.1109/REEPE57272.2023.10086785
[23] Qiu W., Wang X., Yu R., et al. RMIX: learning risk-sensitive policies for cooperative reinforcement learning agents. arXiv:2102.08159. DOI: https://doi.org/10.48550/arXiv.2102.08159
| 