<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Intellectual Technologies on Transport</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Intellectual Technologies on Transport</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Интеллектуальные технологии на транспорте</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="online">2413-2527</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">108903</article-id>
   <article-id pub-id-type="doi">10.20295/2413-2527-2026-145-16-22</article-id>
   <article-id pub-id-type="edn">pfzlam</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И ТРАНСПОРТНЫЕ СИСТЕМЫ</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>ARTIFICIAL INTELLIGENCE AND TRANSPORT SYSTEMS</subject>
    </subj-group>
    <subj-group>
     <subject>ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И ТРАНСПОРТНЫЕ СИСТЕМЫ</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">Modern Multi-Agent Systems for Data Scraping</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Современные многоагентные системы для скрапинга данных</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Блюм</surname>
       <given-names>Владислав Станиславович</given-names>
      </name>
      <name xml:lang="en">
       <surname>Blyum</surname>
       <given-names>Vladislav Stanislavovich</given-names>
      </name>
     </name-alternatives>
     <email>vladblum7@gmail.com</email>
     <bio xml:lang="ru">
      <p>кандидат технических наук;</p>
     </bio>
     <bio xml:lang="en">
      <p>candidate of technical sciences;</p>
     </bio>
     <xref ref-type="aff" rid="aff-1"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Лапшин</surname>
       <given-names>Андрей Евгеньевич</given-names>
      </name>
      <name xml:lang="en">
       <surname>Lapshin</surname>
       <given-names>Andrey Evgenyevich</given-names>
      </name>
     </name-alternatives>
     <email>andreyka.lapshin.2002@mail.ru</email>
     <xref ref-type="aff" rid="aff-2"/>
    </contrib>
   </contrib-group>
   <aff-alternatives id="aff-1">
    <aff>
     <institution xml:lang="ru">Институт технологий предпринимательства и права, Санкт-Петербургский государственный университет аэрокосмического приборостроения</institution>
     <city>Санкт-Петербург</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">Institute of Entrepreneurship Technologies and Law, Saint Petersburg State University of Aerospace Instrumentation</institution>
     <city>Saint Petersburg</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-2">
    <aff>
     <institution xml:lang="ru">Институт технологий предпринимательства и права, Санкт-Петербургский государственный университет аэрокосмического приборостроения</institution>
     <city>Санкт-Петербург</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">Institute of Entrepreneurship Technologies and Law, Saint Petersburg State University of Aerospace Instrumentation</institution>
     <city>Saint Petersburg</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2026-03-25T00:00:00+03:00">
    <day>25</day>
    <month>03</month>
    <year>2026</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-03-25T00:00:00+03:00">
    <day>25</day>
    <month>03</month>
    <year>2026</year>
   </pub-date>
   <issue>1</issue>
   <fpage>16</fpage>
   <lpage>22</lpage>
   <history>
    <date date-type="received" iso-8601-date="2025-11-29T00:00:00+03:00">
     <day>29</day>
     <month>11</month>
     <year>2025</year>
    </date>
    <date date-type="accepted" iso-8601-date="2026-02-09T00:00:00+03:00">
     <day>09</day>
     <month>02</month>
     <year>2026</year>
    </date>
   </history>
   <self-uri xlink:href="https://pgups.editorum.ru/en/nauka/article/108903/view">https://pgups.editorum.ru/en/nauka/article/108903/view</self-uri>
   <abstract xml:lang="ru">
    <p>Рассматриваются архитектура многоагентных систем (МАС), свойства агентов, особенности коммуникации и применимость данного подхода к задачам веб-скрапинга. Актуальность исследования определяется стремительным ростом объемов данных в сети Интернет и ограниченностью классических централизованных систем веб-скрапинга, сталкивающихся с проблемами масштабирования, блокировок и недостаточной устойчивости. В этих условиях возрастает потребность в использовании децентрализованных архитектур, способных адаптироваться к динамичной среде и эффективно собирать большие объемы информации. Одним из наиболее перспективных подходов являются многоагентные системы, обеспечивающие распределенный сбор, обработку и хранение данных. Цель: разработка и структурирование подхода к использованию многоагентных систем для веб-скрапинга, а также описание обобщенного алгоритма, обеспечивающего масштабируемый, отказоустойчивый и адаптивный сбор данных. Методы: теоретический анализ свойств многоагентных систем, архитектурных моделей и коммуникационных механизмов между агентами; изучение существующих практических решений распределенного краулинга; синтез обобщенного алгоритма на основе выделения типовых ролей агентов (планировщик, сборщик, парсер, обработчик данных, агент обхода защиты). Результаты: описана трехуровневая архитектура МАС, включающая уровни сбора, обработки/координации и хранения данных. Выделены ключевые свойства агентов и показаны их роли в задаче скрапинга. Представлены функции пяти типов агентов, применяемых в распределенном веб-скрапинге, и предложена схема взаимодействия между ними. На основе анализа существующих решений сформирован обобщенный алгоритм распределенного скрапинга, отражающий взаимодействие специализированных агентов, который включает этапы инициализации, распределения задач, загрузки страниц, обработки ошибок&#13;
блокировки, парсинга контента и сохранения данных. Показано, что многоагентный подход обеспечивает параллелизм, масштабируемость, отказоустойчивость и гибкость при работе с веб-ресурсами.&#13;
Практическая значимость: результаты исследования могут быть использованы при проектировании систем массового сбора данных, построении распределенных веб-краулеров и создании платформ ана-&#13;
лиза информации на основе МАС. Обобщенный алгоритм может служить основой для реализации гибких и масштабируемых систем, способных эффективно функционировать в условиях больших объемов&#13;
данных, динамических изменений веб-страниц и наличия защитных механизмов. Обсуждение: в статье описывается интеграция свойств и принципов многоагентных систем в контекст веб-скрапинга&#13;
с формированием единой обобщенной модели взаимодействия агентов. Представленный алгоритм отражает практическую структуру функционирования распределенного краулера и демонстрирует,&#13;
как различные типы агентов могут обеспечивать координацию, сбор, анализ и фильтрацию данных при работе с динамичными и защищенными веб-ресурсами. Подчеркнута значимость децентрализации&#13;
и адаптивности для современного веб-скрапинга, включая работу в условиях ограничений, связанных с антибот-защитами.</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>This paper examines the architecture of multi-agent systems (MAS), agent properties, communication features, and the applicability of this approach to web scraping tasks. The relevance of the study is determined by the rapid growth of data volumes on the Internet and the limitations of traditional centralized web scraping systems that encounter challenges related to scalability, blocking, and insufficient robustness against dynamic website changes. In this context, there is an increasing demand for decentralized architectures that adapt to evolving environments and efficiently collect vast quantities of information. One of the most promising approaches is the deployment of multi-agent systems, which enable distributed data collection, parallel processing, and resilient storage. Purpose: to develop and structure an approach for utilizing multi-agent systems in web scraping, as well as to describe a generalized algorithm that ensures scalable, fault-tolerant, and adaptive data collection. Methods: the study employs theoretical analysis of multi-agent system properties, architectural models, and inter-agent communication mechanisms; an examination of existing practical implementations of distributed web crawling; and the synthesis of a generalized algorithm constructed upon the identification of typical agent roles: scheduler, collector, parser, data processor, and protection bypass agent. Results: the findings reveal a three-tiered architecture for the multi-agent system, including levels for data collection, processing/coordinating, and storage. Key properties of agents are highlighted, demonstrating their distinct contributions to the scraping task. The functions of five types of agents used in distributed web scraping are presented, alongside a proposed interaction scheme illustrating their collaborative engagement. Based on the analysis of existing solutions, a generalized algorithm for distributed scraping has been formulated, reflecting the interaction of these specialized agents. This algorithm encompasses distinct stages: initialization, task distribution, page loading, error handling in blocking scenarios, content parsing, and data storage. The findings indicate that the multi-agent approach provides parallelism, scalability, fault tolerance, and flexibility, adapting to diverse web resources and evolving challenges. Practical significance: the results of this research can be used in the design of mass data collection systems, the construction of distributed web crawlers, and the creation of information analysis platforms based on multi-agent systems. The generalized algorithm can serve as the basis for implementing flexible and scalable systems capable of functioning effectively in the context of vast data volumes, dynamic web page alterations, and robust protective mechanisms. Discussion: this article describes the integration of multi-agent system properties and principles into web scraping processes, culminating in the formation of a unified generalized model of agent interaction. The presented algorithm mirrors the practical structure of a distributed crawler and demonstrates how different types of agents can coordinate, collect, analyze, and filter data when interacting with dynamic and secure web resources. The importance of decentralization and adaptability for modern web scraping is emphasized, particularly in scenarios constrained by anti-bot protection.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>многоагентные системы</kwd>
    <kwd>скрапинг</kwd>
    <kwd>масштабирование</kwd>
    <kwd>проактивность</kwd>
    <kwd>автономность</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>multi-agent systems</kwd>
    <kwd>scraping</kwd>
    <kwd>scaling</kwd>
    <kwd>proactivity</kwd>
    <kwd>autonomy</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p></p>
 </body>
 <back>
  <ref-list>
   <ref id="B1">
    <label>1.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Coughlin T. 175 Zettabytes By 2025 // Forbes. 2018. 27 November. URL: http://www.forbes.com/sites/tomcoughlin/2018/11/27/175-zettabytes-by-2025 (дата обращения: 05.10.2025).</mixed-citation>
     <mixed-citation xml:lang="en">Coughlin T. 175 Zettabytes By 2025, Forbes. Published online at November 27, 2018. Available at: http://www.forbes.com/sites/tomcoughlin/2018/11/27/175-zettabytes-by-2025 (accessed: October 05, 2025).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B2">
    <label>2.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Barrett A. How to Scrape Websites at Large Scale // Octoparse Web Scraping Blog. 2022. 30 August. URL: http://www.octoparse.com/blog/scrape-websites-at-large-scale (дата обращения: 05.10.2025).</mixed-citation>
     <mixed-citation xml:lang="en">Barrett A. How to Scrape Websites at Large Scale, Octoparse Web Scraping Blog. Published online at August 30, 2022. Available at: http://www.octoparse.com/blog/scrape-websites-at-large-scale (accessed: October 05, 2025).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B3">
    <label>3.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Jennings N. R., Wooldridge M. J. Applications of Intelligent Agents // Agent Technology: Foundations, Applications, and Markets / N. R. Jennings, M. J. Wooldridge (eds). Heidelberg: Springer, 1998. Pp. 3–28. DOI: 10.1007/978-3-66203678-5_1.</mixed-citation>
     <mixed-citation xml:lang="en">Jennings N. R., Wooldridge M. J. Applications of Intelligent Agents. In: Jennings N. R., Wooldridge M. J. (eds) Agent Technology: Foundations, Applications, and Markets. Heidelberg, Springer, 1998, pp. 3–28. DOI: 10.1007/978-3-66203678-5_1.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B4">
    <label>4.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Фаулер М. Архитектура корпоративных программных приложений / пер. с англ. М.: Вильямс, 2006. 544 с.</mixed-citation>
     <mixed-citation xml:lang="en">Fowler M. Arkhitektura korporativnykh programmnykh prilozheniy [Patterns of enterprise application architecture]. Moscow, Williams Publishing House, 2006, 544 p. (In Russian)</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B5">
    <label>5.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">De Ridder A. An Introduction to FIPA Agent Communication Language: Standards for Interoperable Multi-Agent Systems // SmythOS AI Blog. URL: http://smythos.com/developers/agent-development/fipa-agent-communication-language (дата обращения: 22.11.2025).</mixed-citation>
     <mixed-citation xml:lang="en">De Ridder A. An Introduction to FIPA Agent Communication Language: Standards for Interoperable Multi-Agent Systems, SmythOS AI Blog. Available at: http://smythos.com/developers/agent-development/fipa-agent-communication-language (accessed: November 22, 2025).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B6">
    <label>6.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Кияев В. И., Граничин О. Н. Информационные технологии в управлении предприятием: краткий учебный курс. 2-е изд., испр. М.: ИНТУИТ, 2016. 361 с.</mixed-citation>
     <mixed-citation xml:lang="en">Kiyaev V. I., Granichin O. N. Informatsionnye tekhnologii v upravlenii predpriyatiem: kratkiy uchebnyy kurs [Information Technology in Business Management: A Concise Educational Course]. Moscow, INTUIT, 2016, 361 p. (In Russian)</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B7">
    <label>7.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">The Data Extraction Using Distributed Crawler Inside the Multi-Agent System / K. Tomala [et al.] // Advances in Electrical and Electronic Engineering, 2013. Vol. 11, no. 6. Pp. 455–460. DOI: 10.15598/aeee.v11i6.867.</mixed-citation>
     <mixed-citation xml:lang="en">Tomala K., et al. The Data Extraction Using Distributed Crawler Inside the Multi-Agent System, Advances in Electrical and Electronic Engineering, 2013. Vol. 11, no. 6. Pp. 455–460. DOI: 10.15598/aeee.v11i6.867.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B8">
    <label>8.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Extensible Markup Language (XML) 1.0 (Fifth Edition) — W3C Recommendation 26 November 2008 / T. Bray [et al.] (eds). URL: http://www.w3.org/TR/xml (дата обращения: 22.11.2025).</mixed-citation>
     <mixed-citation xml:lang="en">Bray T., et al. (eds) Extensible Markup Language (XML) 1.0 (Fifth Edition) — W3C Recommendation 26 November 2008. Available at: http://www.w3.org/TR/xml (accessed: November 22, 2025).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B9">
    <label>9.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Transmission Control Protocol // Wikipedia. URL: http://en.wikipedia.org/wiki/Transmission_Control_Protocol (дата обращения: 22.11.2025).</mixed-citation>
     <mixed-citation xml:lang="en">Transmission Control Protocol, Wikipedia. Available at: http://en.wikipedia.org/wiki/Transmission_Control_Protocol (accessed: November 22, 2025).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B10">
    <label>10.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">MD5 // Wikipedia. URL: http://en.wikipedia.org/wiki/MD5 (дата обращения: 22.11.2025).</mixed-citation>
     <mixed-citation xml:lang="en">MD5, Wikipedia. Available at: http://en.wikipedia.org/wiki/MD5 (accessed: November 22, 2025).</mixed-citation>
    </citation-alternatives>
   </ref>
  </ref-list>
 </back>
</article>
