Amostragem dinâmica para telemetria em microsserviços : uma abordagem baseada em aprendizado por reforço e entropia
Visualizar/abrir
Data
2025Autor
Orientador
Nível acadêmico
Graduação
Outro título
Dynamic sampling for telemetry in microservices : a reinforcement learning and entropy-based approach
Assunto
Resumo
A arquitetura de microsserviços tem sido cada vez mais implementada em ambientes distribuídos em nuvem, tornando o desenvolvimento e manutenção das aplicações mais dinâmicos e facilitados. No entanto, essa abordagem aumenta a complexidade e dificuldade de solução de erros e observabilidade do sistema. Ferramentas de tracing tornam-se então essenciais para a análise de requisições e debugging do sistema, apesar de introduzirem custos adicionais que podem ser amplificados por coleta excessiva e i ...
A arquitetura de microsserviços tem sido cada vez mais implementada em ambientes distribuídos em nuvem, tornando o desenvolvimento e manutenção das aplicações mais dinâmicos e facilitados. No entanto, essa abordagem aumenta a complexidade e dificuldade de solução de erros e observabilidade do sistema. Ferramentas de tracing tornam-se então essenciais para a análise de requisições e debugging do sistema, apesar de introduzirem custos adicionais que podem ser amplificados por coleta excessiva e ineficiente de dados. Este trabalho investiga a amostragem dinâmica de telemetria de traces de aplica- ções distribuídas, baseado no padrão OpenTelemetry, para reduzir esse custo, analisando os impactos de consumo e recursos. Com base nessa análise, propõe-se uma abordagem de aprendizado por reforço e uma avaliação da entropia dos dados, garantindo uma captura mais eficiente de traces relevantes para o monitoramento de um sistema. Um agente de aprendizado por reforço chamado de RADAR (Reinforcement learning Agent for Dynamic And Relevant trace sampling) testa diferentes regras de amostragem para descobrir qual o conjunto delas é mais eficiente. Um ambiente de testes simulando uma loja online minimalista com diversos microsserviços distribuídos em um cluster Kubernetes foi a base para os experimentos. Os experimentos realizados avaliaram a convergência do agente e o desempenho do sistema em relação ao consumo de recursos e à qualidade dos dados coletados. Os resultados demonstraram que o RADAR foi capaz de reduzir o consumo de banda de rede em 97,5% e o uso de CPU em 99% quando comparado à coleta integral, superando também a eficiência de estratégias de amostragem fixa. Além da economia de recursos, a abordagem preservou a observabilidade de cenários críticos, mantendo cerca de 89% dos padrões de traces raros e aumentando a entropia média das informações armazenadas em aproximadamente 25%, validando a viabilidade de utilizar entropia para orquestrar telemetria de forma autônoma e eficiente. ...
Abstract
The microservices architecture has been increasingly implemented in cloud-based distributed environments, making application development and maintenance more dynamic and manageable. However, this approach increases the complexity and difficulty of troubleshooting and system observability. Tracing tools thus become essential for request analysis and system debugging, despite introducing additional costs that may be amplified by excessive and inefficient data collection. This work investigates dy ...
The microservices architecture has been increasingly implemented in cloud-based distributed environments, making application development and maintenance more dynamic and manageable. However, this approach increases the complexity and difficulty of troubleshooting and system observability. Tracing tools thus become essential for request analysis and system debugging, despite introducing additional costs that may be amplified by excessive and inefficient data collection. This work investigates dynamic telemetry sampling of distributed application traces, based on the OpenTelemetry standard, to reduce this cost by analyzing resource consumption impacts. Based on this analysis, a reinforcement learning approach and data entropy evaluation are proposed to ensure more efficient capture of relevant traces for system monitoring. A reinforcement learning agent named RADAR (Reinforcement learning Agent for Dynamic And Relevant trace sampling) tests different sampling rules to discover the most efficient set. A test environment simulating a minimalist online store with multiple microservices distributed in a Kubernetes cluster served as the basis for the experiments. The conducted experiments evaluated the agent’s convergence and system performance regarding resource consumption and collected data quality. Results demonstrated that RADAR was able to reduce network bandwidth consumption by 97.5% and CPU usage by 99% compared to full collection, also outperforming the efficiency of fixed sampling strategies. In addition to resource savings, the approach preserved the observability of critical scenarios, retaining about 89% of rare trace patterns and increasing the average entropy of stored information by approximately 25%, validating the feasibility of using entropy to orchestrate telemetry autonomously and efficiently. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1165)
Este item está licenciado na Creative Commons License


