B.A.L.A.S : a tool for benchmarking ANN latency for ARM-based systems
Visualizar/abrir
Data
2025Orientador
Nível acadêmico
Graduação
Outro título
B.A.L.A.S: uma ferramenta para benchmarking de latência de ANNs para sistemas baseados em ARM
Assunto
Abstract
The use of Artificial Neural Networks (ANNs) in applications with embedded sensors, such as image recognition and signal anomaly detection, is widespread, typically involving data being sent via a network, so that a more powerful machine does the heavy processing. TinyML is a research field that proposes running a compressed version of the neural network on the actual embedded processor, eliminating the network latency and reducing overall power consumption. One of the biggest challenges of Tin ...
The use of Artificial Neural Networks (ANNs) in applications with embedded sensors, such as image recognition and signal anomaly detection, is widespread, typically involving data being sent via a network, so that a more powerful machine does the heavy processing. TinyML is a research field that proposes running a compressed version of the neural network on the actual embedded processor, eliminating the network latency and reducing overall power consumption. One of the biggest challenges of TinyML is design space exploration, which can be accelerated with Neural Architecture Search (NAS). The problem with this approach in the context of TinyML is that the latency performance results are often estimated via proxies instead of being measured on the target embedded device, which can lead to suboptimal results. This work proposes the implementation of a benchmarking tool that allows a NAS server to automatically compile, deploy and test inference of a proposed TensorFlow Lite model on real hardware of an ARM Cortex-M microcontroller. This tool was then used to run experiments on a total of 397 representative TinyML models to evaluate the quality of latency estimation proxies, as well as to document the total time of the process. Results show correlations from 0.88 to 0.99 for number of MACs and from 0.75 to 0.99 for workstation CPU inference, as well as demonstrating that it is possible to achieve on-MCU profiling on the order of 20 seconds per model. ...
Resumo
O uso de Redes Neurais Artificiais (do inglês, ANNs) em aplicações com sensores embarcados, como reconhecimento de imagens e detecção de anomalias em sinais, é amplamente difundido, geralmente envolvendo o envio de dados por meio de uma rede para que uma máquina mais potente realize o processamento. TinyML é um campo de pesquisa que propõe a execução de uma versão compactada da rede neural diretamente no processador embarcado, eliminando a latência da rede e reduzindo o consumo de energia. Um d ...
O uso de Redes Neurais Artificiais (do inglês, ANNs) em aplicações com sensores embarcados, como reconhecimento de imagens e detecção de anomalias em sinais, é amplamente difundido, geralmente envolvendo o envio de dados por meio de uma rede para que uma máquina mais potente realize o processamento. TinyML é um campo de pesquisa que propõe a execução de uma versão compactada da rede neural diretamente no processador embarcado, eliminando a latência da rede e reduzindo o consumo de energia. Um dos maiores desafios do TinyML é a exploração do espaço de projeto, que pode ser acelerada por meio de Busca de Arquiteturas Neurais (do inglês, NAS). No entanto, o problema dessa abordagem no contexto do TinyML é que os resultados de desempenho frequentemente são estimados por proxies em vez de serem medidos diretamente no dispositivo embarcado alvo, o que pode levar a resultados subótimos. Este trabalho propõe a implementação de uma ferramenta de benchmarking que permite a um servidor NAS compilar, fazer deploy e medir automaticamente a inferência de um modelo proposto em Tensor- Flow Lite em hardware real de um microcontrolador ARM Cortex-M. Essa ferramenta foi então utilizada para executar experimentos em um total de 397 modelos representativos de TinyML para avaliar a qualidade de proxies de estimativa de latência, bem como para documentar o tempo total do processo. Os resultados mostram correlações de 0,88 a 0,99 para o número de MACs (do inglês, Multiply-Accumulate operations) e de 0,75 a 0,99 para inferência em CPU da estação de trabalho, além de demonstrar que é possível se realizar medidas de latência de inferência no hardware alvo na ordem de 20 segundos por modelo. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Engenharia da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1165)
Este item está licenciado na Creative Commons License


