Fault tolerance characterization of RISC-V processors in SRAM-based FPGAs for aerospace applications
Visualizar/abrir
Data
2023Orientador
Nível acadêmico
Doutorado
Tipo
Outro título
Caracterização de tolerância à falhas de processadores RISC-V em FPGAs baseadas em SRAM com foco em missões aeroespaciais
Assunto
Abstract
Aerospace applications, such as small satellites, demand a certain level of reliability due to Single Event Effects (SEE). At the same time, Commercial Off-The-Shelf (COTS) devices are frequently used in New Space missions. In this context, using soft proces sors implemented in COTS SRAM-based Field Programmable Gate Arrays (FPGAs) re quires design flexibility to apply the most suitable fault tolerance techniques for improv ing the system’s reliability. Upsets in the FPGA configuration memory c ...
Aerospace applications, such as small satellites, demand a certain level of reliability due to Single Event Effects (SEE). At the same time, Commercial Off-The-Shelf (COTS) devices are frequently used in New Space missions. In this context, using soft proces sors implemented in COTS SRAM-based Field Programmable Gate Arrays (FPGAs) re quires design flexibility to apply the most suitable fault tolerance techniques for improv ing the system’s reliability. Upsets in the FPGA configuration memory can be persis tent. They may change the architectural implementation of the soft processor, which can cause control-flow errors, leading to Single Event Functional Interrupt (SEFI), and wrong computations, defined as Silent Data Corruptions (SDCs). This thesis aims to character ize the SEE susceptibility of RISC-V soft processors embedded in SRAM-based FPGAs and understand how combining fault tolerance techniques can significantly reduce sys tem vulnerability. The investigation addresses the problems of using soft processors in SEE-prone environments and the complexities and trade-offs behind mitigation methods. The case studies are the open source RISC-V Rocket and NOEL-V soft processors and the commercial fault tolerant RISC-V NOEL-VFT. The processors are embedded in the Xilinx Zynq-7000 APSoC (28 nm CMOS), Zynq UltraScale+ MPSoC (16 nm FinFET), and Kintex UltraScale (20 nm CMOS), respectively. Protection is applied at the design level targeting the FPGA configuration memory, processor core, and embedded memo ries. Combined techniques such as Triple Modular Redundancy (TMR), scrubbing, peri odic reset, watchdog, and memory refresh are used during the investigation. An external FPGA supervisor was also developed to increase fault coverage, reduce the chance of soft errors in the scrubbing interface, and provide better visibility of upsets in the FPGA configuration memory. The soft processors susceptibility to soft errors is assessed under emulation fault injection - mainly targeting the FPGA configuration memory - and accel erated ground testing - targeting the entire device under heavy ion and proton irradiations. The study on the Rocket’s and NOEL-V’s L1 cache proved that the application error rate is reduced at a more frequent memory refresh, making the use of larger memories feasible to reach better performance. The unprotected Rocket soft processor achieved about 88% of correctness under single faults, and the processor susceptibility under irradiation could be improved more than 51 times using a combination of fault tolerance techniques. Results on the open source NOEL-V showed the effectiveness of distributed TMR, scrubbing, and memory refresh to reduce the cross section by about 11 times. Applying triplication and scrubbing to the commercial fault tolerance NOEL-VFT soft processor boosted the relia bility almost 85 times, and this combination reveals an in-orbit error rate of more than 45 years between SEFIs. Overall, results are promising for using RISC-V soft processors in new generations of FPGAs and aerospace missions. ...
Resumo
Aplicações aeroespaciais, tais como pequenos satélites, exigem um certo nível de confia bilidade devido aos efeitos ionizantes de curto prazo ("Single Event Effects" (SEE)). Ao mesmo tempo, dispositivos comerciais prontos para uso (COTS) são frequentemente usa dos em missões no "New Space". Nesse contexto, o uso de processadores configuráveis implementados em COTS FPGAs (arranjo de porta programável em campo) baseados em SRAM requerem flexibilidade de projeto para aplicar as técnicas de tolerân ...
Aplicações aeroespaciais, tais como pequenos satélites, exigem um certo nível de confia bilidade devido aos efeitos ionizantes de curto prazo ("Single Event Effects" (SEE)). Ao mesmo tempo, dispositivos comerciais prontos para uso (COTS) são frequentemente usa dos em missões no "New Space". Nesse contexto, o uso de processadores configuráveis implementados em COTS FPGAs (arranjo de porta programável em campo) baseados em SRAM requerem flexibilidade de projeto para aplicar as técnicas de tolerância à fa lhas mais adequadas para melhorar a confiabilidade do sistema. Distúrbios na memória de configuração do FPGA podem ser persistentes. Estes podem alterar a implementação arquitetural do processador, o que pode causar erros de fluxo de controle e cálculos in corretos. Esta tese visa caracterizar a suscetibilidade a SEE em processadores RISC-V embarcados em FPGAs baseados em SRAM e entender como a combinação de técnicas de tolerância à falhas pode reduzir significativamente a vulnerabilidade do sistema. A investigação aborda os problemas do uso de processadores configuráveis em ambientes propensos a SEE e as complexidades e impactos por trás dos métodos de mitigação. Os estudos de caso são os processadores RISC-V Rocket e NOEL-V de software livre e o RISCV NOEL-VFT comercial e tolerante à falhas. Os processadores estão embarcados no APSoC Zynq-7000 (28 nm CMOS), MPSoC Zynq UltraScale+ (16 nm FinFET) e Kintex UltraScale (20 nm CMOS), respectivamente. A proteção é aplicada no nível do projeto visando a memória de configuração do FPGA, núcleo do processador e memórias incorporadas. Combinações de técnicas de proteção são usas durante a investigação, tais como triplicação, varredura periódica ("scrubbing"), reiniciamento periódico, monitora mento de tempo e atualização de memória. Um supervisor de FPGA externo também foi desenvolvido com a finalidade de aumentar a cobertura à falhas, reduzir a chance de errors na interface de configuração e fornecer uma melhor visibilidade dos erros. A suscetibi lidade a erros é avaliada sob injeção de falha e teste acelerado em solo. O processador Rocket alcançou 88% de corretude sob falhas simples, e a susceptibilidade sob radiação foi reduzida mais de 51 vezes usando uma combinação de técnicas de tolerância. Resul tados do NOEL-V mostraram a eficácia em combinar métodos de proteção, reduzindo a susceptibilidade em 11 vezes. Tais técnicas aplicadas ao processador NOEL-VFT comercial melhoraram a confiabilidade em 85 vezes, alcançando uma taxa de erros em órbita de mais de 45 anos entre falhas. De mode geral, os resultados são promissores para o uso de processadores RISC-V em novas gerações de FPGAs e missões aeroespaciais. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Microeletrônica.
Coleções
-
Engenharias (7421)Microeletrônica (208)
Este item está licenciado na Creative Commons License