Este tema es bastante interesante, pero a la vez bastante desconocido. Y es que los chips son susceptibles a los altos niveles de radiación ionizante. Por este motivo, hay que realizar alguna técnica denominada como «radiation hardened» o endurecimiento contra radiación para la electrónica destinada a aplicaciones militares, sistemas que se vayan a usar en entornos con alta radiación como las centrales nucleares, o los chips de satélites, roverts y naves enviadas al espacio.
Introducción
La radiación ionizante, especialmente la beta y gamma (la alfa es más fácil de bloquear), son un problema bastante importante para la electrónica. Suponen un gran desafío a la hora de diseñar y fabricar circuitos integrados, ya que estas partículas cargadas pueden generar problemas que van desde fallos lógicos en el chip, daños severos o total destrucción, resultados inexactos, ruido electrónico, picos de señal en los analógicos, etc.
Y, muchos dispositivos electrónicos con chips se enfrentan a este tipo de radiacion. Desde la radiacion de Van Allen que afecta a los satélites, la radiacion espacial en general, las radiaciones procedentes de explosiones nucleares o de la propia industria nuclear, equipos médicos que trabajan con radiacion ionizante de cualquier tipo, como los rayos X, entre otros. Aquí te muestro una lista más detallada:
- Rayos cósmicos (GCR) que están compuestos aproximadamente por un 85% de protones, 14% de partículas alfa y 1% de iones pesados con radiacion X. A ella se enfrentan multitud de satélites, naves espaciales, roverts de exploracion, sondas, telescopios espaciales, etc. Afortunadamente, en la Tierra, la atmósfera, filtra la inmensa mayoría de estos rayos cósmicos, pero pueden llegar a afectar a aeronaves que vuelan a gran altura.
- Eventos de partículas solares (SPE) que provienen del sol y que se componen por iones pesados acompañados de rayos X y de flujos de protones de alta energía. Esto también puede afectar a los mismos sistemas citados anteriormente.
- Radiación de Van Allen, son zonas o cinturones que afectan especialmente a los satélites, ya que son regiones alrededor de la Tierra en las que quedan atrapadas partículas como los electrones y protones de alta energía. Además, pueden variar enormemente dependiendo de la posición del sol y la magnetosfera.
- Partículas secundarias, otro problema que se genera cuando partículas radiactivas interaccionan con dispositivos electrónicos. Por ejemplo, los reactores nucleares producen radiación gamma y neutrones que pueden afectar a circuitos y sensores de control y monitorización que estén próximos al núcleo.
- Explosiones nucleares, como las de una bomba atómica o una termonuclear o bomba H, que produce una oleada muy intensa y breve de radiación electromagnética o pulso electromagnético (EMP) que puede neutralizar a todos los equipos electrónicos de la zona que no estén protegidos. Además, también genera radiación de neutrones y un flujo de partículas cargadas. Esto puede afectar especialmente a equipo civil en la zona atacada y al equipo militar.
- Empaquetados de los propios chips. Se ha descubierto que algunos rastros de elementos radiactivos (ciertos isótopos presentes en materiales cotidianos) presentes en los chips pueden afectar a los chips de memoria DRAM especialmente, generando errores leves. Estas celdas de memoria, al tener condensadores para almacenar los bits, son muy susceptibles, y cuando se generan partículas alfa en los empaquetados podría descargar algún condensador y alterar el valor del bit almacenado.
Si sientes curiosidad al respecto, véase también la radiación de frenado o Bremsstrahlung y la radiación de Cherenkov. Son conceptos bastante interesantes relacionados con la radiación.
Un ejemplo histórico, después del desastre nuclear en la central de Chernobyl en 1986, se utilizaron varios robots para llevar a cabo tareas de limpieza y mitigación en el área afectada. Estos robots fueron diseñados para realizar trabajos en entornos peligrosos, con el objetivo de minimizar los peligros a los humanos.
Sin embargo, debido a los altos niveles de radiación y a las condiciones extremas presentes en el lugar, muchos de los robots sufrieron daños y fallas técnicas. Algunos robots quedaron inutilizables después de poco tiempo debido a la exposición a la radiación intensa. Robots como el soviético Lunokhod, o el Robugtix T8, o el alemán Joker fueron neutralizados por la radiación. Por eso se decidió usar lo que llamaron «biorobots», es decir, víctimas humanas que arrojaban a una muerte casi segura…
Daños producidos por la radiación
Conforme la electrónica fue siendo usada en entornos radiactivos, se fueron viendo los estragos que podía causar la radiación a estos elementos semiconductores. Por eso, es importante conocer cuáles son los efectos que pueden causar estas radiaciones a los chips:
- Desplazamiento de red: puede ser causado por neutrones, protones, partículas alfa, iones pesados y también fotones gamma de muy alta energía. Lo que sucede es que cambian la disposición de los átomos de la red cristalina de los semiconductores, produciendo daños permanentes, aumentando el número de centros de recombinación, agotando los portadores minoritarios y empeorando las propiedades de estos semiconductores. Estos daños son especialmente graves en los transistores bipolares, que dependen de los portadores minoritarios en las regiones de la base, y puede causar una pérdida de ganancia importante.
- Efectos de ionizacion: causados principalmente por partículas cargadas de menor energía. Los daños que pueden causar son transitorios, como fallos o errores puntuales. Pero también pueden producir daños en algunos casos. Por ejemplo, cuando se acumulan gradualmente agujeros en la capa de óxido de los transistores MOSFET se degrada el rendimiento, hasta que si la dosis de radiacion es suficientemente prolongada o alta, puede terminar produciendo el fallo total.
En base a esto, podemos diferenciar entre cinco grupos de efectos:
- Efectos de neutrones: puede interactuar con la red cristalina del material semiconductor, desplazando sus átomos como si fuese un proyectil, afectando a los portadores minoritarios, ruido, y otros problemas de un solo evento, generando más problemas en dispositivos bipolares que en los CMOS. Los LEDs de GaAs son muy sensibles a los neutrones.
- Efectos de dosis ionizante total: un daño también producido en la red cristalina del semiconductor por la radiación ionizante cuando se expone durante un largo periodo de tiempo. En los chips CMOS puede crear pares de agujeros-electrones recombinados en las capas de aislante de la puerta del transistor, generando una polarización persistente en la puerta y afectando al voltaje umbral, lo que hace que los transistores de canal N tipo MOSFET sean más fáciles de conmutar al estado activo y los P sean más difíciles de conmutar al estado activo. Y esto podría llegar a hacer que queden permanentemente apagados o permanentemente encendidos.
- Efectos de dosis transitoria: se producen con un pulso de radiación de alta intensidad pero de breve duración, como por ejemplo una explosión nuclear. Esto genera fotocorrientes en todo el cuerpo o sustrato semiconductor, haciendo que los transistores se activen al azar y generen estados lógicos erróneos en los flip-flops y celdas de memoria especialmente. Si el pulso es suficientemente alto, puede causar daños severos en la unión.
- Efectos EMP: causados por el destello de radiación que viaja a través del equipo, produciendo la ionización local de algunas zonas y corrientes eléctricas en el material.
- Efectos de evento único o SEE (Single Effect Event): afectan principalmente a los chips digitales y no se estudiaron hasta hace relativamente poco tiempo. Y es que, cuando una partícula de alta energía viaja a través del semiconductor, deja un rastro ionizado que puede generar un efecto similar a la dosis transitoria. A su vez, estos eventos se pueden catalogar en 6 diferentes:
- Trastornos de evento único o SEU: son cambios de estado de los bits de memorias causados por un solo ión. Algunos dispositivos son especialmente sensibles y un SEU podría general perturbaciones en varias celdas de memoria adyacentes, perturbando varios estados de bits.
- Latchup de evento único o SEL: ocurre con la estructura PNPN parásita, cuando un ión pesado o un protón de alta energía pasa a través de dos uniones de un transistor, generando algo similar a un tiristor y dejándolo permanentemente en cortocircuito hasta que se apague y se encienda el equipo nuevamente.
- Transitorio de evento único (SET): cuando una carga recolectada de un evento de ionización se descarga en forma de una señal que viaja por el circuito, generando lo mismo que una ESD o descarga electrostática.
- Snapback de evento único: similar al SEL, pero no requiere de una estructura PNPN para suceder. Se puede inducir en transistores MOS de canal N cuando un ión golpea cerca de la unión del drenaje y produce una gran avalancha de portadores de carga, activando el transistor y haciendo que permanezca en ese estado.
- Bornout inducido por evento único (SEB): en los MOSFETs de potencia se produce si el sustrato semiconductor bajo la región de la fuente se polariza directamente y el voltaje entre el drenador y la fuente es más alto que el voltaje de ruptura de las estructuras parásitas. Esoo genera una corriente alta y un sobrecalentamiento que pueden destruir el transistor de forma irreversible.
- Ruptura de compuerta de evento único (SEGR): si un ion pesado impacta en la región de la puerta mientras se está aplicando un voltaje alto, se produce una ruptura local de la capa aislante de dióxido de silicio bajo la puerta, provocando también un sobrecalentamiento local y la destrucción de la puerta. Esto puede ocurrir en MOSFETs de alta potencia y también en celdas EEPROM durante la escritura/borrado, donde se aplica un voltaje mayor.
Todos estos eventos afectan a microprocesadores, FPGAs, memorias, microcontroladores, sensores de varios tipos, etc. De hecho, algunos que se han atrevido a grabar dentro del reactor de Chernóbil han visto cómo los sensores CMOS de las cámaras con las que gravaban se veían afectados, generando destellos en los píxeles por impactos de partículas radiactivas, como se puede apreciar en este vídeo:
Ejemplos de equipos conocidos con radiation hardened
Por otro lado, también me gustaría citar algunos ejemplos de chips o sistemas protegidos contra radiación que se han empleado a lo largo de la historia para distintos fines, como:
- IBM System/4 Pi, una placa variante de la AP-101 y basada en la arquitectura System/360 para la sonda espacial Shuttle.
- En 1976 también se creó una CPU de 8-bit denominada RCA1802, derivada de la 1802 de RCA que sería el primer microprocesador radiation hardened producido en serie.
- Rusia también desarrolló sus propios chips endurecidos para uso militar y espacial, como el microcontrolador PIC 1886VE desarrollado por Milandr y fabricado por Sitronics-Mikron en proceso de 180nm convencional.
- Coldfire M5208 fue una versión basada en los Motorola m68k usados por General Dynamics .
- RH1750 fue otro ejemplo de chip protegido contra radiación fabricado por GEC-Plessey y basado en el estándar militar MIL-STD-1750A.
- Space Micro Inc. desarrolló una SBC (Single Board Computer) denominada Proton 100K y usada en 2003 con procesador Equator BSP-15. Más tarde llegaría la Proton 200K, que además de soportar SEU también lo hacía con SEFI con tecnología H-Core. En este caso, el procesador fue el DSP Texas Instruments 320C6Xx Series.
- También hubo algunos diseños basados en la ISA MIPS para el espacio, como el RH32 de Honeywell Aerospace, el Mongoose-V de la NASA para la New Horizons, o el KOMDIV-32 desarrollado por NIISI y fabricado por Kurchatov Institute para Rusia.
- Si nos pasamos a los sistemas basados en PPC o PowerPC ISA, entonces encontramos ejemplos tan populares como la SBC de BAE Systems basada en el procesador RAD6000, que era una versión radiation hardened del POWER1 de IBM. Por otro lado teníamos también el RHPPC de Honeywell basado en PowerPC 603e, los sistemas SP0 de Aitech Defense System con chips PowerQUICC-III basado en PowerPC e500 y sustrato SOI. La Proton400k de Space Micro esta vez basada en el Freescale P2020 (PowerPC e500), o el pulular RAD750 de BAE Systems que se basaba en el PowerPC 750. Maxwell Technologies también desarrolló otro chip similar denominado SCS750 y que fue usado para la misión Gaia. Boeing Company también creó algunos de estos sistemas basados en el PowerPC 750. También tenemos el BRE440 de Broad Research Engineering basado en PPC440, o el RAD5000, sucesor del RAD750 y que a su vez era sucesor del RAD6000. En este caso se basaba en el PowerPC e5500.
- También hubo diseños basados en la ISA SPARC. Algunos ejemplos los tenemos en el ERC32 y el LEON 2, LEON 3, LEON 4 y LEON 5 desarrollados por Gaisler Research para la ESA (European Space Agency). Además, estos procesadores están dispnibles en VHDL bajo licencia GPL. La generación 6 se produce por la sueca Cobham Semiconductor Solutions (Aeroflex Microelectronics Solutions).
- ARM también ha tenido sus marchas por el espacio con Vorago VA10820 basado en la ISA ARMv6-M y núcleo Cortex-M0 para MCU, o el HPSC basado en Cortx-A53 desarrollado por la NASA y la United States Air Force. También tenemos el ejemplo del ESA DAHLIA, basado en el microcontrolador Cortex-R52.
- Y, por supuesto, como no podía faltar, también ya existen diseños basados en la ISA abierta RISC-V, como el diseño de la sueca Cobham Gaisler NOEL-V de 64-bit para misiones espaciales de la ESA y como sucesor del LEON. Además, en el software de este sistema trabaja una empresa española bajo DeRISC Project…
A esta lista habría que agregar otros muchos casos, aunque estos son los más importantes.
Radiation hardened o endurecimiento contra radiación: técnicas
Para las técnicas de endurecimiento contra la radiación o radiation hardened (RD), se pueden hacer de varias formas. Unas de ellas implican cambios físcios en el chip y otras solo cambios lógicos o en el software:
Técnicas físicas de RD
Las técnicas físicas se usan para proteger circuitos integrados de tipo bipolar, CMOS, celdas de memoria susceptibles, etc. Y pueden ser muy diversas, como:
Sustratos aislantes
Una de las técnicas para proteger contra la radiación es usar sustratos aislantes en las obleas, y eso pasa por usar tecnologías como SOI (Silicon On Insulator) o SOS (Silicon on Sapphire). AMD e IBM (1998 fue la primera vez que IBM anunció el desarrollo de SOI) han venido usando sustratos SOI para sus chips durante varios años, debido a las grandes mejoras que también tenían en el consumo al evitar fugas. Pero también se emplean para luchar contra los efectos de la radiación.
Gracias a estas técnicas tenemos una menor capacitancia parásita debido al aislamiento usando óxido de silicio en el cuerpo del semiconductor, además de una mayor resistencia al enganche o acoplamiento debido a la estructura aislada para los pozos N y P.
Con el SOS pasa algo parecido, al usarse zafiro, que es un muy buen aislante, se puede conseguir lo mismo que con el óxido de silicio. En este casoes algo más costosa por el tipo de material empleado, es una tecnología más exótica, pero se consiguen algunas mejoras en cuanto a rendimiento. Por eso, SOS se usa más en aplicaciones de uso en aviación, espacial, militar, etc., mientras que SOI es más para uso comercial. Además, SOS tiene mayores problemas para la producción en masa de chips y para mejorar las densidades que se consiguen con la tecnología convencional.
Con respecto a la tolerancia a la radiacion, mientras que los chips normales de grado comercial pueden soportar entre 5 y 10 krad, los chips SOI y SOS de grado espacial pueden sobrevivir a dosis muchos órdenes de magnitud mayores.
La unidad «rad» es una abreviatura de «radiación absorbida». Es una unidad de medida utilizada para cuantificar la cantidad de radiación absorbida por un material o por el tejido humano. El rad se define como la cantidad de radiación ionizante que deposita 100 ergios de energía en un gramo de cualquier tipo de material. El rad es una unidad antigua y ha sido reemplazada en gran medida por el sistema internacional (SI) de unidades de radiación, que utiliza el gray (Gy) como la unidad principal para medir la dosis absorbida. Un gray equivale a una absorción de energía de un julio por kilogramo de material irradiado. Para convertir de rad a gray, se utiliza la siguiente relación: 1 Gy = 100 rad. Es importante tener en cuenta que tanto el rad como el gray son unidades de dosis absorbida, que miden la cantidad de energía radiante absorbida por un material. Estas unidades no tienen en cuenta los efectos biológicos específicos de la radiación, los cuales son tomados en consideración mediante factores de ponderación y se expresan en unidades como el sievert (Sv) o el rem (unidades antiguas).
Super Junction
Los circuitos integrados bipolares están compuestos por transistores de unión bipolar (BJT) como sus componentes principales. Los BJT son dispositivos electrónicos de tres terminales construidos con material semiconductor dopado, y pueden utilizarse tanto para amplificación como para conmutación. Estos transistores bipolares se llaman así porque involucran tanto electrones como huecos en su funcionamiento. La carga fluye en un BJT debido a la difusión bidireccional de portadores de carga a través de una unión entre dos regiones con diferentes concentraciones de carga. Esta forma de operación contrasta con los transistores unipolares, como los transistores de efecto de campo, donde solo está involucrado un tipo de portador en la corriente debido a la deriva.
En el diseño de un BJT, la mayor parte de la corriente del colector se debe al flujo de cargas inyectadas desde un emisor de alta concentración en la base. Estas cargas son portadores minoritarios que se difunden hacia el colector, lo que clasifica a los BJT como dispositivos de portadores minoritarios.
Un nuevo concepto de dispositivo de potencia basado en el principio Super Junction (SJ) ha surgido para aplicaciones de electrónica de potencia en diversas áreas, como la conversión de energía de consumo y aplicaciones industriales. Este concepto busca lograr una conmutación con pérdidas ultra bajas, siendo una fuerza motriz en el desarrollo de interruptores de alta potencia de silicio.
El transistor bipolar de superunión (SJBT) comparte muchas similitudes con el MOSFET de superunión. Por otro lado, el transistor de alta movilidad de electrones pseudomórfico (PHEMT) de GaAs ha experimentado un desarrollo significativo en las últimas décadas, convirtiéndose en un dispositivo fabricable, de alto rendimiento y bajo costo. Este dispositivo no solo presenta excelentes propiedades de reducción de ruido, sino que también es el principal dispositivo de potencia para frecuencias que abarcan desde microondas hasta ondas milimétricas. Por lo tanto, es ideal para aplicaciones que requieren un alto rendimiento, como las comunicaciones digitales punto a punto, las futuras redes celulares, LMDS y aplicaciones satelitales.
En términos de tolerancia a la radiación, los circuitos integrados bipolares generalmente tienen una mayor resistencia que los circuitos CMOS. Se ha informado que la serie Schottky (LS) 5400 de baja potencia puede soportar 1000 krad, y muchos dispositivos ECL pueden soportar 10000 krad.
SRAM tolerante a radiación
Para hacer frente a la radiación, a menudo se sustituye la tecnología de DRAM, que se basa en condensadores, por una SRAM más resistente (aunque más grande y costosa). Una forma de aumentar la resistencia de una SRAM utilizada principalmente en estado de lectura, como la RAM de configuración en un FPGA, es agregar una resistencia de alto valor. Esto permite proteger el dispositivo SRAM contra los efectos de la radiación a niveles muy altos.
Es importante destacar que un dispositivo SRAM utilizado principalmente en estado de lectura generalmente se programa solo una vez durante el encendido para definir la función del circuito integrado, y en la mayoría de las aplicaciones no se modifica después del encendido.
Algunos estudios abordaron los desafíos prácticos encontrados en el diseño de celdas SRAM en tecnología SOI parcialmente agotada (PD-SOI). Este estudio analizó los efectos del potencial de cuerpo flotante y el comportamiento bipolar parásito. Además, se discutieron las características de endurecimiento contra alteraciones de un solo evento (SEU) y endurecimiento contra la radiación de dosis total de las SRAM SOI.
En definitiva, se implementan estrategias como el uso de SRAM resistente, la adición de resistencias de alto valor y el diseño adecuado de celdas SRAM para mejorar la tolerancia a la radiación en circuitos integrados. Estas medidas buscan minimizar los efectos negativos causados por la radiación en la funcionalidad y fiabilidad de los dispositivos electrónicos
Wide Band-Gap Susrtate (WBG)
La utilización de sustratos de brecha ancha (Wide Band-Gap Sustrate o WBG) puede incrementar la tolerancia a defectos de nivel profundo en los dispositivos electrónicos. La amplitud del potencial coulombiano determina la brecha de banda de un material, y el tamaño de los átomos y sus electronegatividades son factores que influyen en dicha brecha. Los materiales con átomos pequeños y fuertes enlaces electronegativos presentan brechas de banda más amplias.
Los semiconductores WBG, como el nitruro de galio (GaN) y el carburo de silicio (SiC), son considerados materiales altamente prometedores para futuros componentes electrónicos. Estos materiales ofrecen ventajas significativas en términos de capacidad de potencia (en corriente continua y microondas), resistencia a la radiación, alta temperatura de operación, alta frecuencia, propiedades ópticas y bajo nivel de ruido. Por lo tanto, los componentes basados en brechas de banda ancha son de gran importancia estratégica para el desarrollo de sistemas espaciales de próxima generación.
Aunque se han logrado resultados impresionantes hasta el momento, todavía se requiere una considerable cantidad de investigación y desarrollo. Es necesario mejorar la calidad de los materiales cristalinos básicos, así como fabricar dispositivos completos con mayor rendimiento y confiabilidad. Se necesita más investigación para comprender mejor la física de los semiconductores, mejorar los métodos de crecimiento de los materiales y optimizar el rendimiento de los dispositivos. Además, también es importante desarrollar técnicas avanzadas de empaquetado y realizar evaluaciones detalladas de las aplicaciones para comprender los beneficios que pueden ofrecer a los sistemas espaciales.
Protección del empaquetado
Claramente, esta estrategia intuitiva tiene como objetivo reducir la exposición del dispositivo sin protección. Recientemente, se ha estado investigando el uso del suelo lunar como escudo contra la radiación espacial. Las mediciones y los cálculos realizados mediante un modelo han demostrado que incluso una cantidad moderada de suelo lunar proporciona una protección significativa contra los núcleos principales de radiación cósmica galáctica (GCR) y los eventos de partículas solares (SPE), dejando solo una dosis residual moderada de fragmentos cargados de rayos pesados supervivientes.
En un estudio realizado en 2007, se analizaron dos materiales representativos utilizados en la protección de naves espaciales: el aluminio, que representa un material de baja/mediana Z (número atómico), y el tungsteno, que representa un material de alta Z. Los resultados de los cálculos indicaron que, para lograr la atenuación de radiación necesaria para la electrónica típica utilizada en una misión a Júpiter, el material de baja Z y la combinación de baja/alta Z son menos eficientes en términos de masa y área en comparación con el material de alta Z en el entorno de radiación joviano.
Sin embargo, cuando se requiere un blindaje masivo muy grande para proteger componentes electrónicos extremadamente sensibles a la radiación, la combinación de materiales de baja/alta Z se convierte en una opción de blindaje más efectiva en términos de masa y área, en comparación con otras opciones disponibles.
Blindaje usando boro empobrecido
El boro empobrecido se compone exclusivamente del isótopo boro-11. Cuando la radiación cósmica impacta las estructuras de las naves espaciales, se generan neutrones secundarios. Estos neutrones pueden causar fisión en el boro-10 si está presente en los semiconductores de la nave espacial, lo que resulta en la emisión de rayos gamma, partículas alfa e iones de litio. Los productos resultantes de la fisión pueden descargar carga en las estructuras de los chips semiconductores cercanos, lo que puede llevar a la pérdida de datos o alteraciones en los bits (eventos de cambio de bits o SEU, por sus siglas en inglés).
En los diseños de semiconductores endurecidos contra la radiación, una medida de contramedida consiste en utilizar boro empobrecido que está altamente enriquecido en boro-11 y contiene una cantidad muy pequeña de boro-10. El boro-11 es prácticamente inmune al daño causado por la radiación y es un subproducto de la industria nuclear. En general, se utiliza boro empobrecido en la capa de pasivación de vidrio de borofosfato para proteger las obleas de los chips.
Por tanto, el uso de boro empobrecido en los semiconductores contribuye a reducir los efectos perjudiciales de la radiación espacial al evitar la fisión del boro-10 y proteger los chips de posibles descargas de carga y pérdida de datos.
Self-Healing
Además de los anteriores enfoques, también existe otro capaz de crear un «diseño de circuitos conscientes ante la radiación» mediante self-healing, o auto-reparación. En lugar del transistor estándar FinFET, el equipo trabajó con un transistor de nanohilos «gate-all-around» (GAAFET) previamente desarrollado por KAIST. En estos circuitos, la compuerta rodea el nanohilo y permite o impide el flujo de electrones a través de él.
Los contactos duales permiten que la corriente fluya a través de la compuerta y el canal que rodea, calentándolo a más de 900 °C (1,652 °F) en menos de 10 nanosegundos, y se ha demostrado que este calor repara la degradación del rendimiento causada por la radiación, el estrés y la edad. Este sistema de calentamiento para invocar la autorreparación se probó en tres componentes diferentes críticos para una nave espacial con chips de silicio: un microprocesador, memoria DRAM y una unidad de memoria flash para almacenamiento.
En los tres casos, el sistema funcionó para prolongar la vida útil del dispositivo y tratar repetidamente cualquier defecto causado por la radiación. La memoria flash se pudo reparar 10,000 veces y, en el caso de la DRAM, ese proceso se pudo repetir asombrosamente 1012 veces. Junto con las ventajas inherentes del GAA FET en cuanto a resistencia contra los rayos cósmicos y la posibilidad de utilizar circuitos mucho más pequeños, los investigadores concluyen que esta tecnología abre la oportunidad de realizar viajes espaciales de larga distancia con nano-naves sostenibles. El equipo presentó su estudio en la International Electron Devices Meeting (IEDM) en San Francisco la semana pasada.
Otros
Además de los métodos descritos anteriormente, también existen otras formas de protección física de los dispositivos electrónicos. Por ejemplo, métodos de radiation hardened como el uso de MRAM o Magnetoresistive RAM en lugar de la SDRAM habitual puede endurecerlos, ya que la MRAM no es susceptible a los problemas inducidos por la ionización.
Por otro lado, también se puede mejorar la resistencia contra radiación usando ciertos nodos o procesos de fabricación especiales. Esto es lo que se conoce como RHBP o Rad-Hard By Process, con procesos como el de 150nm de 2016, el de 65nm, etc.
Antes hablamos también de las celdas SRAM en sustitución de la DRAM, pero la SRAM tampoco es inmune del todo. Una forma de mejorar su fiabilidad ante la radiación es usar celdas de más transistores que las usuales (4T o 6T). Esto las hace más tolerantes a eventos SEU. Evidentemente, esto implica menor densidad de memoria por unidad de superficie, menor eficiencia energética, y mayor coste…
También existe lo que se denomina Edge-less CMOS, un tipo de transistor con una construcción física poco convencional, y con un layout del transistor también poco convencional.
Técnicas lógicas
Las técnicas lógicas de endurecimiento por radiación (radiation hardened) adoptan varios medios lógicos, como el uso de la memoria de corrección de errores, la utilización de elementos redundantes, la adopcion de un temporizador de vigilancia, etc. Aquí vamos a ver algunas de ellas:
Corrección de errores
Memoria de detección y corrección de errores: en términos generales, la memoria DRAM puede ofrecer una mayor protección contra errores menores mediante el uso de códigos de corrección de errores. La memoria de detección y corrección de errores, también conocida como ECC (Error Correcting Codes) o EDAC (Error Detection and Correction), es especialmente adecuada para aplicaciones que requieren una alta tolerancia a fallos, como servidores y aplicaciones en entornos espaciales debido a la radiación cósmica. Esta memoria utiliza bits de paridad adicionales para verificar y posiblemente corregir datos corruptos. Dado que los efectos de la radiación pueden afectar el contenido de la memoria, incluso cuando el sistema no está accediendo a la RAM, se utiliza un circuito llamado depurador para escanear continuamente la memoria. Por lo general, implica los siguientes tres pasos:
- Lectura de los datos
- Comprobar la paridad para detectar errores.
- Realizar corrección si se detecta en la RAM.
Los controladores convencionales de memoria con corrección de errores utilizan principalmente códigos Hamming, aunque algunos pueden emplear redundancia modular triple (TMD). La técnica de interleaving nos permite distribuir el efecto de un solo rayo cósmico, que puede afectar físicamente varios bits vecinos, a través de múltiples palabras, asignando bits vecinos a diferentes palabras. Si la alteración causada por un evento único (SEU) no supera el umbral de error en una palabra específica entre accesos, se puede corregir, lo que mantiene la apariencia de un sistema de memoria libre de errores.
Los esquemas de corrección de errores se han utilizado ampliamente tanto en arquitecturas de memoria como en comunicaciones, desde el trabajo pionero de Von Neumann en códigos de repetición. Sin embargo, las tecnologías de discos y CMOS de última generación tienen tasas de error muy bajas, del orden de uno en mil millones, por lo que no siempre se requiere una corrección de errores rigurosa.
Algunas otras propuestas también han aparecido, usando numerosos métodos de corrección de errores implementados de muy diversas maneras. No obstante, algunos son más costosos y complejos que otros, además de agregar cierta latencia.
Redundancia
En el ámbito de la ingeniería, se utiliza la redundancia como una estrategia para mejorar la confiabilidad de un sistema al duplicar componentes críticos. Esto se hace con el propósito de contar con respaldo o evitar fallos en situaciones importantes. En algunos sistemas críticos para la seguridad, como los sistemas de control fly-by-wire y los sistemas hidráulicos de aeronaves, ciertas partes del sistema de control deben ser triplicadas. De esta manera, si uno de los componentes presenta un error, los otros dos pueden compensarlo. En un sistema con triple redundancia, los tres subcomponentes deben fallar para que el sistema completo falle. Dado que la probabilidad de que cada uno de ellos falle es baja y se espera que fallen de forma independiente, la probabilidad de que los tres fallen simultáneamente es extremadamente pequeña. A este enfoque también se le conoce como sistemas de votación por mayoría o lógica de votación. En general, existen cuatro formas principales de implementar la redundancia, que son las siguientes:
- Redundancia a nivel de hardware, como tener varios módulos repetidos por si alguno falla.
- Redundancia de información.
- Redundancia de tiempo, con métodos de detección de fallas transitorias con lógica alternativa.
- Redundancia por software.
Los elementos redundantes pueden utilizarse a nivel del sistema o del circuito. A nivel del sistema, es posible emplear tres placas de microprocesador separadas que realicen cálculos de forma independiente y comparen sus resultados. Si algún sistema produce un resultado minoritario, se vuelve a calcular. Se puede incluir lógica para desactivar la placa en caso de errores recurrentes. A nivel de circuito, un solo bit puede ser reemplazado por tres bits, y se utiliza una lógica de votación independiente para cada bit para determinar continuamente el resultado. Sin embargo, esta estrategia incrementará el área de diseño de un chip en un factor de 5, por lo que se reserva para diseños más pequeños. No obstante, tiene la ventaja adicional de ser a prueba de fallos en tiempo real. En caso de una falla de un solo bit, la lógica de votación seguirá produciendo el resultado correcto sin necesidad de un temporizador de vigilancia.
Recientemente, se ha introducido un nuevo elemento de redundancia llamado refuerzo MRF, el cual logra una gran inmunidad ante perturbaciones y ruido causados por un solo evento. También se han realizado estudios sobre la evaluación de la confiabilidad de sistemas redundantes con cobertura de fallas imperfecta. La cobertura de fallas se refiere a la capacidad de un sistema para detectar y manejar adecuadamente las fallas en los elementos redundantes. En sistemas altamente confiables, como los sistemas espaciales y de aviónica, la cobertura de fallas suele ser imperfecta y tiene un impacto significativo en la confiabilidad del sistema. Se han examinado diferentes modelos de cobertura de fallas imperfectas y se han propuesto algoritmos eficientes para evaluarlos de manera individual. Además, se ha realizado una revisión de implementaciones de circuitos de algoritmos aritméticos redundantes.
Temporizador de vigilancia
Se puede utilizar un temporizador de vigilancia para realizar un reinicio completo del sistema a menos que se realice una secuencia específica que indique que el sistema está activo, como una operación de escritura desde un procesador integrado. Durante las operaciones normales, el software programa regularmente una escritura en el temporizador de vigilancia para evitar que el tiempo se agote. Si la radiación causa un mal funcionamiento del procesador, es poco probable que el software funcione lo suficientemente bien como para reiniciar el temporizador de vigilancia. Eventualmente, el temporizador de vigilancia se agotará y forzará un reinicio completo del sistema. Este método se considera como último recurso en comparación con otros métodos de protección contra radiación.
Recientemente, se llevó a cabo un estudio sobre la capacidad de diferentes sistemas de temporizadores de vigilancia para recuperar el sistema de una falla, y se presentó un nuevo diseño mejorado del sistema de temporizador de vigilancia. En primer lugar, se introdujeron los temporizadores de vigilancia estándar y los temporizadores de vigilancia en ventana, y luego se propusieron los temporizadores de vigilancia secuenciados. Un temporizador de vigilancia estándar, en su forma más básica, es un temporizador que cambia su estado lógico cuando alcanza su valor máximo. El sistema debe restablecer el temporizador antes de que alcance la madurez. Si el sistema no puede restablecer el temporizador, se toma una acción, como cambiar el estado de una salida o reiniciar inmediatamente el sistema.
Para abordar el problema de los reinicios rápidos en el mecanismo de vigilancia, se introdujo el temporizador de vigilancia en ventana, que utiliza dos temporizadores en lugar de uno. El primer temporizador tiene un tiempo de espera de T1 y el segundo temporizador tiene un tiempo de espera de T3. La instrucción «ClearWDT» debe ejecutarse dentro de una ventana de tiempo de (T3-T1) para restablecer ambos temporizadores, donde T3 es mayor que T1.
El temporizador de vigilancia secuenciado es una mejora del temporizador de vigilancia en ventana. Requiere modificaciones menores en la instrucción «ClearWDT». Esta instrucción originalmente no requiere un operando para ejecutarse, pero se ha modificado para incluir un operando. Una vez que se obtiene y decodifica el código de operación, la unidad de control restablece el temporizador de vigilancia de la ventana. Si se producen reinicios lentos o rápidos, el temporizador de vigilancia reinicia inmediatamente el sistema. Si el código de operación «ClearWDT» se ejecuta dentro de la ventana segura, se compara el operando con el valor del registro del temporizador secuenciado. Si coinciden, el sistema está funcionando correctamente. Si no coinciden, se ha producido un reinicio defectuoso dentro de la ventana segura del temporizador de vigilancia. En este caso, el temporizador de vigilancia secuenciado reinicia todo el sistema.
Evaluación de confiabilidad
Es importante destacar que, junto con las técnicas de endurecimiento mencionadas anteriormente, la forma de probar la confiabilidad de los circuitos integrados también es un aspecto muy relevante. Recientemente, algunos estudios han propuesto un enfoque innovador para las pruebas de confiabilidad de los circuitos integrados monolíticos de microondas (MMIC, por sus siglas en inglés), basado en la distribución de Weibull.
También se han desarrollado una metodología para predecir la confiabilidad de los MMIC de GaAs mediante la combinación de métodos empíricos y estadísticos basados en datos de pruebas de vida útil de los MMIC de GaAs sin fallos. Además, se ha investigado el efecto de los factores acelerados en la degradación de los MMIC y hemos realizado una comparación entre las distribuciones Weibull y lognormal. Este método se ha aplicado con éxito en la evaluación de la fiabilidad de los MMIC de GaAs.
¡Espero que ahora comprendas un poco mejor lo que es radiation hardened y sus usos! No olvides comentar si tienes dudas.