La RNR Independiente es una proposición de Shuai Li, Wanqing Li, Chris Cook, Ce Zhu y Yanbo Gao en su artículo “Independently Recurrent Neural Network (IndRNN): Building A Longer and Deeper RNN” publicado en mayo de este año (2.018).
En la red las neuronas de la misma capa son independientes entre sí y sólo están conectadas entre capas. Está diseñada para evitar los problemas del gradiente de fuga y a la vez conocer las dependencias a largo plazo. Se pueden apilar múltiples RNRInd para construir una red más profunda que las RNN actuales.
En el artículo exponen los resultados experimentales y dicen demostrar que las ventajas sobre una RNR tradicional son:
- La retrocesión (back-propagation) de gradiente a través del tiempo puede ser regulada para abordar de manera efectiva el gradiente de fuga y los problemas de explosión.
- Se puede mantener la memoria a largo plazo para procesar largas secuencias. Los experimentos demuestran que puede procesar secuencias de más de 5.000 pasos mientras que LSTM solo podía procesar menos de 1.000.
- Puede trabajar con funciones de activación no saturadas RELU (Rectified Linear Unit, “Unidad lineal rectificada”), como función de activación y ser entrenada satisfactoriamente.
- Varias capas se pueden apilar eficientemente, especialmente con conexiones residuales sobre capas, para aumentar la profundidad de la red. En el experimento se utilizaron 21 de forma satisfactoria.
- El comportamiento de las neuronas en cada capa es fácil de interpretar debido a la independencia de ellas en cada una de las capas.
En la arquitectura básica el peso “weight” y el rectificador “Recurrent+ReLU” denotan el procesamiento de la entrada y el proceso recurrente en cada paso con “ReLU” como la función de activación. Al apilar esta arquitectura básica, se puede construir una red profunda IndRNN.
En comparación con una arquitectura basada en LSTM que utiliza las funciones de tangente sigmoide e hiperbólica que descomponen el gradiente sobre las capas, una función de activación no saturada como “ReLU” reduce el problema de desaparición del gradiente sobre las capas. Además, la normalización de lotes, denominada “BN”, también se puede emplear en la red antes o después de la función de activación.