RNR de Elman

Fue propuesta por Jeffrey L. Elman en 1.990 en su artículo “Finding structure in time” publicado en Cognitive Science. Su interés era aplicar esta arquitectura para los algoritmos de procesamiento del lenguaje, pero sugirió que era útil para cualquier otra área que implique secuencias. A la red de Elman se la conoce como SRNN ( Simple Recurrent Neural Network).

 

Jeffrey L. Elman
Elman

La definición de Elman se centra en torno a los estados internos previos, por ello agregó una capa de “unidades de contexto” a una red de feed-forward estándar. De esta manera los estados de las unidades ocultas podrían retroalimentarse en las unidades ocultas durante la siguiente etapa de entrada.

 

El inconveniente que tienen estas redes, respecto de las de feed-forward, es su mayor tiempo de proceso, las hace más lentas en aplicaciones donde existen muchas neuronas en las distintas capas y también se reducirá drásticamente su rendimiento si incluimos nuevas capas ocultas.

 

La red tiene conexiones desde su capa oculta a una capa de contexto (copia). Esto significa que la función aprendida por la red puede basarse en las entradas actuales más los estados previos y las salidas de la red. Puede denominarse a la red Elman como una máquina de estados finitos que aprende qué estado recordar (es decir, qué es relevante). La capa de contexto es tratada como otro conjunto de entradas y, por lo tanto, se pueden utilizar técnicas de aprendizaje de propagación de retorno estándar (algo que generalmente no es posible con redes recurrentes).

 

Las neuronas de la capa recurrente (oculta) tienen una función

Red de Elman SRNN ( Simple Recurrent Neural Network)
Red de Elman SRNN

de transferencia sigmoidea (tangente hiperbólica) y la función de las neuronas de la capa de salida es lineal. Esta combinación es especial, ya que las redes de dos capas con estas funciones pueden aproximar cualquier función con precisión arbitraria. El único requisito es que la capa oculta necesita más neuronas a medida que la función que se está adaptando aumente en complejidad.

 

Hay que tener en cuenta que el retraso en las conexiones almacena valores del paso de tiempo anterior, que se pueden usar en el paso de tiempo actual, esto hace que sí dos redes Elman, con los mismos pesos y sesgos, reciben entradas idénticas en un paso de tiempo determinado, sus salidas pueden ser diferentes debido a diferentes estados de realimentación.