
Es el modelo propuesto por Witali Aswolinskiy y Gordon Pipa en 2.015 dentro de su artículo “RM-SORN: A Reward-Modulated Self-Organizing Recurrent Neural Network”, RNR Auto-organizada con recompensa modulada y basada en una RNR Auto-organizada, SORN.
Definen un modelo de red neuronal que aprende a través de la interacción de la Plasticidad intrínseca (IP) y la plasticidad dependiente de la puntualidad (STDP Spike-timing-dependent plasticity), modulada por recompensa.
IP permite a la red explorar posibles secuencias de salida y la STDP refuerza la creación de las secuencias de salida recompensadas. El modelo se adapta a tareas de predicción, recuperación, cálculo no lineal, reconocimiento de patrones y generación de secuencias.

Logra un rendimiento comparable al de las redes entrenadas con aprendizaje supervisado, al tiempo que utiliza reglas de plasticidad simples y biológicamente “motivadas y gratificantes”.