Una Función de Activación (FA) determina la salida que generará una neurona en función de su entrada. En la práctica es una curva que se utiliza para asignar los valores de la red entre valores acotados. Matemáticamente nos dice cuál es el valor de la variable y en la curva para la variable x, siendo limitada, continua, monótona y continuamente diferenciable con respecto a los pesos w.
Un paso crucial de las RNA es la selección de una de estas funciones, hasta ahora las implementaciones seleccionan una función fija que no se ajusta durante el entrenamiento y se comparte con todas las neuronas en las diferentes capas. Lo ideal sería que la función de activación se adaptase de forma independiente para cada neurona.
Las funciones de activación se pueden dividir básicamente en dos tipos:
- Función de activación lineal o identidad
- Funciones de activación no lineales. Estas funciones son las más utilizadas, facilitan que el modelo se adapte a una gran variedad de datos, dividiéndose en función de su rango o curva. Permiten la propagación hacia atrás (BP) porque tienen una función derivada que está relacionada con las entradas, además, permiten unir varias capas para crear una red profunda. Algunas de ellas son:
-
- BINARIA. Se basa en el valor de los umbrales. Si el valor de entrada está por encima o por debajo de un cierto umbral, la neurona se activa y envía exactamente la misma señal a la siguiente capa, el inconveniente radica en que no transmite múltiples valores, como es en el caso de la clasificación de las entradas en una de varias categorías
- ELiSH. Exponential linear Squashing, comparte propiedades comunes con la función Swish y está compuesta por ELU y funciones Sigmoideas. Fue propuesta por M. Basirat y P. M. Roth en el 2.018.
- Familia RELU
- MAXOUT. Generaliza la ReLU – LReLU y no tiene el inconveniente de neuronas muertas, pero duplica el número de parámetros para cada neurona. Fue propuesta por I. J. Goodfellow, D. Warde-Farley, M. Mirza, Y. Bengio y A. Courville en 2.013
- SIGMOIDEA
- SOFTMAX
- SOFTPLUS. Es una versión de ReLU propuesta por C. Dugas, Y. Bengio, F. Belisle, C. Nadeau y R. Garcia en 2001. Tiene algunas ventajas teóricas sobre ReLU, ya que es diferenciable en todas partes y tiene menos problemas de saturación. Normalmente se usa como función de activación en la última capa de la red para transformar los resultados en probabilidades.
- SOFTSIGN. Es una alternativa a la Tangente Hiperbólica, también produce salidas en la escala de [-1, +1]. La principal diferencia con la función tanh es que el Softsign converge en forma polinomial a diferencia de la función tanh que converge exponencialmente. Fue introducida por J. Turian, Y. Bengio y J. Bergstra en el 2.009.
- SWISH. Es un híbrido entre la función de entrada y la combinación de una fución sigmoide. Utiliza la técnica de búsqueda automática basada en el aprendizaje por refuerzo para calcular la función. Fue propuesta por P. Ramachandran, B. Zoph y Q. V. Le en 2.017
- TANGENTE – HIPERBÓLICA