El diccionario de la lengua española nos indica de Sigmoidea: “Dicho de una cosa: Que por su forma se parece a la letra sigma“. Matemáticamente una función de activación sigmoidea puede ser logarítmica o tangente hiperbólica en función de si corta o no el eje de las abscisas. En las RNA es probablemente la función de activación que más se ha empleado.

La función es de dos tipos:
- Binaria: Es una función continua no lineal que tiene un rango comprendido entre 0 y 1. La función toma cualquier rango de números reales y devuelve el valor de salida que está en el intervalo de 0 a 1. La curva tiene un límite finito de:
‘ 0 ‘ cuando x se acerca – ∞
‘ 1 ‘ cuando x se acerca a + ∞
y cuando x = 0 la salida es 0,5. Esto significa que la neurona tiene cierta actividad en ausencia de estimulación y que al aumentar la estimulación la neurona aumenta su activación y si disminuye, disminuye la activación.
Se define como:
El inconveniente de esta función es que siempre da valores positivos. Se usa frecuentemente en redes multicapa y redes con señales continuas. En la actualidad (2.015) y al tener un importante inconveniente está dejando de utilizarse, la explicación es la siguiente:
Para calcular el término de error se utiliza la derivada de la función de activación para cada capa en el algoritmo de retrocesión. El valor máximo de la derivada es 0,25, por lo tanto, al ir hacia atrás en cada capa, estamos reduciendo el tamaño del “error” en al menos un 75% por capa. Esto limita la capacidad de cambiar los pesos en capas cercanas a la de entrada, en redes profundas, porque muchos de los términos multiplicados juntos en la cadena derivada son menores o iguales a 0,25.
- Bipolar: Es idéntica a la binaria pero con un rango comprendido entre -1 y 1. Se define como:

Tiene algunas desventajas: Su mayor costo computacional y el inconveniente de que para valores muy altos o muy bajos de x, casi no hay cambios en la predicción, esto provoca la degradación del valor del gradiente originando que la red no aprenda más o que sea demasiado lenta para alcanzar una predicción precisa.
Hard Sigmoid
Es una aproximación lineal por partes de la función sigmoidea, también es un poco más rápida ya que no tendrá que calcular el exponente y sus resultados son adecuados para las tareas de clasificación. No debe de utilizarse para las tareas de regresión, ya que el error será mucho mayor que para la sigmoidea. Tiene un valor promedio final más bajo y un promedio máximo también más bajo, pero la precisión de validación máxima alcanzada es exactamente la misma que para la sigmoidea.