La capa convolucional reúne sucesivamente información contenida en conjuntos de píxeles adyacentes. Para continuar introducimos varios conceptos:
- Campo receptivo. Es el grupo de píxeles utilizado en la entrada que es una región local del volumen de entrada con el mismo tamaño que el filtro.
- El filtro, en ocasiones denominado kernel, es una pequeña matriz utilizada para la detección de características.
- La profundidad, es la cantidad de filtros.
- El Mapa de características, es el volumen de salida formado por el deslizamiento del filtro sobre la imagen, calculando el producto escalar.
- Paso, es el deslizamiento del filtro sobre el mapa de características, normalmente cada paso es 1 pixel.
La primera capa convolucional toma una parte de la imagen de entrada. Conectamos los píxeles de entrada a una capa de neuronas ocultas, pero solo lo hacemos desde regiones locales, es decir, desde un campo receptivo que se corresponde con una neurona oculta en particular. En esta acción calculamos el producto entre el campo receptivo y el filtro en todas sus dimensiones. El resultado de esta operación es un entero único del volumen de salida (mapa de características). A continuación deslizamos el filtro, un Paso, para obtener el siguiente campo receptivo de la misma entrada y calculamos nuevamente los productos entre el nuevo campo receptivo y el mismo filtro. Así sucesivamente hasta que pasamos por toda la imagen de entrada.
Como pueden existir varias capas, cada capa proyectará su entrada en un mapa de características de tamaño decreciente. De esta forma la información se comprimirá cada vez más capa por capa.
Pongamos un ejemplo y su aproximación matemática:
Somos agentes policiales que estamos controlando la velocidad en la carretera Panamericana, nuestro dispositivo es un sensor radar tradicional o un láser. El sensor nos proporciona la posición del vehículo, x(t) en un instante de tiempo, pero lo hace con distorsión (ruido), la única forma de corregir la distorsión es promediando varias mediciones y las más importantes son las más recientes, por tanto las daremos una ponderación mayor.
Matemáticamente lo haremos con una función de ponderación w(a), donde a es el periodo de tiempo transcurrido desde la medición. Si aplicamos el promedio ponderado en cada momento, obtenemos una nueva función que proporciona una estimación ajustada de la posición del vehículo,
La operación se llama convolución y es formulada con el asterisco (*)
En terminología de red convolucional, la función x a menudo se denomina entrada, la función w como filtro/kernel y la salida s se conoce como el mapa de características.
Para simplificar el trabajo vamos a suponer que la variable tiempo t es discreta (es una función de una variable independiente entera) y tomamos las medidas cada segundo. Si ahora suponemos que x y w se definen solo en el entero t, podemos definir la convolución discreta como:
En las aplicaciones de aprendizaje la entrada suele ser una matriz multidimensional de datos y el kernel una matriz multidimensional de parámetros adaptados por el algoritmo de aprendizaje, las matrices se denominan tensores.
En el supuesto de que utilicemos dos dimensiones, como es en el caso de las imágenes, podemos definir I como la entrada y K como un núcleo bidimensional.