Núcleo (Kernel) de las SVM

Un núcleo o kernel son un conjunto de algoritmos y funciones matemáticas, utilizadas en las SVM, que se pueden expresar en términos de productos de puntos para el análisis o reconocimiento de patrones y estudio de sus relaciones. Los algoritmos asocian los datos a puntos en espacios de n dimensiones con la esperanza de que en esta nueva dimensión los datos puedan separarse más fácilmente. No existen restricciones en la forma de esta asociación que puede llevar a espacios infinitos.

 

Matemáticamente es: Una función finita positiva y semi defiinida (PSD),  K: X × Y ∈ R, simétrica en sus argumentos para los cuales se forman matrices por restricción en cualquier subconjunto de puntos. X e Y son números reales, funciones, vectores, etc.

 

En la actualidad se están tratando núcleos no PSD como el de la Tangente hiperbólica (Sigmoidea) que es condicional positiva definida (CPD) con ciertos parámetros y por lo tanto son núcleos válidos.

Nachman Aronszajn
Aronszajn

 

El primero en estudiar este tema fue Nachman Aronszajn, entre 1.942-3 y lo publica en 1.944  como “Théorie générale de noyaux reproduisants” y que más tarde, en 1.950, lo completa publicándolo como “Theory of Reproducing Kernels”.

 

La forma más fácil de explicar qué hace un núcleo es con un ejemplo sencillo de 2 a 3 dimensiones y con pocos puntos. Imaginemos que tenemos los puntos dibujados sobre el mantel de una mesa (1), a primera vista es imposible tender una línea para separar ambos colores, pero si tomamos los bordes del mantel y los elevamos (2), los puntos verdes se separan, ya los tenemos en un plano distinto y separados (3).  El plano (3) intersecta el espacio de 2 dimensiones de (1) en una curva (4).

 

Tránsito en un Kernel de una SVM
Tránsito en un Kernel

 

Tipos de Kernel Comentario
ANOVA ANalysis Of VAriance. Es un kernel de función radial que puede utilizarse en problemas de regresión. Su ecuación es:

ANOVA

Bessel Su ecuación es:

Bessel

Cuadrático racional Es similar al de Gauss pero con mejor rendimiento computacional. Su ecuación es:

Cuadrático racional

Exponencial Casi idéntico al de Gauss. Su ecuación es:

Exponencial

Gauss Su núcleo es de base radial y se utiliza cuando no hay conocimiento previo sobre los datos, da como resultado una matriz de rango completo, formando un espacio de dimensión infinita.. Su ecuación es:

Gaussiano

El parámetro de ajuste sigma tiene una influencia muy importante en el resultado.

GCS

Geometric Compactly Supported. Se basa en la intersección de dos esferas n-dimensionales en la que su intersección lleva a una forma compatible con un kernel positivo y definido. Su utilización se fundamenta en la reducción de la complejidad algorítmica y en escaso uso de la matriz de Gram. El uso está limitado a dimensiones de 1-3, ya que no son positivos definidos para dimensiones más altas.

Triangular

GCS Triangular

Circular

GCS Circular

Esférico

GCS Esférico

Laplace Es equivalente al exponencial pero menos sensible a los cambios en el parámetro sigma.

Laplace

Lineal En espacios euclídeos. Es la función más simple, da el resultado del producto (x, y) más una constante opcional c . Los algoritmos de kernel que usan un kernel lineal a menudo son equivalentes a sus contrapartes que no son kernel, es decir, KPCA con kernel lineal es lo mismo que PCA . Su ecuación es: 

Lineal

Lineal spliner En espacios euclídeos. Su ecuación es:

Lineal spliner

Muiti-cuadrático Puede utilizarse como el cuadrático. Es un núcleo no positivo definido (CPD). Su ecuación es:

Muiti-cuadrático

Muiti-cuadrático Inverso Similar en resultado al Gaussiano. Su ecuación es:

Muiti-cuadrático Inverso

Polinomial En espacios euclídeos. Su ecuación es:

Polinomial

 

 

 

Los parámetros ajustables son la pendiente escala, la constante c ≥ 0 y el grado polinómico g ∈ Ν (natural).

RBF de Gauss
Radial Basis Function, en espacios euclídeos. Base radial gaussiana. Al igual que el kernel Gaussiano, se utiliza cuando no hay conocimiento previo sobre los datos. Su ecuación es:

RBF Gaussiano

 

 

donde:

 > 0

RBF de Laplace En espacios euclídeos. Muy similar al kernel Gaussiano. Su ecuación es:

RBF de Laplace

Tangente hiperbólica (Sigmoidea)
Su ecuación es:

Tangente hiperbólica (Sigmoidea)

 

 

 

donde algunos:  escala> 0 y c < 0. Este kernel se origina en la teoría de redes neuronales, se basa en la función de activación sigmoidea bipolar y es equivalente a un perceptrón de dos capas. Su escala se encuentra normalmente en 1 / n, donde n es la dimensión de datos. Es un núcleo no positivo definido (CPD).

g = Grado del polinomio
c = Constante
x, y  pueden verse como  xi , xj
⟨x, y⟩  = (x × y)