Un núcleo o kernel son un conjunto de algoritmos y funciones matemáticas, utilizadas en las SVM, que se pueden expresar en términos de productos de puntos para el análisis o reconocimiento de patrones y estudio de sus relaciones. Los algoritmos asocian los datos a puntos en espacios de n dimensiones con la esperanza de que en esta nueva dimensión los datos puedan separarse más fácilmente. No existen restricciones en la forma de esta asociación que puede llevar a espacios infinitos.
Matemáticamente es: Una función finita positiva y semi defiinida (PSD), K: X × Y ∈ R, simétrica en sus argumentos para los cuales se forman matrices por restricción en cualquier subconjunto de puntos. X e Y son números reales, funciones, vectores, etc.
En la actualidad se están tratando núcleos no PSD como el de la Tangente hiperbólica (Sigmoidea) que es condicional positiva definida (CPD) con ciertos parámetros y por lo tanto son núcleos válidos.
El primero en estudiar este tema fue Nachman Aronszajn, entre 1.942-3 y lo publica en 1.944 como “Théorie générale de noyaux reproduisants” y que más tarde, en 1.950, lo completa publicándolo como “Theory of Reproducing Kernels”.
La forma más fácil de explicar qué hace un núcleo es con un ejemplo sencillo de 2 a 3 dimensiones y con pocos puntos. Imaginemos que tenemos los puntos dibujados sobre el mantel de una mesa (1), a primera vista es imposible tender una línea para separar ambos colores, pero si tomamos los bordes del mantel y los elevamos (2), los puntos verdes se separan, ya los tenemos en un plano distinto y separados (3). El plano (3) intersecta el espacio de 2 dimensiones de (1) en una curva (4).
Tipos de Kernel | Comentario |
ANOVA | ANalysis Of VAriance. Es un kernel de función radial que puede utilizarse en problemas de regresión. Su ecuación es: |
Bessel | Su ecuación es: |
Cuadrático racional | Es similar al de Gauss pero con mejor rendimiento computacional. Su ecuación es: |
Exponencial | Casi idéntico al de Gauss. Su ecuación es: |
Gauss | Su núcleo es de base radial y se utiliza cuando no hay conocimiento previo sobre los datos, da como resultado una matriz de rango completo, formando un espacio de dimensión infinita.. Su ecuación es:
El parámetro de ajuste sigma tiene una influencia muy importante en el resultado. |
GCS |
Geometric Compactly Supported. Se basa en la intersección de dos esferas n-dimensionales en la que su intersección lleva a una forma compatible con un kernel positivo y definido. Su utilización se fundamenta en la reducción de la complejidad algorítmica y en escaso uso de la matriz de Gram. El uso está limitado a dimensiones de 1-3, ya que no son positivos definidos para dimensiones más altas. Triangular Circular Esférico |
Laplace | Es equivalente al exponencial pero menos sensible a los cambios en el parámetro sigma. |
Lineal | En espacios euclídeos. Es la función más simple, da el resultado del producto (x, y) más una constante opcional c . Los algoritmos de kernel que usan un kernel lineal a menudo son equivalentes a sus contrapartes que no son kernel, es decir, KPCA con kernel lineal es lo mismo que PCA . Su ecuación es: |
Lineal spliner | En espacios euclídeos. Su ecuación es: |
Muiti-cuadrático | Puede utilizarse como el cuadrático. Es un núcleo no positivo definido (CPD). Su ecuación es: |
Muiti-cuadrático Inverso | Similar en resultado al Gaussiano. Su ecuación es: |
Polinomial | En espacios euclídeos. Su ecuación es:
Los parámetros ajustables son la pendiente escala, la constante c ≥ 0 y el grado polinómico g ∈ Ν (natural). |
RBF de Gauss |
Radial Basis Function, en espacios euclídeos. Base radial gaussiana. Al igual que el kernel Gaussiano, se utiliza cuando no hay conocimiento previo sobre los datos. Su ecuación es:
donde: |
RBF de Laplace | En espacios euclídeos. Muy similar al kernel Gaussiano. Su ecuación es: |
Tangente hiperbólica (Sigmoidea) |
Su ecuación es:
donde algunos: escala> 0 y c < 0. Este kernel se origina en la teoría de redes neuronales, se basa en la función de activación sigmoidea bipolar y es equivalente a un perceptrón de dos capas. Su escala se encuentra normalmente en 1 / n, donde n es la dimensión de datos. Es un núcleo no positivo definido (CPD). |
g = Grado del polinomio
|