1.984 |
CCP |
Leo Breiman,
Richard A. Olshen,
Charles J. Stone y
Jerome Friedman |
Cost–Complexity Pruning. Se introdujo en el marco de la aplicación de CART. También se conoce como poda de enlace más débil o poda por error de complejidad. Se realiza en dos etapas:
1-En la primera tomamos una secuencia de subárboles, {T0, T1, … Tk} de los datos de entrenamiento. Siendo:
- T0 el árbol original.
- Tk la raíz del árbol
- Ti+1 se obtiene por reemplazo de uno o más subárboles de Ti , cortando las ramas que muestren el menor incremento en la tasa de error por hoja/terminal podado.
2-Se elige el mejor árbol según una estimación de las tasas de error reales.
Por ejemplo, tomamos el subárbol T utilizado para clasificar cada uno de los N casos en el conjunto de entrenamiento, E como los ejemplos clasificados erróneamente si el subárbol T se reemplaza por la mejor hoja y NT el número de hojas en el subárbol T. La siguiente ecuación nos daría el costo-complejidad total del subárbol T:
Costo-complejidad = (E / N) + α * NT
α es el costo de una hoja adicional en el árbol y da la reducción del error por hoja.
Si el subárbol se recorta, el nuevo árbol clasificará incorrectamente M casos más, pero tendrá NT -1 hojas menos.
El mismo Costo-complejidad se obtendrá cuando α = (M / (N * (NT – 1)). A partir de esta ecuación se puede calcular α para cada subárbol y los subárboles con el valor más pequeño de α se seleccionan para la poda. |
1.984 |
MCCP |
Leo Breiman |
Minimal Cost-Complexity Pruning. Poda mínima de complejidad de costos Este método también se conoce como el algoritmo de poda de CART. Consiste en dos pasos:
- Genera una serie de árboles cada vez más podados {T0, T1, T2, …, Tn}.
- Selecciona el mejor árbol con la tasa de error más baja en un conjunto de pruebas separado.
Con respecto al primer paso, Ti + 1 se obtiene de Ti al recortar todos los nodos que tienen el aumento más bajo en la tasa de error por hoja cortada que se denota α
R (t) es la tasa de error si el nodo se recorta, entonces se convierte en una hoja que pertenece a una sola clase.
R (Tt) es la tasa de error si el nodo no se ha eliminado. Representa el promedio de las tasas de error en las hojas ponderadas por el número de ejemplos en cada hoja.
NT es el número de hojas
El método opera de la siguiente forma:
- Calcula α para cada nodo (no terminal) (excepto la raíz) en Ti.
- Pode todos los nodos con el valor más pequeño de α, obteniendo así el árbol Ti + 1.
- Repite este proceso hasta que solo quede la raíz para obtener una serie de árboles podados.
- El siguiente paso es seleccionar uno de estos como el árbol final. El criterio para la selección del árbol final es la tasa más baja de clasificación errónea en un conjunto de datos independientes. Esta selección se basa únicamente en la precisión del conjunto de pruebas.
|
1.986 |
MEP |
Timothy Niblett e Ivan Bratko |
Minimum Error Pruning. Es un enfoque de poda posterior, de abajo hacia arriba, que busca un solo árbol que reduzca la tasa de error esperada. Suponiendo que hay k clases para un conjunto de datos cuyo número es n y nc es la clase c con el mayor número de datos, si se predice que todos los ejemplos futuros estarán en la clase c, se utiliza la siguiente ecuación para predecir la tasa de error esperada:Dónde:
k = nº de clases
nt = nº de ejemplos en el nodo t
nt, c = nº de ejemplos asignados a la clase c en el nodo t
El método consiste en los siguientes pasos:
En cada nodo, no terminal, se calcula la tasa de error esperado si ese subárbol es podado.
Se calcula la tasa de error esperada para ese nodo si el subárbol no se poda
Si la poda del nodo conduce a una mayor tasa de error esperada, entonces se mantiene el subárbol en caso contrario, lo podamos.
Goran Cestnik y Bratko mejoraron esta versión y la versión más reciente supera dos problemas del método original: Sesgo optimista y dependencia de la tasa de error esperada en el número de clases. |
1.987 |
REP |
J. Ross Quinlan |
Reduced Error Pruning. Es una de las estrategias de poda más simples de poda posterior. En la actualidad se utiliza poco, ya que tiene la desventaja de requerir un conjunto separado de datos divididos para entrenamiento y validación de la poda. Además, se considera una estrategia demasiado agresiva que sobre poda el árbol, eliminando partes relevantes del mismo. Su forma de actuar es desde abajo hacia arriba verificando que cada nodo, no terminal, puede ser reemplazado con la clase más frecuente sin reducir la precisión, en este caso lo poda. El procedimiento continúa hasta que cualquier otra poda disminuya la precisión. Tiene una complejidad O (n4) |
1.987 |
CVP |
John Mingers |
Critical Value Prune. La poda de valor crítico es un método de poda posterior que trabaja con una variedad de medidas de selección de nodos. La idea es establecer un umbral, valor crítico, que define el nivel en el que tiene lugar la poda. Tiene dos pasos:
- Primero se especifica el umbral. Un nodo interno del árbol se elimina si el valor obtenido por la medida de selección no supera el umbral. Este nodo no se considera importante, porque el valor de la medida de selección obtenida en la etapa de creación del árbol estima su fuerza. La repetición de este procedimiento, utilizando valores críticos crecientes, produce una serie de árboles podados
- El mejor árbol se selecciona sobre la base de la capacidad predictiva similar a MCCP.
|
1.989 |
MDL |
Jorma Rissanen, Ross Quinlan y R. L. Rivest |
Minimum Description Length Pruning. Este método mide el tamaño del árbol por medio del número de bits necesarios para codificarlo. Elige árboles que pueden codificarse con menos bits. |
1.986-1.993 |
PEP |
J. Ross Quinlan |
Pessimistic Error Pruning. Error pesimista de la poda. El método de poda posterior propuesto por Quinlan en el contexto de ID3. Quinlan encontró que es optimista usar un conjunto de entrenamiento para probar la tasa de error, porque los árboles de decisión se han adaptado al conjunto de entrenamiento. En este caso, la tasa de error puede ser 0. Si se utilizan datos distintos del conjunto de entrenamiento, la tasa de error aumentará dramáticamente Para resolver este problema se utilizó la corrección de continuidad (estadística) de la distribución binomial para obtener una tasa de error que es más realista. Usa las siguientes ecuaciones para obtener el número de errores de clasificación:
(1) n'(t) = e(t) + (1/2) ; n'(t) es el número de errores de clasificación para el nodo t
(2) n'(Tt) = e(Tt ) + (NT/2) ; n'(Tt) es el número de errores de clasificación para el subárbol T.
dónde:
NT es el número de hojas para el subárbol T,
e (t) es el número de errores de clasificación en el nodo t,
e (Tt) es el número de errores de clasificación para el subárbol T.
1/2 es una constante que Indica la contribución de una hoja a la complejidad del árbol.
Este método es mucho más rápido que el “Reduced Error Pruning” y también proporciona precisiones más altas, sin utilizar no usa validación cruzada. |
1.993 |
EBP |
J. Ross Quinlan |
Error–based Pruning. Es una poda posterior basada en errores, es una evolución de PEP, aparece en C4.5. Al igual que en la poda pesimista, la tasa de error se estima utilizando el límite superior del intervalo de confianza estadística para las proporciones. Utiliza un parámetro denominado, el factor de certeza, que afecta al tamaño del árbol podado, sí el ajuste no es correcto, da como resultado árboles grandes que pueden continuar creciendo aunque no haya un aumento en la precisión, por contra, sí el factor de certeza es adecuado produce árboles de tamaño adecuado con buena precisión en comparación con REP. |
1.994-6 |
OPT |
Ivan Bratko, Marko Bohanec y Hussein Almuallim |
Optimal Pruning. La podada óptima tiene una la complejidad de O (| hojas (T) |2), donde T es el árbol de decisión inicial. Almuallim introdujo una mejora de OPT llamada OPT-2, que también realiza una poda óptima. Sin embargo, las complejidades de tiempo y espacio de OPT-2 son:
O ( | hojas (T ∗) | × | interno (T) | )
Donde (T ∗) es el árbol de decisiones objetivo (podado) y T es el árbol de decisión inicial.
Como el árbol podado es habitualmente mucho más pequeño que el árbol inicial y el número de nodos internos es más pequeño que el número de hojas, OPT-2 suele ser más eficiente que OPT en términos de complejidad computacional. |
2.006 |
FBP |
Xiaoming Huo, Seoung Bum Kim, Kwok-Leung Tsui y Shuchun Wang |
Frontier-Based Tree-Pruning. Este método tiene un orden de complejidad computacional comparable a la poda CCP, pero tiene la ventaja de proporcionar un espectro completo de información. Con CV (Validación Cruzada) genera mejores clasificadores en simulaciones, en comparación con otros métodos. |
2.012 |
PAV |
Linkai Luo,Hong Peng, Weihang Lv,
Yan Zhang y Xiaodong Zhang
|
Product of the Accuracy and the Volume. El algoritmo se basa en el riesgo estructural del nodo de hoja. El riesgo estructural se mide por el producto de la precisión y el volumen (PAV) en el nodo de la hoja. Los experimentos comparativos con el algoritmo de poda de complejidad de costos utilizando el algoritmo de validación cruzada (CCP-CV) en algunos conjuntos de datos de referencia muestran que la poda de PAV reduce en gran medida el costo de tiempo de CCP-CV, mientras que la precisión de la prueba de poda es cercana a la de CCP-CV. |
Algoritmos que acomodan la generación de árboles. |
1.993 |
MLPC |
|
Multi-Level Pruned Classifier. Es el algoritmo de poda que se implementó posteriormente a la creación del C4.5. En este caso el C4.5 con poda se denomina algoritmo de clasificador de niveles múltiples (MLPC). Trabaja de arriba hacia abajo con poda previa antes de construir el árbol y se detiene en un nivel pre-establecido. Al principio todos los ejemplos de entrenamiento se mantienen en la raíz. Luego los ejemplos se dividen de forma recursiva en función de los atributos previamente seleccionados. El atributo que provoca la división lo hace sobre la medida de entropía y solo considera los atributos que tienen mayor contribución en la clasificación, por lo que el número de reglas generadas son menores, esto disminuye el tiempo de clasificación. |
1.994 |
IREP |
Johannes Furnkranz y Gerhard Widner |
Incremental Reduced Error Pruning. Surge como mejora de REP. Integra la pre-poda y la post-poda durante el aprendizaje para el descenso progresivo de la reducción de errores. |
1.995 |
RIPPER |
William W. Cohen |
Repeated Incremental Pruning Produce Error Reduction. Es una mejora del algoritmo IREP, ofrece un tiempo de capacitación menor para pequeños conjunto de datos. Aprende las reglas directamente de los datos no de la construcción del árbol. |
2.001 |
Soft-pruning |
Boonserm Kijsirikul y K. Chongkasemwongse |
Poda suave. Proponen que la poda sea a través de una red neuronal con retrocesión. Los resultados comparados con C4.5 muestran que funciona mejor tanto en los árboles podados y no podados del C4.5. La desventaja está en la pérdida de la facilidad de interpretación de los árboles originales. |
2.002 |
DIP |
Bruno Cremilleux y Dominique Fournier |
Depth-Impurity Pruning. Utiliza un índice que denominan de “Calidad” que realiza una compensación entre las impurezas y la profundidad de las hojas. El método de poda es capaz de mantener subárboles que no disminuyen la tasa de error, pero señalan poblaciones de interés específico. |
2.003 |
IREP++ |
Oliver Dain, Robert K. Cunningham y Stephen Boyer |
Incremental Reduced Error Pruning ++. Es un algoritmo de aprendizaje de reglas similar a RIPPER e IREP. Provee conjuntos de reglas más rápidamente que los anteriores y el concepto objetivo es más fácil de entender por los humanos ( if-then, Si-Entonces). |
2.007 |
MIP |
Cha Zhang y
Paul Viola |
Multiple-Instance Pruning. El algoritmo calcula un conjunto de umbrales que terminan el cálculo sin reducción en la tasa de detección o aumento en la tasa de falsos positivos en los datos de entrenamiento. El algoritmo se basa en dos ideas clave:
- Los ejemplos que están destinados a ser rechazados por el clasificador se pueden recortar de forma segura antes de tiempo.
- El proceso es automático y no requiere supuestos de distribuciones de probabilidad, independencia estadística u objetivos de rechazo intermedios.
|
Estupendo. Si otros trabajos fueran tan buenos como este, no estaría dando vueltas y perdiendo el tiempo. Claro y sintético que te abre la puerta a muchas cosas relacionadas. Debéis poner una opción de donaciones o que os financien y ampliar estos temas. Me ha salvado la asignatura.