Boosting Ridge para la máquina de aprendizaje extremo optimizada globalmente para problemas de clasificación y regresión
Scientific Reports volumen 13, número de artículo: 11809 (2023) Citar este artículo
191 Accesos
Detalles de métricas
Este artículo explora el marco de impulso de cresta (BR) en la comunidad de máquinas de aprendizaje extremo (ELM) y presenta un modelo novedoso que entrena a los alumnos básicos como un conjunto global. En el contexto de las redes de una sola capa oculta de Extreme Learning Machine, los nodos de la capa oculta se preconfiguran antes del entrenamiento y la optimización se realiza en los pesos de la capa de salida. La implementación anterior del conjunto BR con ELM (BRELM) como estudiantes base fija los nodos en la capa oculta para todos los ELM. El método de aprendizaje por conjuntos genera diferentes coeficientes de capa de salida al reducir secuencialmente el error residual del conjunto a medida que se agregan más alumnos base al conjunto. Como en otras metodologías de conjunto, los alumnos básicos se seleccionan hasta que cumplan con los criterios del conjunto, como el tamaño o el desempeño. Este artículo propone un método de aprendizaje global en el marco BR, donde los alumnos base no se agregan paso a paso, sino que todos se calculan en un solo paso buscando el desempeño del conjunto. Este método considera (i) las configuraciones de la capa oculta son diferentes para cada alumno base, (ii) los alumnos base se optimizan todos a la vez, no de forma secuencial, evitando así la saturación, y (iii) la metodología de conjunto no tiene la desventaja de trabajar con clasificadores fuertes. Se han seleccionado varios conjuntos de datos de referencia de regresión y clasificación para comparar este método con la implementación original de BRELM y otros algoritmos de última generación. En particular, se han considerado 71 conjuntos de datos para clasificación y 52 para regresión, utilizando diferentes métricas y analizando diferentes características de los conjuntos de datos, como el tamaño, el número de clases o el carácter desequilibrado de las mismas. Las pruebas estadísticas indican la superioridad del método propuesto tanto en problemas de regresión como de clasificación en todos los escenarios experimentales.
En la última década, Extreme Learning Machine (ELM)1 se ha convertido en una metodología popular en problemas desafiantes de Machine Learning, por ejemplo, las interfaces cerebro-computadora2, la predicción de la vida útil restante de los rodamientos3, la detección del origen del hinojo, que es de gran importancia en el sabor de los alimentos4, la predicción de la neumonía por COVID-195, la clasificación EGG para la interfaz cerebro-computadora6, la gestión de la red de agua7 y la predicción del rendimiento del trigo8, entre otros. Las teorías ELM afirman que los parámetros de la capa oculta, es decir, el peso y el sesgo en las redes de alimentación directa de una sola capa oculta, no necesitan ajustarse, pero pueden generarse aleatoriamente, independientemente del conjunto de datos de entrenamiento9. Por lo tanto, sólo se calculan las ponderaciones de producción en un solo paso empleando la solución estimada de mínimos cuadrados. Debido a esta inicialización aleatoria, la velocidad de entrenamiento de ELM es más eficiente en comparación con los solucionadores tradicionales para redes neuronales, por ejemplo los basados en retropropagación10,11, sin perder rendimiento, e incluso mejorándolo.
Uno de los inconvenientes de los modelos ELM es que requiere una gran cantidad de neuronas para la capa oculta porque la combinación no lineal de características se explora aleatoriamente12. Debido a esto, se han investigado varios métodos para reducir esta aleatoriedad sin aumentar el tiempo de cálculo ni la complejidad del algoritmo, como la poda13, la optimización de enjambre14,15 y los métodos de aprendizaje por conjuntos.
En este contexto, se han propuesto varios métodos de conjunto para modelos ELM, por ejemplo, conjuntos para regresión16, conjuntos difusos para clasificación de big data17, conjuntos profundos para pronóstico de series temporales18, Meta-ELM incremental con retroalimentación de errores19 o conjuntos ELM de núcleo ponderado para conjuntos de datos desequilibrados20. Además, muchos métodos de conjunto ELM se han aplicado a problemas del mundo real, como la predicción de la altura de las olas del océano21, el reconocimiento de la actividad humana22, la calibración de la espectroscopia del infrarrojo cercano23 o el reconocimiento del canto de los pájaros24. En general, los conjuntos tienen como objetivo mejorar el error de generalización utilizando una combinación de clasificadores o regresores, conocidos como alumnos base en el marco de aprendizaje conjunto. La mejora del rendimiento está asociada con la diversidad entre los predictores base, es decir, es esencial para la generalización del conjunto que los alumnos base estén lo más en desacuerdo posible25. Hay muchas formas de combinar predicciones individuales. Así, se han propuesto varios métodos de votación para mejorar la eficiencia de estos conjuntos, como Bagging26, Boosting27, sistema de aprendizaje incremental utilizando expertos lineales locales28 o una variación de Boosting construida a partir de un algoritmo funcional de descenso de gradiente con la función de pérdida L229, entre otros. Las metodologías de conjunto conocidas como Bagging and Boosting son los enfoques más utilizados, principalmente por su facilidad de aplicación y su desempeño conjunto30. La clave de estas metodologías de conjunto radica en los datos de entrenamiento para generar diversidad. De esta manera, implícitamente se buscan diversas soluciones al problema de optimización asociado a los predictores base a través del muestreo de datos31.
En concreto, en el campo de la filosofía Boosting, un algoritmo especialmente interesante es Boosting Ridge (BR)32. Este algoritmo de conjunto, diseñado originalmente para problemas de regresión, entrena a los alumnos base de forma secuencial, estableciendo el residual del predictor anterior como objetivo de entrenamiento. El alumno de primera base es el predictor del objetivo original. Posteriormente, se calcula el error entre la predicción del conjunto de entrenamiento y el objetivo, y este residual es el nuevo objetivo. El segundo predictor se entrena con este residual. Después de calcular el error entre el segundo predictor y el primer residual, se calcula un tercer residual, que es el objetivo del siguiente predictor. El proceso se repite hasta alcanzar el número de alumnos base. BR muestra su importancia en muchas aplicaciones, como la detección temprana del cáncer de mama33, los modelos de supervivencia de microarrays34 y las predicciones de reincidencia delictiva35.
La incorporación de alumnos de base no mejora continuamente el conjunto, ya que existe un equilibrio entre la diversidad entre los alumnos de base y el desempeño final del conjunto36. Además, en la metodología boosting, aunque se añade cada alumno base para reducir el error de los anteriores, eventualmente aparece la saturación de los alumnos base. La saturación ocurre cuando el conjunto no puede mejorar el error de generalización a pesar de introducir cada vez más alumnos básicos. Además, si el número de alumnos de base es fijo, se podría producir saturación o incluso sobreajuste porque los alumnos de base se vuelven más fuertes (más precisos). Se tiene en cuenta que aumentar el número de neuronas ocultas reduce la diversidad en el conjunto37, que es necesaria para mejorar el rendimiento del conjunto25. Para superar la saturación y dar un enfoque de selección del modelo,38 propone el uso de algoritmos genéticos para seleccionar el número óptimo de estudiantes base involucrados en el conjunto,39 propone una regla de parada adaptativa mediante el ajuste del parámetro de regularización, y40 se basa en medidas de diversidad para establecer el límite superior de un número de alumnos base.
Al igual que otras metodologías de conjuntos36,41, BR tiene como objetivo entrenar cada predictor base por separado y luego combinar sus resultados. El algoritmo BR para estudiantes basados en ELM (BRELM) fue propuesto inicialmente por Ran et al.42. Con estos antecedentes y para superar los principales inconvenientes mencionados anteriormente, este artículo propone un nuevo algoritmo de impulso que elimina la necesidad de agregar alumnos base de forma secuencial, lo que lleva a la saturación. Además, el uso de clasificadores de base fuertes en lugar de débiles no empeora el rendimiento del conjunto. Para ello, se optimizan varios predictores a la vez para calcular los parámetros del conjunto optimizados de forma global. La formulación de la función de error permite el desarrollo de una solución analítica para los parámetros de los alumnos basados en ELM para encontrar los pesos de las capas de salida para cada alumno base en un solo paso. Además, este método de aprendizaje conjunto logra mejores resultados que el BR secuencial, ya que el error se optimiza globalmente en el conjunto y no para cada alumno base.
En resumen, las aportaciones novedosas de este trabajo son:
La optimización de los pesos de la capa de salida de un conjunto Boosting Ridge for Extreme Learning Machine en un solo paso en lugar de iterativamente, con el objetivo de reducir el error de generalización.
El uso de diferentes mapeos de capas de entrada con diferentes parámetros para sus capas ocultas, posible gracias al nuevo enfoque de optimización que resulta en el llamado BRELM Global Generalizado (GGBRELM), tiende a una mejor diversidad del conjunto.
Evite el problema de la saturación del conjunto y el sobreentrenamiento haciendo que la nueva propuesta funcione bien cuando los clasificadores base se vuelvan más fuertes. Por ejemplo, se sabe que al aumentar el número de neuronas en las redes ELM de los alumnos base, cada una logra un buen rendimiento, pero, a cambio, el rendimiento del conjunto se reduce. Con la nueva propuesta, este problema queda solucionado.
La aplicación de la metodología a más de 120 conjuntos de datos de clasificación y regresión de diferentes dominios muestra que la propuesta funciona mejor que los métodos más modernos y se puede aplicar a cualquier problema del mundo real.
La realización del análisis de la metodología propuesta considera diferentes propiedades del conjunto de datos como el tamaño, el número de clases o el desequilibrio.
Este artículo está organizado de la siguiente manera: La sección “Algoritmos de última generación” resume la notación y formulación de los algoritmos ELM, BR y BRELM. La sección “Metodología de la propuesta” desarrolla la metodología propuesta sobre la globalización de BRELM y su versión generalizada GGBRELM, muestra una comparación gráfica de las metodologías e incluye un análisis de sus costos computacionales. El diseño experimental se establece en la Sección Diseño experimental, mientras que la Sección “Discusión de los resultados” explica los resultados más destacados, incluido el análisis estadístico. Finalmente, el apartado “Conclusiones” recoge las principales conclusiones obtenidas en el trabajo.
Esta sección presenta la notación y formulación de los dos algoritmos en los que se basa esta propuesta, es decir, el predictor ELM y la metodología de conjunto BR.
Para un problema simple de aprendizaje supervisado, conjunto de datos \({\mathscr {D}} = \{ ({\textbf{x}}_1, {\textbf{y}}_1), \ldots , ({\textbf{x} }_n, {\textbf{y}}_n ),\) \(\ldots , ({\textbf{x}}_N, {\textbf{y}}_N) \} = \{ ({\textbf{x }}_n, {\textbf{y}}_n) \}_{n=1}^N\) consiste en un conjunto de N patrones, cada uno con un vector de características, \({\textbf{x}} _n\) y objetivo asociado, \({\textbf{y}}_n\).
\({\textbf{x}}_n \in {\mathbb {R}}^K\) es la información de datos para el patrón n-ésimo, donde K es el número de variables de entrada.
\({\textbf{y}}_n\) es la variable de destino para el enésimo patrón. En caso de problemas de regresión, \({y}_n \in {\mathbb {R}}\) ya que es un número. En problemas de clasificación con clases J, el objetivo se puede expresar como codificación “1 de J”, \({\textbf{y}}_n \in {\mathbb {R}}^J\). Cada componente j de \({\textbf{y}}_n\) es \(y_{j, n} = 1\) si el n-ésimo patrón pertenece a la clase j y \(y_{j, n} = 0\ ) de lo contrario.
Utilizando la codificación "1 de J", una clasificación se puede reescribir como un problema de regresión múltiple. Por lo tanto, el modelo ELM se explica para los problemas de regresión en esta subsección y la explicación de la clasificación se resume al final. Un predictor \(f: {\mathbb {R}}^K \rightarrow {\mathbb {R}}\) que infiere una función que asigna un patrón n-ésimo de entrada \({\textbf{x}}_n\) a un objetivo de salida \({y}_n\), usando relaciones del conjunto de datos etiquetados \({\mathscr {D}} = \{ ({\textbf{x}}_n, {y}_n) \}_{n= 1}^N\). En particular, el modelo Extreme Learning Machine (ELM) construye esta función:
dónde:
\({\textbf{h}}: {\mathbb {R}}^K \rightarrow {\mathbb {R}}^D\) es un mapeo no lineal de la capa de entrada. Transforma el patrón \({\textbf{x}}_n\) del espacio de características original \({\mathbb {R}}^K\) al espacio transformado \({\mathbb {R}}^D\ ), donde D es el número de neuronas en la capa oculta. Este mapeo se calcula explícitamente como
con \(\phi : {\mathbb {R}}^K \rightarrow {\mathbb {R}}\) como función de activación para la neurona d, y los pesos \({\textbf{w}}_{d }\) y los sesgos \(b_{d}\) se generan aleatoriamente.
\(\varvec{\beta }: {\mathbb {R}}^{D}\) es el vector de pesos en la capa de salida, que se encuentran en el problema de optimización:
donde \({\textbf{H}} = \left( {\textbf{h}}' \left( {\textbf{x}}_{1}\right) , \ldots , {\textbf{h}} ' \left( {\textbf{x}}_{N}\right) \right) \in {\mathbb {R}}^{N \times D}\) es la salida de la capa oculta para los patrones de entrenamiento , \({\textbf{Y}} = \left( {\begin{array}{c} {\textbf{y}}_{1} \\ \vdots \\ {\textbf{y}}_{N }\\ \end{array} } \right) \in {\mathbb {R}}^{N}\) es la matriz con los objetivos deseados y \(C > 0\) es un término especificado por el usuario, que controla la regularización en el modelo12.
La ecuación (3) representa un problema de minimización convexa con términos de error y regularización. El término de error \({\Vert {\textbf{H}} \varvec{\beta } - {\textbf{Y}} \Vert }^2\) ajusta el vector de coeficientes \(\varvec{\beta }\) para minimizar el error de la predicción \({\textbf{Y}}\), mientras que el término de regularización \({\Vert \varvec{\beta }_j \Vert }^2\) se incluye para evitar sobre- encajando en el modelo43.
La solución óptima para el modelo es el mínimo de la función objetivo convexa en la ecuación. (3), y se obtiene derivando e igualando a 0:
Para un problema de clasificación, existen J problemas de minimización como la ecuación. (3). La clase predicha corresponde al componente del vector con el valor más alto, es decir
A partir de un modelo de regresión lineal,
y su problema de minimización asociado
con \({\textbf{X}} = \begin{pmatrix} {\textbf{x}}_1^{'} \\ \vdots \\ {\textbf{x}}_N^{'} \end{pmatrix } \in {\mathbb {R}}^{N \times K}\), Tutz et al.32 propusieron la regresión BR como método de aprendizaje conjunto que reduce secuencialmente el residual de la predicción conjunto,
Para un conjunto con alumnos de base S, la predicción del modelo de regresión BR es
Ran et al.42 adaptaron la metodología de aprendizaje en conjunto de BR a la comunidad ELM. La predicción de este conjunto secuencial, BRELM, de alumnos de base S es la siguiente combinación lineal:
El primer alumno base \(s = 1\) es la solución ELM estándar de la ecuación. (3). Más tarde, la s-ésima etapa de entrenamiento del alumno base utiliza todos los datos, pero el objetivo \(\mathbf {\mu }^{(s)}\) es el residuo de las predicciones base anteriores del alumno,
Por lo tanto, el problema de minimización del alumno base s-ésimo es
y la solución para la capa de salida del s-ésimo alumno base es
En esta sección se propone la Globalización del BRELM, junto con una versión mejorada denominada BRELM Global Generalizado (GGBRELM). También se incluye una comparación gráfica metodológica. Y finalmente, se discute un análisis teórico de las complejidades computacionales de las metodologías.
La principal hipótesis de este trabajo es que la metodología basada en la optimización de todos los alumnos base en un solo paso mejorará el error de generalización del conjunto. Por lo tanto, considerando que este procedimiento evitará la saturación del conjunto y, por lo tanto, para un número elevado de neuronas (estudiantes de base ELM fuertes), el rendimiento del conjunto no se reducirá. Además, el uso de diferentes pesos de capa de entrada y, por lo tanto, diferentes funciones de mapeo (\({\textbf{h}}^{(s)}\)) entre los diferentes predictores base conducirá a una mayor diversidad en el conjunto.
La idea principal detrás de BRELM es reducir secuencialmente el error producido por el conjunto. Esta propuesta, Global BRELM, presenta el problema para cada s-ésimo alumno base como la reducción de errores de los otros alumnos base del conjunto.
Derivando respeto con \(\varvec{\beta }^{(s)}\) e igual a 0, algunos términos dependen de \(\varvec{\beta }^{(s)}\) mientras que otros dependen de \ (\varvec{\beta }^{(s')}\), \(s' = 1, \ldots , S\), \(s' \ne s\),
A partir de la ecuación anterior se puede construir un sistema de ecuaciones,
entonces la solución de la Ec. (17) se puede calcular simplemente invirtiendo una matriz,
Esta solución también funciona para BR simple con regresores lineales, reemplazando \({\textbf{H}}' {\textbf{H}}\) y \({\textbf{H}}' {\textbf{Y}}\ ) para \({\textbf{X}}' {\textbf{X}}\) y \({\textbf{X}}' {\textbf{Y}}\) respectivamente.
La generalización es tan simple como hacer \({\textbf{H}}\) diferente para cada s-ésimo alumno base,
Las diferentes asignaciones de características no lineales en \({\textbf{H}}^{(s)}\) se pueden generar mediante cualquier método ELM: aleatorización12, PCA con diferentes subconjuntos del conjunto de datos de entrenamiento44, elementos en una secuencia pseudoaleatoria45, \( \ldots\) Como se mencionó anteriormente, con esta generalización, se han seleccionado varios pesos y sesgos aleatorios para cada función de mapeo \({\textbf{h}}^{(s)}\), generando así diferentes mapeos \({ \textbf{H}}^{(s)}\).
La Figura 1 incluye una comparación gráfica y minimalista de las metodologías involucradas en este artículo. Tenga en cuenta que ELM (a) entrena un modelo en un solo paso, BRELM y GBRELM (b) entrenan varios modelos secuencialmente, y el GGBRELM propuesto (c) entrena todos los modelos en un solo paso, ya que BRELM, GBRELM y GGBRELM son metodologías de conjunto.
Diagramas de flujo minimalistas de las diferentes metodologías.
La complejidad computacional del modelo ELM está determinada por el número de nodos ocultos, indicado como D, el tamaño del conjunto de entrenamiento, indicado como N, y el número de clases, J. Para calcular \(\mathbf {H'H}\) , es necesario multiplicar una matriz de \(D \times N\) por \(N \times D\) dando como resultado una complejidad de \(O(D \cdot N^2)\). Luego, ELM debe realizar una inversión matricial en una matriz \(D \times D\) cuya complejidad es \(O(D^{3})\) como se muestra en 46,47. Después de eso, se realiza una multiplicación de \(\mathbf {H'Y}\), es decir, \(D \times N\) por \(N \times J\) con un costo de \(O(D \cdot N \cdot J)\). Finalmente, las matrices resultantes \(D \times D\) y \(D \times J\) se multiplican con un tiempo computacional de \(O(D^2 \cdot J)\). Por lo tanto, la complejidad computacional total es \(O(\text {ELM}) = O(D \cdot N^2 + D^{3} + D \cdot N \cdot J + D^2 \cdot J)\) .
El costo computacional de los métodos BRELM y GBRELM también depende del número de estudiantes base S. Dado que estas metodologías entrenan modelos S ELM secuencialmente y cada modelo se entrena utilizando el residuo del anterior como objetivos, el costo computacional será \(O (S \cdot O(\text {ELM})+(S-1) (N\cdot D \cdot J))\).
Finalmente, considerando que GGBRELM realiza la optimización en un solo paso, el método debe calcular una inversión matricial de una matriz \(DS \times DS\) y multiplicar el resultado por una matriz \(DS \times NJ\). Dado que la matriz \(\mathbf {H'H}\) es simétrica, el cálculo de todos los \(\mathbf {H^{s'}H^{t}} intermedios \(\mathbf {H^{s'}H^{t}} \text { for } s={1 , \ldots , S}, t={s, \ldots , S}\), un total de \(S(S-1)/2\) multiplicaciones de matrices \(D \times N\) por \(N \times D\) deben realizarse, lo que resulta en una complejidad de \(O(S(S-1)/2 \cdot D \cdot N^2)\). Por esta razón, el costo computacional de GGBRELM es \(O(S(S-1)/2 \cdot D \cdot N^2 + (DS)^{3}+ (DS)^2\cdot J+ DS \cdot N \cdot J)\).
Para evaluar la metodología presentada en la Sección “Metodología de la propuesta”, se ha implementado un entorno experimental integral. En este sentido, la Sección “Experimentos” describe los experimentos realizados inicialmente. La sección “Conjuntos de datos” incluye una descripción de los conjuntos de datos empleados en los problemas de regresión y clasificación. La sección “Configuración de algoritmos y parámetros” contiene una explicación concisa de los algoritmos seleccionados para realizar el estudio comparativo y la configuración de sus hiperparámetros. Finalmente, las métricas implementadas para la evaluación de los modelos se detallan en el Apartado “Medidas”, y las pruebas estadísticas realizadas para validar los resultados obtenidos se definen en el Apartado “Pruebas estadísticas”.
Como se indicó anteriormente, el objetivo de este trabajo no es solo mejorar el desempeño del alumno base (ELM) sino también superar las desventajas del BRELM y, específicamente, del BRELM generalizado (GBRELM). Además, para fines de comparación, se utiliza una metodología de kernel reciente (KBRELM, consulte la sección "Configuración de algoritmos y parámetros"). Para ello se han realizado dos experimentos:
En el primer experimento (E1), la cantidad de neuronas en la capa oculta era baja. Por lo tanto, cuanto menor sea el número de nodos ocultos, peor será el rendimiento de ELM; por otro lado, GBRELM tiene un mejor desempeño.
En el segundo experimento (E2), la cantidad de nodos en la capa oculta es mayor. Por lo tanto, las capacidades de desempeño del ELM son altas (aprendices fuertes), por lo que este modelo logra resultados competitivos. Al mismo tiempo, el conjunto GBRELM no puede aprovechar su arquitectura de conjunto para mejorar su desempeño. Como conjunto clásico, su rendimiento aumenta cuando se utilizan alumnos débiles y disminuye cuando se utilizan alumnos complejos.
En ambos experimentos, se analizará el desempeño de las metodologías en los conjuntos de datos según su tamaño. Asimismo, para los problemas de clasificación se examinará el número de clases y el ratio de desequilibrio, calculado como el ratio resultante de dividir el número de patrones de la clase mayoritaria por el número de patrones de la clase minoritaria.
La idea subyacente es demostrar que GGBRELM supera a ELM, GBRELM y KBRELM en ambos escenarios experimentales comparándolos en problemas de regresión y clasificación y realizando un análisis de acuerdo con diferentes propiedades del conjunto de datos.
La validación experimental se realizó en 71 conjuntos de datos de clasificación y 52 conjuntos de datos de regresión, respectivamente. Esta selección se llevó a cabo para incluir en los conjuntos de datos de referencia varios tipos de problemas de clasificación/regresión en términos de su campo de aplicación, su tamaño (producto del número de patrones por el número de atributos), su número de clases y su desequilibrio. relación. Las tablas 1 y 2 muestran un resumen de las principales características de los conjuntos de datos seleccionados: número de identificación (ID), que se ha asignado ordenando los conjuntos de datos de mayor a menor tamaño, nombre (Dataset), número de instancias (#Inst. ), atributos (#Attr.) y tamaño (Size). Según su tamaño, las bases de datos se han dividido en grandes (tamaño > 100000), medianas (10000 < tamaño < 100000) y pequeñas (tamaño < 10000). El número de clases (#Classes), su distribución (Class Distribution) y el ratio de desequilibrio (IR) también se han incluido en la caracterización de los conjuntos de datos del problema de clasificación (Tabla 1). Los conjuntos de datos desequilibrados (IR > 2) también se han subrayado para su posterior análisis. Desde aquí hasta el final, los conjuntos de datos se anotan según su ID. Si bien los conjuntos de datos de clasificación se extraen del Repositorio de Aprendizaje Automático de la UCI48, los problemas de referencia de regresión provienen de diferentes repositorios de aprendizaje automático: UCI, Departamento de Estadística de la Universidad de Florida49 y LIACC50.
El método propuesto ha sido evaluado comparando sus resultados con respecto a otras propuestas ELM de última generación recientes. Los métodos de comparación se describen brevemente a continuación:
Extreme Learning Machine (ELM)12 (descrita en la sección “Máquina de aprendizaje extremo”). En la implementación del modelo, los pesos y el sesgo en la capa oculta se generaron aleatoriamente siguiendo una distribución uniforme. Por el contrario, los pesos de salida se optimizaron utilizando el problema de minimización ELM con regularización \(L_{2}\).
BRELM generalizado (GBRELM) (una versión que combina el algoritmo descrito en la sección “Impulso de la máquina de aprendizaje extrema de Ridge” con la generalización de funciones de mapeo \({\textbf{h}}^{(s)}\)). Este trabajo compara la versión generalizada de Boosting Ridge para Extreme Learning Machine ya que introduce variabilidad en el modelo. Por lo tanto, no tendría sentido compararlo con una versión más simple donde todos los elementos del conjunto tienen la misma capa de entrada.
BRELM Global Generalizado (GGBRELM) (descrito en la Sección “Metodología de la propuesta”). La metodología propuesta mejora la arquitectura original secuencial de Generalized Boosting Ridge con un enfoque global.
Núcleo BRELM (KBRELM)39. Para comparar nuestra propuesta con una metodología más reciente en la literatura, también hemos agregado un conjunto Boosting Ridge utilizando como base los estudiantes Kernel Ridge Regression, como en 39. Este método funciona como el Boosting Ridge secuencial para ELM presentado en la sección “Regresión de Boosting Ridge”, pero utiliza el truco del kernel en lugar del mapeo neuronal. Para ello se utilizó kernel gaussiano, con hiperparámetro \(\gamma\),
El rendimiento de los métodos de comparación depende críticamente de la configuración de dos hiperparámetros: el parámetro de regularización, C, y el número de nodos ocultos, D. El hiperparámetro C se determinó mediante una búsqueda en cuadrícula en una validación cruzada anidada de 5 veces. El valor óptimo del parámetro de regularización para todos los métodos de comparación se determinó con la siguiente cuadrícula: \(C \in \{ 10^{-2}, 10^{-1}, 1, 10, 10^2 \}\) . El número de nodos ocultos, D, en todos los modelos se estableció en \(D = 10\) para el primer experimento y \(D = 1000\) para el segundo. En el caso del método KBRELM, el parámetro \(\gamma\) necesita una validación cruzada, por lo que se ha determinado con la grilla \(\gamma \in \{ 10^{-2}, 10^{-1} , 1, 10, 10^2 \}\). El tamaño del conjunto para todos los métodos de conjunto se estableció en 10 alumnos de base.
Los resultados experimentales se obtuvieron mediante un procedimiento de validación cruzada de 10 veces, con 3 repeticiones por vez. Por lo tanto, se obtuvieron 30 medidas de error para todos los métodos comparados, lo que garantiza una significación estadística adecuada de los resultados. Las particiones fueron las mismas para todos los modelos comparados. Los valores de entrada se estandarizaron, las etiquetas de regresión se escalaron a [0, 1] y las etiquetas de clase se binarizaron, siguiendo la codificación “1 a J”51.
Las métricas utilizadas para la validación del desempeño fueron todas métricas estándar en sus entornos, es decir, métricas estándar y conocidas para problemas de clasificación y regresión. En este sentido, la simplicidad y el éxito de la aplicación de la tasa de precisión (Acc) han permitido que sea ampliamente utilizada como medida de desempeño para problemas de clasificación. Sin embargo, Acc no es adecuado para conjuntos de datos desequilibrados, lo cual es una de las grandes desventajas al utilizar la métrica de precisión. Como se ve en la Tabla 1, hay un total de 35 conjuntos de datos con un IR superior a 2, que es el valor umbral considerado en este trabajo. Por lo tanto, es más apropiado utilizar precisión equilibrada (\(Balanced\;Accuracy\)), que es igual a la precisión en conjuntos de datos equilibrados y considera el desequilibrio de clases cuando existe. Además, también se han utilizado otras dos métricas de clasificación, Precisión (Precision) y Medida F (F1), porque son útiles en escenarios equilibrados y desequilibrados.
Ante un problema de clasificación binaria (patrones positivos y negativos), se considera:
Verdaderos positivos (TP): patrones positivos predichos como positivos.
Falsos negativos (FN): patrones positivos predichos como negativos.
Falsos positivos (FP): patrones falsos predichos como positivos.
Verdadero negativo (TN): patrones falsos predichos como negativos.
Luego, estas métricas de rendimiento de clasificación se definen matemáticamente de la siguiente manera:
\(Equilibrado\;Exactitud\) es la media de Sensibilidad y Especificidad. Los conjuntos de datos desequilibrados se pueden abordar utilizando el promedio de Sensibilidad y Especificidad. Si un modelo solo predice con precisión para la clase mayoritaria en el conjunto de datos, recibirá una puntuación \(Equilibrada\;Precisión\) peor:
La precisión es el porcentaje de patrones positivos predichos como positivos con respecto al total de patrones positivos predichos:
F1 es la media armónica de Precisión y Recuperación:
Para problemas de varias clases, las métricas se calculan comparando una clase con todas las demás. La clase elegida se considera positiva, mientras que las demás son negativas. Este enfoque permite obtener un valor métrico para cada una de las clases. Luego se obtiene el valor medio.
La raíz del error cuadrático medio (RMSE) y el coeficiente de determinación (\(R^2\)) son las principales medidas en la validación de un algoritmo para problemas de regresión:
RMSE es la desviación estándar de las diferencias entre los valores previstos y objetivo, y se define como:
donde \(\hat{{\textbf{y}}}\left( {\textbf{x}}_{n}\right)\) es el valor predicho para el patrón \({\textbf{x}}_{ n}\), y \({y}_{n}\), el real.
\(R^2\) es el coeficiente de determinación que representa la proporción de la variación en la variable dependiente que es predecible a partir de las variables independientes.
donde \({\textbf{y}}\) y \(\hat{{\textbf{y}}}\), son los valores reales y predichos, respectivamente.
Para demostrar que el modelo GGBRELM es un método prometedor en su campo, es crucial validar su desempeño con respecto al de los métodos de comparación con pruebas estadísticas. Para ambos experimentos y para cada métrica, se aplicó una prueba pre hoc con las evaluaciones de los métodos en los diferentes conjuntos de datos para evaluar la significación estadística de las diferencias de rango. Para las evaluaciones en las que la prueba detectó diferencias estadísticas en las clasificaciones de los métodos, se realizó una prueba post hoc para determinar qué modelos se distinguen entre las múltiples comparaciones realizadas utilizando el método de mejor rendimiento como método de control. Para ello se aplicaron pruebas no paramétricas. Primero, se llevaron a cabo pruebas no paramétricas de Friedman52, con clasificación \(Balanced\;Accuracy\), Precisión y F1 (clasificación), y RMSE y \(R^2\) (regresión) de los modelos como variables de prueba, para \( \alfa = 0,05\). Luego, se implementó la prueba post-hoc no paramétrica de Holm53 para determinar si el método de control, el GGBRELM, supera estadísticamente a los métodos de comparación considerando \(\alpha = 0.05\) y tomando en cuenta cada métrica.
Esta sección incluye el análisis de los resultados experimentales obtenidos en los conjuntos de datos seleccionados. Esta parte del artículo se ha dividido en dos secciones según los conjuntos de datos de clasificación y regresión. En aras de la concisión, se ha optado por proporcionar sólo los gráficos relevantes y un resumen de los resultados estadísticos.
Los rendimientos de generalización de los métodos considerados para E1 (\(D=10\)) y E2 (\(D=1000\)) en conjuntos de datos de clasificación se muestran en las Figs. 2 y 3, respectivamente ((a) \(Equilibrado\;Exactitud\), (b) Precisión, (c) F1). En esas figuras, el eje Y representa el valor de la métrica informada, mientras que el eje X contiene los ID de los conjuntos de datos ordenados por tamaño. Si GGBRELM es el mejor para un conjunto de datos, su ID aparece en negrita y, si es el segundo mejor, aparece en cursiva. Por último, los conjuntos de datos desequilibrados se marcan con un subrayado. Para el caso de todas las métricas de clasificación, cuanto más alto esté el punto en el gráfico, mejor será el rendimiento de ese método ya que el objetivo es maximizar estas métricas.
Como regla general, se puede observar que la metodología GGBRELM supera a los otros enfoques en \(Equilibrado\;Exactitud\), Precisión y F1 en ambos experimentos. Significativamente, la diferencia es mayor en aquellos conjuntos de datos donde todas las metodologías no logran buenos resultados.
Gráfico de rendimiento de métricas para conjuntos de datos de clasificación usando D = 10. El eje Y representa el valor de la métrica, mientras que el eje X contiene los ID de los conjuntos de datos ordenados por tamaño. Si GGBRELM es el mejor para ese conjunto de datos, su ID aparece en negrita y, si es el segundo mejor, aparece en cursiva. Por último, los conjuntos de datos desequilibrados se marcan con un subrayado.
Gráfico de rendimiento de métricas para conjuntos de datos de clasificación utilizando D = 1000. El eje Y representa el valor de la métrica, mientras que el eje X contiene los ID de los conjuntos de datos ordenados por tamaño. Si GGBRELM es el mejor para ese conjunto de datos, su ID aparece en negrita y, si es el segundo mejor, aparece en cursiva. Por último, los conjuntos de datos desequilibrados se marcan con un subrayado.
En particular, en E1, al comparar \(Equilibrado\;Precisión\), GGBRELM tiene un mejor desempeño en 31 conjuntos de datos y es el segundo mejor en 36, lo que representa casi el número total de bases de datos. En precisión, es el mejor en 36 conjuntos de datos y el segundo en 30. Además, para la F1, GGBRELM también es el mejor en 36 conjuntos de datos y el segundo en 27. GBRELM y KBRELM tienen un rendimiento similar en cuanto al número de bases de datos en las que son los mejores o los segundos. Según la literatura, el rendimiento de ELM es inferior al de los enfoques de conjunto.
Además, en el experimento E2, donde los clasificadores están configurados con una gran cantidad de neuronas en la capa oculta, el ELM se vuelve más especializado. Por lo tanto, su rendimiento mejora y debería superar a los métodos de conjunto debido a sus desventajas cuando se utilizan alumnos de base sólida, como la saturación o el sobreajuste. Sin embargo, si bien es cierto que GBRELM y KBRELM obtienen peores resultados que ELM, GGBRELM supera esta desventaja de los métodos de naturaleza de conjuntos obteniendo resultados más precisos. Por lo tanto, GBBRELM logra el mejor resultado en 27, 30 y 28 conjuntos de datos en términos de \(Equilibrado\;Precisión\), Precisión y F1, respectivamente, y el segundo mejor en 31, 30 y 30 conjuntos de datos. Por lo tanto, la metodología propuesta también es mejor que los tres métodos comparados, como se muestra en la Fig. 3.
Como se mencionó anteriormente, se han realizado un conjunto de pruebas estadísticas para analizar los resultados de los contrastes de hipótesis estadísticas, resumiendo los resultados en la Tabla 3. Para las pruebas de Friedman y un nivel de significancia \(\alpha = 5\%\), la El intervalo de confianza es \(C_0 = (0, F_{0.05} = 2.65)\), y el valor estadístico de la distribución F considerando las clasificaciones \(Balanced\;Accuracy\) es \(F^* = 27.80\), considerando Precisión ranking es \(F^* = 31.69\) y teniendo en cuenta F1 es \(F^* = 22.73\) en el experimento E1 (D = 10), mientras que en el experimento E2 (D = 1000), \(F ^* = 15\), \(F^* = 10,76\) y \(F^* = 9,89\), respectivamente. En consecuencia, en ambos experimentos, la prueba rechaza la hipótesis nula que establece que todos los algoritmos funcionan igualmente en la clasificación media de \(Equilibrado\;Precisión\), Precisión y F1. Es decir, el efecto del algoritmo es estadísticamente significativo. Por este motivo, se considera el método de mejor rendimiento como método de control para una prueba post-hoc, comparando este algoritmo con el resto de métodos. De esta forma, en la Tabla 3 también se muestran los resultados de la prueba de Holm. Al utilizar GGBRELM como algoritmo de control (CA), la prueba de Holm muestra que \(p_i < \alpha ^*_i\) en todos los casos, para \(\alpha =0.05\), confirmando que existen diferencias estadísticamente significativas a favor de GGBRELM en ambos experimentos y para cada métrica.
Como se mencionó anteriormente, los conjuntos de datos se ordenaron en orden decreciente de tamaño y se dividieron en tres categorías según él, como se muestra en la Tabla 1: 17 conjuntos de datos grandes (ID 1-17), 25 medianos (ID 18-42) y 29 pequeños (ID 43-71).
En cuanto a E1, para conjuntos de datos grandes, GGBRELM es el mejor en 8 conjuntos de datos y el segundo en los restantes para todas las métricas. Es el mejor en 12, 13 y 13 conjuntos de datos medianos y el segundo en 11, 10 y 9 según \(Balanced\;Accuracy\), Precision y F1, respectivamente. Para conjuntos de datos pequeños, los mejores resultados se logran en los conjuntos de datos 11, 15 y 15, y los segundos mejores en los conjuntos de datos 16, 11 y 9, dependiendo de la métrica analizada.
Para el caso de E2, para conjuntos de datos grandes, GGBRELM es el mejor en 11, 10 y 9 y el segundo mejor en 4, 6 y 7. Para conjuntos de datos medianos, los mejores se obtienen en 6, 10 y 9, mientras que los segundos mejores los resultados se logran en 14, 11 y 10. Finalmente, los mejores resultados se obtienen en 10 y los segundos mejores en 13 pequeños conjuntos de datos en todas las métricas.
Como puede verse, independientemente del tamaño, el método GGBRELM funciona bastante bien. Sin embargo, tanto para E1 como para E2, los mejores resultados se concentran en los grandes conjuntos de datos, siendo el mejor o el segundo mejor método en casi todas las métricas de ambos experimentos. En los conjuntos de datos más pequeños la mejora de la propuesta no es tan notoria como en el resto. Tiene sentido ya que son bases de datos sin dificultad y son más fáciles de resolver por cualquier método.
En la validación experimental, hay un total de 35 conjuntos de datos desequilibrados. Como se indicó, para cada base de datos de clasificación, el IR se ha calculado como la relación entre el número de patrones en la clase mayoritaria y el número de patrones en la clase minoritaria. El IR se ha informado en la Tabla 1, subrayando esos conjuntos de datos con un \(IR>2\). Además, en las Figs. 2 y 3, los ID de estos conjuntos de datos desequilibrados también se han subrayado, lo que facilita la discusión de los resultados al tenerlos en cuenta.
Considerando el primer experimento con D establecido en 10, GGBRELM logra el mejor resultado en 13 conjuntos de datos y el segundo mejor en 18, lo que da como resultado casi el número total de bases de datos, considerando la métrica \(Equilibrada\;Precisión\). Lo mismo ocurre con las otras dos métricas, siendo el mejor en 15 y el segundo mejor en 15 para Precisión y obteniendo los mejores resultados en 16 y el segundo mejor en 11 con F1. En este caso, cabe señalar que el segundo método sería GBRELM en promedio para las tres métricas. Aunque KBRELM obtiene el mejor resultado en muchas bases de datos, este mostró un comportamiento inestable ya que es muy bueno o el peor, dependiendo del conjunto de datos.
En cuanto a E2, lo mismo ocurre con GGBRELM, siendo el mejor método para las tres métricas en 9, 13 y 12 conjuntos de datos, respectivamente, y el segundo mejor método en 18, 16 y 13. Es importante señalar que para conjuntos de datos desequilibrados, El método GBRELM tiene aproximadamente el mismo rendimiento promedio en todas las métricas con respecto a ELM, pero ELM sigue siendo ligeramente mejor que GBRELM.
De este análisis, se puede concluir que el método GGBRELM propuesto no sólo funciona bien en todas las métricas para todas las bases de datos, sino que también es el más apropiado para conjuntos de datos desequilibrados.
De la columna #Clases en la Tabla 1 y las Figs. 2 y 3 se puede analizar la influencia del número de clases en los resultados obtenidos.
Así, para E1 y los 44 problemas binarios, GGBRELM es el mejor algoritmo en promedio ya que es el mejor en 26, 27 y 28 bases de datos dependiendo de la métrica analizada (\(Balanced\;Accuracy\), Precisión y F1). Además, es el segundo mejor con 16, 14 y 11, respectivamente. En el caso de problemas multiclase, y específicamente a medida que aumenta el número de clases, KBRELM funciona de manera similar a GGBRELM en este experimento. Esto se puede explicar porque cuanto mayor es el número de clases, más complejo se vuelve el problema, y los algoritmos con mayor número de conexiones se benefician, como es el caso de los kernels.
Sin embargo, para el caso de E2, es decir, cuando GGBRELM cuenta con más neuronas en sus clasificadores base, los resultados indican que se desempeña mejor en promedio que el resto de algoritmos en problemas binarios y multiclase en todas las métricas. Así, en problemas binarios, GGBRELM es el mejor en 20, 22 y 21, y el segundo en 14, 13 y 13, respectivamente. Para el caso de problemas con un número de clases más importante, es el mejor en 7, 8 y 7 y el segundo mejor en prácticamente las restantes, siendo el mejor algoritmo de media.
El rendimiento de los métodos considerados para E1 (\(D=10\)) y E2 (\(D=1000\)) en conjuntos de datos de regresión se muestran en las Figs. 4 y 5, respectivamente ((a) RMSE, (b) \(R^2\)). Al igual que en los conjuntos de datos de clasificación, el eje Y representa el valor de la métrica informada, mientras que el eje X contiene los ID de los conjuntos de datos ordenados por tamaño. Si GGBRELM es el mejor para un conjunto de datos, su ID aparece en negrita y, si es el segundo mejor, aparece en cursiva. Para el caso de la métrica RMSE, cuanto más bajo esté ubicado el punto en el gráfico, mejor rendimiento tendrá ese método ya que el objetivo es minimizar esta métrica. Lo contrario ocurre en la métrica \(R^2\) porque debe maximizarse.
Gráfico de rendimiento de métricas para conjuntos de datos de regresión usando D = 10. El eje Y representa el valor de la métrica, mientras que el eje X contiene los ID de los conjuntos de datos ordenados por tamaño. Si GGBRELM es el mejor para ese conjunto de datos, su ID aparece en negrita y, si es el segundo mejor, aparece en cursiva.
Gráfico de rendimiento de métricas para conjuntos de datos de regresión usando D = 1000. El eje Y representa el valor de la métrica, mientras que el eje X contiene los ID de los conjuntos de datos ordenados por tamaño. Si GGBRELM es el mejor para ese conjunto de datos, su ID aparece en negrita y, si es el segundo mejor, aparece en cursiva.
Los hallazgos demuestran sin ambigüedades que la metodología GGBRELM supera a los enfoques alternativos en ambos experimentos y en ambas métricas. Esta distinción es especialmente evidente en conjuntos de datos donde las otras metodologías exhiben un rendimiento subóptimo.
Así, en el caso de E1, GGBRELM es el mejor método en 44 conjuntos de datos y el segundo mejor en 4 conjuntos de datos en términos de RMSE. Además, es el mejor método en 43 conjuntos de datos y el segundo mejor en 5 conjuntos de datos al comparar \(R^2\). Con una cantidad baja de neuronas, GBRELM también supera a ELM ya que aprende débilmente. Sin embargo, KBRELM no parece funcionar bien en problemas de esta naturaleza, siendo el peor regresor de los cuatro métodos.
Además, en el experimento E2, GGBRELM supera la desventaja de los métodos de naturaleza de conjunto al obtener resultados más precisos con respecto a RMSE y \(R^2\). Por lo tanto, GGBRELM logra el mejor rendimiento RMSE en 34 conjuntos de datos y el segundo mejor en 14. De manera similar, obtiene el mejor \(R^2\) en 28 conjuntos de datos y el segundo mejor en 19.
De la misma forma, al igual que en los conjuntos de datos de clasificación, se han ejecutado cuatro pruebas de Friedman que muestran el rechazo de la hipótesis nula dado que, para \(\alpha = 5\%\), el intervalo de confianza es \(C_0 = (0, F_{0.05} = 2.66)\), y los valores estadísticos para RMSE y \(R^2\) son \(F^* = 102.63\) y \(F^* = 101.97\) en E1, y \( F^* = 77,21\) y \(F^* = 91,05\) en E2 (Tabla 4). Esta tabla también muestra los resultados de la prueba de Holm comparando RMSE y \(R^2\). Nuevamente, al utilizar GGBRELM como algoritmo de control (CA), la prueba de Holm muestra que \(p_i < \alpha ^*_i\) en todos los casos, para \(\alpha =0.05\), confirmando que existen diferencias estadísticamente significativas a favor GGBRELM tanto en experimentos como en métricas.
Los conjuntos de datos de regresión se ordenaron de mayor a menor tamaño y también se dividieron en tres categorías, como se muestra en la Tabla 2: 7 conjuntos de datos grandes (ID 1-7), 26 medianos (ID 8-33) y 29 pequeños (ID 8-33). 34-52).
Teniendo en cuenta E1, para conjuntos de datos grandes, GGBRELM es el mejor en todos los conjuntos de datos para todas las métricas. Para tamaño mediano, es el mejor en 22 en ambas métricas y el segundo en 2 y 3, respectivamente. Para conjuntos de datos pequeños, los mejores resultados se logran con 15 y 14, y el segundo mejor en 2 conjuntos de datos en ambas métricas.
Para el caso de E2, para conjuntos de datos grandes, GGBRELM es el mejor en 6 conjuntos de datos y el segundo en 1 para ambas métricas. Para conjuntos de datos medianos, los mejores se obtienen en 19 y 11, mientras que los segundos mejores resultados se obtienen en 5 y 11. Finalmente, para conjuntos de datos pequeños, los mejores se obtienen en 9 y 11, y los segundos mejores en 8 y 7 conjuntos de datos.
En ambos experimentos el tamaño del conjunto de datos no influye ya que, en todos los casos, el algoritmo GGBRELM es mucho mejor que los demás. Sin embargo, se puede observar como en las cinco bases de datos más pequeñas, la diferencia de rendimiento de GGBRELM con respecto a los demás métodos disminuye ya que carecen de complejidad y son susceptibles de ser solucionadas con cualquier método.
Este artículo presenta una nueva metodología de conjunto que aborda el problema de la saturación de los alumnos de base y la caída en el rendimiento cuando se utilizan alumnos de base fuertes en el método de conjunto, evitando aumentar iterativamente el tamaño del conjunto. Para solucionar esto, este método realiza una optimización global en la metodología Boosting Ridge, utilizando modelos Extreme Learning Machine como alumnos base. El método de conjunto propuesto, Generalized Global Boosting Ridge for Extreme Learning Machine, genera un conjunto de asignaciones de capas de entrada iniciales con diferentes parámetros para sus capas ocultas. Los pesos de la capa de salida se optimizan en un solo paso, lo que reduce el error de generalización del conjunto.
Se ha llevado a cabo una experimentación completa, teniendo en cuenta 71 conjuntos de datos de clasificación, analizando su tamaño, el número de clases y la relación de desequilibrio, y 52 conjuntos de datos de regresión considerando su tamaño, todos ellos de diferentes dominios de aplicación. Los experimentos muestran que i) el método de conjunto Global Generalizado propuesto para ELM supera al Generalized Boosting Ridge en diferentes contextos, es decir, número bajo y alto de neuronas, y ii) la metodología Global Generalizada mejora los resultados de ELM cuando se especializa con un gran número de neuronas, superando la desventaja de los métodos de conjunto en estos escenarios. En lugar de depender de generar diversidad a través de alumnos débiles (bajo número de neuronas), nuestro método depende de su optimización en la predicción final del conjunto como un todo, por lo que no depende de la diversidad implícita del mapeo de neuronas ocultas.
En trabajos futuros, se planeó adaptar el marco de aprendizaje conjunto a otros estudiantes base y otros paradigmas de aprendizaje automático, como la regresión ordinal o el aprendizaje semisupervisado. Y finalmente se podría proponer la aplicación de la metodología a problemas del mundo real.
Las bases de datos utilizadas junto con el código necesario para su extracción están disponibles en https://github.com/cperales/uci-download-process. El código generado en el diseño experimental, incluida la metodología propuesta, está disponible en https://github.com/cperales/pyridge. Los resultados completos de la tabla obtenidos durante el estudio actual están disponibles del autor correspondiente previa solicitud razonable.
Huang, G.-B., Zhu, Q.-Y. y Siew, C.-K. Máquina de aprendizaje extremo: teoría y aplicaciones. Neurocomputación 70, 489–501 (2006).
Artículo de Google Scholar
Zhang, Y. et al. Máquina de aprendizaje extremo multinúcleo para clasificación EEG en interfaces cerebro-computadora. Sistema experto. Aplica. 96, 302–310 (2018).
Artículo de Google Scholar
Pan, Z., Meng, Z., Chen, Z., Gao, W. & Shi, Y. Un método de dos etapas basado en una máquina de aprendizaje extremo para predecir la vida útil restante de los rodamientos. Mec. Sistema. Proceso de señal. 144, 106899 (2020).
Artículo de Google Scholar
Zuo, E. et al. Detección rápida del origen del hinojo mediante espectroscopia de infrarrojo cercano basada en una máquina de aprendizaje extremo. Ciencia. Rep. 12, 13593 (2022).
Artículo ADS CAS PubMed PubMed Central Google Scholar
Khan, MA y cols. Predicción de la neumonía por covid-19 basada en características profundas seleccionadas y una máquina de aprendizaje extremo de núcleo de una clase. Computadora. eléctrico. Ing. 90, 106960 (2021).
Artículo PubMed Google Scholar
Ella, Q., Zou, J., Meng, M., Fan, Y. y Luo, Z. Máquina de aprendizaje extremo semisupervisada regularizada basada en gráficos equilibrados para la clasificación de EEG. En t. J. Mach. Aprender. Cibern. 12, 903–916 (2021).
Artículo de Google Scholar
Sattar, AM, Ertuğrul, Ö. F., Gharabaghi, B., McBean, EA & Cao, J. Modelo de máquina de aprendizaje extremo para la gestión de redes de agua. Computación neuronal. Aplica. 31, 157-169 (2019).
Artículo de Google Scholar
Ali, M. y col. Modelo de máquina de aprendizaje extremo secuencial en línea acoplado con un algoritmo de optimización de colonias de hormigas para la predicción del rendimiento del trigo. Ciencia. Rep. 12, 5488 (2022).
Artículo ADS CAS PubMed PubMed Central Google Scholar
Huang, G.-B., Zhou, H., Ding, X. y Zhang, R. Máquina de aprendizaje extremo para regresión y clasificación multiclase. Traducción IEEE. Sistema. Hombre. Cibern. Parte B (Cibernética) 42, 513–529 (2011).
Artículo de Google Scholar
Hecht-Nielsen, R. Teoría de la red neuronal de retropropagación. En Neural Networks for Perception 65–93 (Elsevier, EE. UU., 1992).
Capítulo Google Scholar
De Chazal, P., Tapson, J. y Van Schaik, A. Una comparación de máquinas de aprendizaje extremo y redes de retroalimentación entrenadas con retropropagación que procesan la base de datos mnist. En 2015, Conferencia Internacional IEEE sobre Acústica, Habla y Procesamiento de Señales (ICASSP) 2165–2168. (IEEE, 2015).
Huang, G.-B., Zhou, H., Ding, X. y Zhang, R. Máquina de aprendizaje extremo para regresión y clasificación multiclase. Traducción IEEE. Sistema. Hombre Cibernético. B Cibern. 42, 513–29 (2012).
Artículo PubMed Google Scholar
Miche, Y. et al. Op-elm: máquina de aprendizaje extremo optimizada. Traducción IEEE. Red neuronal. 21, 158-162 (2009).
Artículo PubMed Google Scholar
Yang, Y. & Duan, Z. Un algoritmo coevolutivo eficaz basado en colonias de abejas artificiales y evolución diferencial para la optimización de la predicción de series temporales. Inteligencia compleja. Sistema. 6, 299–308 (2020).
Artículo de Google Scholar
Li, L., Qi, S., Zhou, H. & Wang, L. Predicción de la deformación por calentamiento de líneas en chapa metálica basada en un modelo ISSA-ELM. Ciencia. Rep. 13, 1252 (2023).
Artículo ADS CAS PubMed PubMed Central Google Scholar
Khellal, A., Ma, H. & Fei, Q. Conjunto de máquinas de aprendizaje extremo para la regresión. En 2018, séptima conferencia de sistemas de aprendizaje y control basados en datos (DDCLS) de IEEE 1052–1057. (IEEE, 2018).
Zhai, J., Zhang, S., Zhang, M. y Liu, X. Conjunto de olmos difuso basado en integrales para clasificación desequilibrada de big data. Suave. Computadora. 22, 3519–3531 (2018).
Artículo de Google Scholar
Song, G. & Dai, Q. Un novedoso sistema de conjunto de olmos profundos dobles para el pronóstico de series temporales. Conocimiento. Sistema basado. 134, 31–49 (2017).
Artículo de Google Scholar
Zou, W., Yao, F., Zhang, B. y Guan, Z. Meta-olmo mejorado con olmo incremental con retroalimentación de error como nodos ocultos. Computación neuronal. Aplica. 30, 3363–3370 (2018).
Artículo de Google Scholar
Raghuwanshi, BS y Shukla, S. Clasificación de datos desequilibrados utilizando un conjunto de máquinas de aprendizaje extremo ponderadas con kernel reducido. En t. J. Mach. Aprender. Cibern. 10, 3071–3097 (2019).
Artículo de Google Scholar
Kumar, NK, Savitha, R. y Al Mamun, A. Predicción de la altura de las olas del océano mediante un conjunto de máquinas de aprendizaje extremo. Neurocomputación 277, 12-20 (2018).
Artículo de Google Scholar
Chen, Z., Jiang, C. y Xie, L. Un novedoso olmo conjunto para el reconocimiento de la actividad humana mediante sensores de teléfonos inteligentes. Traducción IEEE. Ind. Inf. 15, 2691–2699 (2018).
Artículo de Google Scholar
Chen, H., Tan, C. y Lin, Z. Conjunto de máquinas de aprendizaje extremo para la calibración multivariada de espectroscopia de infrarrojo cercano. Espectroquimia. Acta Parte A Mol. Biomol. Espectrosc. 229, 117982 (2020).
Artículo CAS Google Scholar
Xie, S. y col. Reconocimiento de cantos de pájaros basado en conjuntos de olmos con evolución diferencial multiestrategia. Ciencia. Rep. 12, 9739 (2022).
Artículo ADS CAS PubMed PubMed Central Google Scholar
Krogh, A. y col. Conjuntos de redes neuronales, validación cruzada y aprendizaje activo. Adv. Neural. inf. Proceso. Sistema. 7, 231–238 (1995).
Google Académico
Breiman, L. Predictores de embolsado. Mach. Aprender. 24, 123-140 (1996).
Artículo MATEMÁTICAS Google Scholar
Freund, Y. & Schapire, RE Una generalización teórica de decisiones del aprendizaje en línea y una aplicación al impulso. J. Computación. Sistema. Ciencia. 55, 119-139 (1997).
Artículo MathSciNet MATEMÁTICAS Google Scholar
Schaal, S. & Atkeson, CG Del aislamiento a la cooperación: una visión alternativa de un sistema de expertos. En Avances en sistemas de procesamiento de información neuronal 605–611. (NIPS, 1996).
Bühlmann, P. & Yu, B. Impulsar con la pérdida l2: regresión y clasificación. Mermelada. Estadística. Asociación. 98, 324–339 (2003).
Artículo MATEMÁTICAS Google Scholar
Singhal, Y., Jain, A., Batra, S., Varshney, Y. y Rathi, M. Revisión del rendimiento de clasificación de embolsado e impulso en clasificación binaria desequilibrada. En 2018, IEEE, octava Conferencia Internacional de Computación Avanzada (IACC) 338–343. (IEEE, 2018).
Ko, AH, Sabourin, R., De Oliveira, LE y De Souza Britto, A. La implicación de la diversidad de datos para una selección de conjuntos sin clasificador en subespacios aleatorios. En la XIX Conferencia Internacional sobre Reconocimiento de Patrones 2251–2255. (CIPR, 2008).
Tutz, G. & Binder, H. Impulsar la regresión de crestas. Computadora. Estadística. Análisis de datos. 51, 6044–6059 (2007).
Artículo MathSciNet MATEMÁTICAS Google Scholar
Kodahl, AR y cols. Nueva firma de microARN circulante como posible prueba de marcadores múltiples no invasiva en el cáncer de mama en etapa temprana con RE positivo: un estudio de casos y controles. Mol. Oncol. 8, 874–883 (2014).
Artículo CAS PubMed PubMed Central Google Scholar
Binder, H. & Schumacher, M. Incorporación de información de rutas para impulsar la estimación de modelos de predicción de riesgos de alta dimensión. Bioinformación de BMC. 10, 1-11 (2009).
Artículo de Google Scholar
Tollenaar, N. & van der Heijden, PGM Optimización del rendimiento predictivo de modelos de reincidencia delictiva utilizando datos de registro con resultados binarios y de supervivencia. MÁS UNO 14, 1–37 (2019).
Artículo de Google Scholar
Brown, G., Wyatt, JL y Tiňo, P. Gestión de la diversidad en conjuntos de regresión. J. Mach. Aprender. Res. 6, 1621-1650 (2005).
MathSciNet MATEMÁTICAS Google Scholar
Cai, Y., Liu, X., Zhang, Y. & Cai, Z. Conjunto jerárquico de máquinas de aprendizaje extremo. Reconocimiento de patrones. Letón. 116, 101–106 (2018).
ADS del artículo Google Scholar
Xue, X., Yao, M., Wu, Z. y Yang, J. Conjunto genético de máquina de aprendizaje extremo. Neurocomputación 129, 175–184. https://doi.org/10.1016/j.neucom.2013.09.042 (2014).
Artículo de Google Scholar
Lin, S.-B., Lei, Y. y Zhou, D.-X. Regresión de la cresta del núcleo mejorada: tasas de aprendizaje óptimas y parada temprana. J. Mach. Aprender. Res. 20, 1738-1773 (2019).
MathSciNet MATEMÁTICAS Google Scholar
Sun, T. y Zhou, Z.-H. Diversidad estructural para el aprendizaje conjunto de árboles de decisión. Frente. Computadora. Ciencia. 12, 560–570 (2018).
Artículo de Google Scholar
Dietterich, TG Métodos de conjunto en aprendizaje automático. En el Taller internacional sobre sistemas de clasificadores múltiples 1–15 (Springer, 2000).
Ran, Y. et al. Impulsando la máquina de aprendizaje extrema de Ridge. En actas: Simposio IEEE sobre robótica y aplicaciones de 2012, ISRA 2012 881–884 (2012).
Deng, W., Zheng, Q. y Chen, L. Máquina de aprendizaje extremo regularizada. En 2009, Simposio IEEE sobre inteligencia computacional y minería de datos 389–395. (IEEE, 2009).
Castaño, A., Fernández-Navarro, F. & Hervás-Martínez, C. PCA-ELM: A robust and pruned extreme learning machine approach based on principal component analysis. Neural Process. Lett. 37, 377–392 (2013).
Artículo de Google Scholar
Cervellera, C. & Macciò, D. Puntos de baja discrepancia para la asignación determinista de pesos ocultos en máquinas de aprendizaje extremo. Traducción IEEE. Red neuronal. Aprender. Sistema. 27, 891–896 (2015).
Artículo MathSciNet PubMed Google Scholar
Cook, SA Una visión general de la complejidad computacional. Comunitario. ACM 26, 400–408 (1983).
Artículo MathSciNet MATEMÁTICAS Google Scholar
Durán-Rosal, AM, Durán-Fernández, A., Fernández-Navarro, F. & Carbonero-Ruz, M. Un modelo de clasificación multiclase con resultados objetivo parametrizados para redes neuronales feedforward basadas en aleatorización. Aplica. Computación suave. 133, 109914 (2023).
Artículo de Google Scholar
Dua, D. & Graff, C. Repositorio de aprendizaje automático de la UCI (2017).
Ganador, L. Conjuntos de datos varios (2020).
Torgo, L. Conjuntos de datos de regresión (2020).
Harris, D. Diseño digital y arquitectura informática (Elsevier/Morgan Kaufmann, Ámsterdam, 2012).
Google Académico
Friedman, M. Una comparación de pruebas de significancia alternativas para el problema de las clasificaciones m. Ana. Matemáticas. Estadística. 11, 86–92 (1940).
Artículo MathSciNet MATEMÁTICAS Google Scholar
Demšar, J. Comparaciones estadísticas de clasificadores en múltiples conjuntos de datos. J. Mach. Aprender. Res. 7, 1–30 (2006).
MathSciNet MATEMÁTICAS Google Scholar
Descargar referencias
Este trabajo fue totalmente financiado por los fondos de investigación de la “Universidad Loyola Andalucía”.
Department of Quantitative Methods, Universidad Loyola Andalucía, Córdoba, Spain
Carlos Peralez-González, Javier Pérez-Rodríguez & Antonio M. Durán-Rosal
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
CPG y AMDR procesaron los datos experimentales; CPG realizó el análisis y la implementación; JPR diseñó las figuras; AMDR y JPR participaron en la planificación y supervisión del trabajo; Todos los autores escribieron y revisaron el manuscrito.
Correspondence to Javier Pérez-Rodríguez.
Los autores declaran no tener conflictos de intereses.
Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.
Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.
Reimpresiones y permisos
Peralez-González, C., Pérez-Rodríguez, J. & Durán-Rosal, AM Boosting ridge para la máquina de aprendizaje extremo optimizada globalmente para problemas de clasificación y regresión. Representante científico 13, 11809 (2023). https://doi.org/10.1038/s41598-023-38948-3
Descargar cita
Recibido: 21 de marzo de 2023
Aceptado: 18 de julio de 2023
Publicado: 21 de julio de 2023
DOI: https://doi.org/10.1038/s41598-023-38948-3
Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:
Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.
Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt
Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.