Predecir las eficiencias de inhibición de la corrosión de pequeñas moléculas orgánicas utilizando datos
npj Materials Degradation volumen 7, Número de artículo: 64 (2023) Citar este artículo
286 Accesos
Detalles de métricas
Seleccionar inhibidores de corrosión eficaces del vasto espacio químico no es una tarea trivial, ya que es esencialmente infinita. Afortunadamente, las técnicas de aprendizaje automático han demostrado un gran potencial para generar listas cortas de candidatos a inhibidores antes de realizar pruebas experimentales a gran escala. En este trabajo, utilizamos las respuestas a la corrosión de 58 pequeñas moléculas orgánicas en la aleación de magnesio AZ91 y utilizamos descriptores moleculares derivados de sus cálculos de geometría y teoría funcional de densidad para codificar su información molecular. Se aplicaron métodos estadísticos para seleccionar las características más relevantes de la propiedad objetivo para los modelos de regresión de vector de soporte y regresión de cresta de núcleo, respectivamente, para predecir el comportamiento de compuestos no probados. Se comparó el rendimiento de los dos enfoques de aprendizaje supervisado y se evaluó la solidez de los modelos basados en datos mediante pruebas experimentales ciegas.
El magnesio (Mg), el metal estructural más ligero, es un material prometedor en la ingeniería automotriz y aeronáutica debido a sus excelentes propiedades mecánicas, así como en la industria médica debido a su biocompatibilidad1,2,3. Sin embargo, los materiales a base de Mg deben protegerse de la corrosión para facilitar su aplicación en aplicaciones de ingeniería avanzada, ya que el Mg es un metal altamente reactivo. Los revestimientos de superficies representan una estrategia confiable y efectiva para lograr la protección contra la corrosión del Mg agregando una capa de barrera entre el sustrato y el entorno de servicio3,4,5. Sin embargo, los rayones o grietas en la capa protectora pueden provocar reacciones de corrosión locales graves6. Esto se puede mitigar incorporando inhibidores de corrosión en los recubrimientos que se liberarán cuando sea necesario e inhibirán la corrosión en las áreas dañadas6,7,8. Cabe señalar que la incrustación directa de inhibidores de corrosión en una matriz de recubrimiento9 puede afectar su funcionalidad mediante una liberación nula o limitada10,11 o puede liberar todos los inhibidores de corrosión a la vez sin control una vez que ocurre un defecto12. La aplicación de hidróxidos dobles en capas (LDH) intercalados con inhibidores de corrosión es una de las rutas prometedoras para lograr una protección activa contra la corrosión controlable12,13,14. Una LDH es una arcilla inorgánica en forma de lámina con una estructura de brucita en su forma pura de Mg(OH)2. Gracias a la propiedad de intercambio aniónico de la estructura LDH, los inhibidores de corrosión pueden intercalarse en esta estructura en capas y su liberación puede desencadenarse posteriormente intercambiándola con una especie corrosiva agresiva (por ejemplo, cloruro) para suprimir las reacciones de corrosión12. Aparte de los inhibidores de corrosión inorgánicos comúnmente intercalados en los LDH, como vanadato12, tungstato15 y molibdato16, los inhibidores de corrosión orgánicos han ganado cada vez más atención recientemente porque una gran cantidad de compuestos orgánicos han mostrado una inhibición prometedora de la corrosión para el Mg y sus aleaciones7. Además, se ha demostrado que pequeñas moléculas orgánicas pueden intercalarse en LDH17,18,19.
Sin embargo, los estudios puramente experimentales sobre la intercalación de nuevas moléculas orgánicas en LDH pueden llevar mucho tiempo, especialmente si se considera el gran número de moléculas candidatas entre las que elegir20. Aparte de eso, la identificación de un inhibidor de corrosión orgánico eficaz que se intercalará en los LDH (ver Fig. 1) para proteger un tipo específico de aleación de Mg puede ser un gran desafío debido a la gran cantidad de compuestos orgánicos con propiedades potencialmente útiles21. Afortunadamente, los enfoques basados en el aprendizaje automático prometen facilitar la detección de compuestos útiles.
Representación esquemática de un sistema de doble hidróxido en capas con una gran cantidad de candidatos a inhibidores orgánicos.
El aprendizaje automático (ML) se ha desarrollado rápidamente en los últimos años debido al aumento de algoritmos y avances tecnológicos en el hardware informático22. Si bien influyen en nuestra vida diaria23,24, los algoritmos de aprendizaje automático también han adquirido un papel importante en la ciencia de los materiales25,26. Se han aplicado diferentes algoritmos en el descubrimiento de materiales, como la predicción de compuestos27,28,29, la predicción de estructuras30,31 y la predicción de propiedades de materiales como la banda prohibida32, la superconductividad33, los módulos de masa y de corte34 y para identificar inhibidores de corrosión eficaces basados en relaciones cuantitativas estructura-propiedad ( QSPR)35,36. Para este último, se desarrollaron con éxito varios algoritmos diferentes de aprendizaje automático (p. ej., redes neuronales, regresión de crestas del núcleo y bosques aleatorios)21,37,38 para predecir el efecto inhibidor de la corrosión de pequeños compuestos orgánicos para diferentes tipos de Mg y sus aleaciones7 ,21,37, Aleaciones de aluminio35,36,39 y Materiales a base de cobre40. Naturalmente, un conjunto de datos de entrenamiento suficientemente grande, diverso y confiable y un marco de modelado adecuado (generalmente basado en uno o más algoritmos de aprendizaje automático) son dos de los requisitos previos cruciales para el desarrollo de modelos QSPR predictivos. Un tercer paso clave es la selección de características de entrada relevantes que pueden seleccionarse mediante intuición química38 o basándose en métodos estadísticos37. Los bosques aleatorios (RF) han demostrado ser un algoritmo útil para abordar problemas de selección de características debido a su capacidad para calcular la importancia de cada característica41. Por otro lado, se ha demostrado que la presencia de características correlacionadas afecta su capacidad para identificar características importantes, lo que potencialmente reduce su precisión42,43,44. Para abordar este problema, se utiliza comúnmente una combinación de bosques aleatorios y eliminación recursiva de características (RFE)43,44 y su potencial para seleccionar características relevantes para modelar eficiencias de inhibición de la corrosión (IE) de pequeñas moléculas orgánicas se ha demostrado en un estudio reciente37.
En este trabajo, se utilizaron las respuestas de inhibición de la corrosión de 58 pequeñas moléculas orgánicas en la aleación de Mg AZ91 de un trabajo anterior7 para entrenar un modelo QSPR. AZ91 fue el sustrato seleccionado en este estudio porque nuestro trabajo experimental anterior45 demostró que las LDH se pueden sintetizar directamente en la superficie de esta aleación como una capa de conversión. Las eficiencias de inhibición de la corrosión de las muestras en el conjunto de datos utilizado muestran una variación mayor que las utilizadas en otros modelos de predicción de aleaciones de Mg21,37,38 hasta ahora, lo que hace necesario el uso de un algoritmo de aprendizaje automático con buenas capacidades de generalización. Un algoritmo potencial que se puede emplear para establecer el flujo de trabajo QSPR son las máquinas de vectores de soporte (SVM), que representan uno de los métodos de aprendizaje supervisado más potentes, precisos y robustos debido a sus buenos fundamentos teóricos y capacidad de generalización46,47. Se han aplicado ampliamente para resolver diversos problemas complejos del mundo real, como: clasificación de imágenes48, reconocimiento de caracteres escritos a mano49 y detección de rostros50 en los últimos veinte años46. Aplicando el mismo principio que las SVM, se desarrolló la regresión de vectores de soporte (SVR) para resolver problemas de regresión con alta precisión51,52,53. SVR52 se ha utilizado para desarrollar un modelo predictivo para investigar la influencia del ambiente exterior en las tasas de corrosión de materiales metálicos54,55. Además, Liu et al.56 desarrollaron un modelo QSPR basado en SVR para acero Q235 utilizando un número limitado de compuestos orgánicos, lo que demuestra que SVR es muy adecuado para conjuntos de datos pequeños. Sin embargo, el uso de pequeños conjuntos de datos de entrenamiento puede provocar un sobreajuste y la validación de la predicción es una parte esencial del desarrollo del modelo. Por lo tanto, se eligió SVR para la construcción del modelo QSPR en este trabajo para investigar su aplicabilidad para conjuntos de datos basados en Mg, y la calidad de las predicciones se evaluó mediante pruebas experimentales ciegas. Además, ya se han aplicado enfoques basados en la regresión de la cresta del núcleo (KRR)57,58 para predecir el efecto de pequeñas moléculas orgánicas en el comportamiento de corrosión del Mg21 comercialmente puro. Como resultado, se eligió el enfoque KRR como punto de referencia para comparar el desempeño del modelo SVR. A diferencia de los modelos existentes36,37,38, donde el número de características seleccionadas utilizadas para construir el modelo se eligió manualmente, en este trabajo se propuso un método de selección de características de dos pasos, donde el número óptimo de características está determinado por el modelo. Al final, el modelo QSPR desarrollado en este trabajo puede ayudar a seleccionar un inhibidor de corrosión orgánico eficaz entre una gran cantidad de compuestos orgánicos, cuya intercalación en los LDH se investigará más a fondo para lograr el objetivo de protección contra la corrosión para AZ91.
La construcción del modelo en este trabajo se basa en el flujo de trabajo que se muestra en la Fig. 2. Se llevaron a cabo investigaciones adicionales sobre la selección de características, que es un elemento clave en el desarrollo de un modelo ML que predice los IE de corrosión de pequeñas moléculas orgánicas. Según las características seleccionadas, se entrenaron dos modelos QSPR diferentes (basados en algoritmos SVR y KRR) para predecir las IE de pequeñas moléculas orgánicas en AZ91 y posteriormente se validó y comparó su precisión basándose en pruebas experimentales ciegas utilizando diez compuestos que no formaban parte. del conjunto de datos inicial.
Como base de datos de entrenamiento se emplea una base de datos de 58 pequeñas moléculas orgánicas y sus respuestas a la corrosión en AZ91. Primero, se genera un conjunto de descriptores moleculares para codificar su estructura molecular y se expone a un enfoque de selección de características dispersas de dos pasos. Los descriptores más relevantes se utilizan posteriormente para entrenar modelos de aprendizaje automático supervisados para predecir el comportamiento de sustancias químicas no probadas. Las pequeñas moléculas orgánicas para este paso se seleccionan siguiendo nuestro enfoque ExChem21 publicado anteriormente.
Se generó un conjunto de 2876 descriptores moleculares distintos como características de entrada para el desarrollo de un modelo QSPR. Después de omitir todos los descriptores moleculares con valores constantes, los 876 restantes fueron expuestos a la selección de características. Se adoptó un RFE basado en un enfoque de bosques aleatorios para seleccionar una tupla de 25 características de las 876 características iniciales en el primer paso. Más detalles sobre el proceso de selección de las 25 funciones seleccionadas están disponibles en la sección 'Métodos'. Se agregó un paso adicional a la selección de funciones al disminuir gradualmente la cantidad de funciones de entrada utilizadas, a partir de las 25 funciones de tupla que se seleccionaron usando RFE en el primer paso (consulte la sección de selección de funciones de la Fig. 2). En el segundo paso de la investigación de la importancia de las características, las 25 características inicialmente seleccionadas se eliminaron una por una en 24 pasos. En lugar de aplicar RFE, los modelos SVR y KRR se utilizaron directamente para seleccionar características en cada paso junto con optimización de hiperparámetros y validaciones cruzadas. En cada paso, hay más de una posibilidad de eliminar una característica del paso anterior, por ejemplo, hay veinticinco posibilidades para eliminar una característica de las 25 características seleccionadas. Se realizaron intentos en todas las posibilidades y en cada paso se seleccionó la posibilidad con el error cuadrático medio (RMSE) promedio más bajo de los IE para los conjuntos de prueba en la validación cruzada y se representó en la Fig. 3. Los RMSE promediados para los conjuntos de trenes en la validación cruzada correspondiente al gráfico de la Fig. 3 se enumeran en la Tabla complementaria 1. Para la posibilidad seleccionada, la característica eliminada se definió como la característica menos importante en el paso anterior. Al final se ordenaron las 25 características seleccionadas según la importancia previamente definida, obteniendo un orden de importancia para las características.
Las características de 25 tuplas seleccionadas después de la aplicación de RFE basadas en bosques aleatorios en el Paso 1 se eliminaron una por una y el RMSE promedio mínimo de los conjuntos de prueba en las validaciones cruzadas varió con el número de características para SVR (en línea negra ) y modelos KRR (en línea roja).
La tendencia de la línea negra en la Fig. 3 muestra que el número óptimo de características seleccionadas para el modelo SVR es ocho, ya que el modelo resultante exhibe el RMSE más bajo. Los descriptores moleculares seleccionados son P_VSA_LogP_2, Mor28e, HOMO, MATS4v, Mor06s, GATS4p, MATS8m y Mor15v, ordenados por la importancia de sus características sugeridas. A excepción del orbital molecular ocupado más alto (HOMO), que se obtiene a partir de cálculos DFT, las otras siete características provienen de tres categorías de descriptores (descriptores similares a P_VSA59, descriptores 3D-MoRSE60 y autocorrelaciones 2D61) obtenidas del paquete de software quimioinformático alvaDesc62. Los descriptores tipo P_VSA se basan en el área de superficie de van der Waals de los compuestos sumando todas las contribuciones atómicas. Los descriptores 3D-MoRSE incorporan toda la información de la estructura de la molécula al resumir la información de pares atómicos relacionada con el parámetro de dispersión basado en la difracción de electrones y luego ponderada por cualquiera de las propiedades, por ejemplo, masa, electronegatividad de Sanderson, volumen de van der Waals y polarizabilidad atómica. Los descriptores de autocorrelaciones 2D se calculan para proporcionar la interdependencia entre las propiedades atómicas (análogas a los descriptores 3D-MoRSE), que están conectadas por una función logarítmica63. Estas tres categorías de descriptores se centran en calcular la distribución espacial de una propiedad molecular genérica en lugar de considerar únicamente las configuraciones atómicas.
En el modelo KRR, el número óptimo de características resultó en once, como se muestra en la Fig. 3. Las once características seleccionadas se identificaron como Mor15v, HOMO, MATS8m, Mor30e, nRNH2, C-018, GATS4p, MATS2i, Mor11e, Mor06s, Mor28e. , ordenados por la importancia de sus características. Cabe destacar que seis de las once características son idénticas a las seleccionadas para el modelo SVR. Las funciones superpuestas son Mor15v, HOMO, MATS8m, GATS4p, Mor06s, Mor28e. Este hallazgo implica que las energías HOMO derivadas de los cálculos DFT, los descriptores 3D-MoRSE y los descriptores de autocorrelaciones 2D parecen codificar información estructural crucial sobre la predicción de la eficiencia de inhibición de la corrosión de pequeñas moléculas orgánicas para AZ91. Esta observación concuerda bien con la conclusión de Schiessler et al.37 donde las características calculadas por DFT, así como los descriptores 3D-MoRSE, se identificaron como características de entrada importantes para una red neuronal artificial que utiliza IE de pequeñas moléculas orgánicas para la aleación a base de Mg ZE41 como base. propiedad objetivo.
Aparte de estos tres grupos de características, se identificaron una serie de características que codifican recuentos de grupos funcionales y fragmentos centrados en átomos para las once características principales en el modelo KRR, por ejemplo, nRNH2 que codifica directamente el número de aminas primarias alifáticas. Los cinco compuestos que contienen restos nRNH2 en nuestro conjunto de datos son aminoácidos (cisteína, ácido glutámico, glicina, DL-norleucina y DL-fenilalanina) que exhiben eficiencias de inhibición negativas. Este hallazgo concuerda bien con la conclusión de la Ref. 7 que los aminoácidos aceleraron la corrosión de las aleaciones de Mg. El comportamiento de aceleración de la corrosión de los aminoácidos puede atribuirse a la solubilidad de su correspondiente complejo de magnesio en agua64,65. La característica C-018 de la clase de fragmentos centrados en átomos representa =CHX, donde “=" representa un doble enlace y X cualquiera de los siguientes heteroátomos: O, N, S, P, Se o cualquier halógeno. En el fragmento =CHX, un átomo de carbono con hibridación sp2 está directamente conectado a un hidrógeno y a uno de los heteroátomos que se indican como X. En nuestro conjunto de datos de entrenamiento, este grupo funcional específico está presente en los compuestos ácido kójico, maltol y uracilo ( X representa O o N), mientras que las tres moléculas orgánicas muestran valores de IE negativos, como se muestra en la figura complementaria 1. Se ha demostrado que los complejos formados por estos tres compuestos con magnesio son solubles en agua65,66,67. En comparación con la capacidad de formar complejos con iones metálicos, la solubilidad de estos complejos en agua parece ser un factor más decisivo para determinar la eficacia de los inhibidores orgánicos. Esta observación concuerda bien con el trabajo de Lamaka et al.7 y Anjum et al.19 de que los compuestos orgánicos cuyos complejos tienen baja solubilidad en agua exhibieron un alto efecto inhibidor ya que retrasan la corrosión al formar una capa de barrera protectora.
Algunos de los descriptores moleculares obtenidos con la herramienta quimioinformática son arcanos y no pueden vincularse fácilmente con propiedades físicas, ya que se derivan de extensas manipulaciones matemáticas de la estructura química. Las pruebas de Pearson proporcionaron una mejor comprensión de la correlación entre las características de entrada utilizadas y los IE, así como una medida de su significancia estadística. El coeficiente de correlación de Pearson mide la relación lineal entre dos conjuntos de datos, que varía entre −1 y 1, donde 0 implica que no hay correlación, mientras que −1 y 1 implican correlaciones exactas negativas y positivas, respectivamente68. Para ambos modelos, la correlación entre las características individuales y los IE es de moderada a débil ya que los valores de los coeficientes de correlación determinados en las Fig. 4a, b no son superiores/inferiores a ±0,5, donde las correlaciones negativas y positivas más pronunciadas son: 0,5 y 0,2, respectivamente. Esta observación concuerda bien con los hallazgos de Guyon et al.69 de que las características seleccionadas por sí solas no son necesariamente las más relevantes con respecto a la propiedad objetivo. Para la correlación entre las características seleccionadas, ninguna de las correlaciones se considera una relación fuerte (>0,9) y la mayoría de las correlaciones (más del 90%) se interpretan como relaciones débiles (0,1-0,39) o son insignificantes (<0,1) según a las definiciones del trabajo de Schober et al.68. Además, el valor p entre las características de entrada utilizadas y los IE se calculó y se ilustró en la figura complementaria 2, donde el valor p es una medida indicativa de si la correlación es estadísticamente significativa. Las débiles correlaciones entre la mayoría de las características seleccionadas garantizan en gran medida que no se seleccione ninguna característica redundante como entrada para los modelos. Aunque la mayoría de las características seleccionadas tienen una correlación débil con la propiedad objetivo en sí, los resultados indican que aún se pueden usar para construir un modelo predictivo cuando se usan como grupo debido a los efectos sinérgicos subyacentes, lo cual concuerda con trabajos anteriores37,38 .
una correlación de Pearson entre las características de 8 tuplas seleccionadas para el modelo SVR y los IE. b Correlación de Pearson entre las características de 11 tuplas seleccionadas para el modelo KRR y los IE.
En resumen, el método de selección de características propuesto en este trabajo es capaz de aumentar la precisión de las predicciones en la etapa de validación cruzada aplicando la reducción paso a paso al grupo de características que se seleccionó en función de RFE en el primer paso. Además, el método propuesto se puede emplear para realizar RFE para SVR con un núcleo de función de base radial (RBF), ya que actualmente solo se admite el núcleo lineal en scikit-learn70. Otra ventaja de este método propuesto es que no hay ningún requisito previo sobre la cantidad de características a seleccionar, por lo tanto, todas las combinaciones posibles de grupos de características se exploran en la selección de características y se puede garantizar una exploración integral.
Los hiperparámetros para los modelos SVR y KRR se optimizaron en una búsqueda de cuadrícula con validaciones cruzadas de 5 veces junto con la investigación de la importancia de las características. Como resultado, se seleccionaron respectivamente el conjunto de hiperparámetros para SVR (random_state = 10, C = 17, γ = 0.1) y KRR (random_state = 10, α = 0.1, γ = 0.1). Para ambos modelos, el valor seleccionado para el parámetro de estado aleatorio (random_state) es idéntico, lo que indica la misma división del conjunto de datos en conjuntos de entrenamiento y de prueba en las validaciones cruzadas. Después de la selección de los hiperparámetros, se utilizó el conjunto de datos inicial completo para ajustar los dos modelos y luego estos modelos se aplicaron para predecir el comportamiento de los compuestos de prueba ciegos para evaluar su robustez. Los valores experimentales y previstos para los 10 compuestos en las pruebas ciegas se enumeran en la Tabla 1. Los valores previstos para los derivados de piperazina 1 y 2 están marcados en marrón para ambos modelos ya que sus eficiencias de aceleración previstas son significativamente menos negativas que los valores experimentales correspondientes. , que están más allá del rango de eficiencia de inhibición de los productos químicos utilizados como conjunto de datos inicial en este trabajo. Sin embargo, cabe destacar que se predijo correctamente que ambos compuestos acelerarían la disolución de AZ91. Estos dos compuestos se excluyeron del siguiente análisis porque están fuera del dominio de aplicabilidad del conjunto de datos inicial utilizado.
Los modelos SVR y KRR funcionaron igualmente bien para el conjunto de datos inicial completo, los puntos azules en las figuras 5a, b, donde los valores predichos y experimentales se correlacionaron bien con un RMSE de alrededor del 10%. El rendimiento de algunos de los compuestos de prueba ciegos que fueron subestimados o sobreestimados, rodeados por círculos discontinuos o elipses rojos y azules en la Fig. 5, da como resultado un valor RMSE relativamente alto para ambos modelos empleados (84% para SVR y 69% para KRR). Además, no existe una fuerte correlación positiva entre los valores predichos y experimentales para los ocho compuestos (3-10) tanto para el SVR (coeficiente = −0,571, valor p = 0,140) como para el KRR (coeficiente = 0,005, valor p = 0,991) ya que estas métricas estadísticas se ven muy afectadas por los valores atípicos. Debido a la desviación relativamente grande entre los valores previstos y experimentales para los ocho compuestos, se introdujo un área de superposición entre inhibidores suaves y aceleradores suaves para compuestos con valores determinados experimentalmente en el rango de -30% La correlación entre los valores predichos y los valores medidos de los experimentos (IE en %) se muestra para (a) el modelo SVR y (b) el modelo KRR. Los puntos azules representan el conjunto de datos inicial completo (58 compuestos, los nombres y los IE se enumeran en la Tabla complementaria 2). Los puntos naranjas representan los compuestos de prueba ciegos. Tenga en cuenta que la 1-acetilpiperazina (1) y la 1-amino-4-metilpiperazina (2) se excluyeron del gráfico. Aunque sus estimaciones fueron cualitativamente correctas (1: IEpred,SVR = -172%, IEpred,KRR = −108%, IE\({}_{\exp }\) = −563%; 2: IEpred,SVR = −195 %, IEpred,KRR = −109%, IE\({}_{\exp }=\) −517%), sus valores medidos estaban muy fuera del dominio de los modelos. Las estructuras correspondientes de los compuestos de prueba ciego trazados se muestran en la parte inferior de la figura. Los círculos o elipses discontinuos rojos y azules marcan los compuestos sobreestimados y subestimados, respectivamente. Además, los moduladores que presentan una amina primaria alifática (nRNH2), por ejemplo en un aminoácido, o fragmentos con la fórmula general R=CHX provocan tasas de corrosión elevadas en estudios experimentales7. Los resultados indican que las moléculas orgánicas pequeñas que exhiben cualquiera de los restos funcionales mencionados anteriormente probablemente pueden excluirse de la selección de inhibidores de corrosión eficaces. Sin embargo, podrían tener propiedades beneficiosas para otras aplicaciones, como aditivos para electrolitos de baterías, donde se requiere una disolución controlada del material del ánodo a base de Mg71. Uno de los 10 compuestos (5-nitrouracilo (6)) en el conjunto de prueba ciega contenía un fragmento =CHX, lo que sugiere que tiene un valor de IE negativo. Sin embargo, en contraste con la eficacia de inhibición negativa prevista, el resultado experimental mostró que el 5-nitrouracilo proporcionó un rendimiento de inhibición adecuado. Esto podría atribuirse a los compuestos nitro de 5-nitrouracilo, que se ha demostrado que pueden ayudar a proteger contra la corrosión de una variedad de aleaciones72,73,74. Además, si bien el uracilo tiene un valor de IE negativo (-151%), su sustitución por una fracción nitro, el 5-nitrouracilo, da como resultado un inhibidor de la corrosión muy potente (78%), lo que indica que la fracción nitro desempeña un papel importante en la protección contra la corrosión. . Sin embargo, esta observación no es capturada por ninguno de los modelos empleados debido a la información limitada sobre el efecto de una funcionalidad nitro en nuestro conjunto de datos, ya que solo hay dos compuestos (ácido 5-nitrobarbitúrico y ácido 3-metil-2-nitrobenzoico). que exhiben esta fracción funcional. Esto indica claramente que el conjunto de datos experimentales futuros deberá incluir más compuestos con un resto nitro para permitir que el modelo recupere el impacto de este grupo sobre el efecto inhibidor de la corrosión. Para obtener más información sobre los compuestos que son valores atípicos, se calcularon las distancias por pares basadas en las características de entrada entre los compuestos en la prueba ciega y el conjunto de datos inicial utilizado en la construcción de los modelos para evaluar las estructuras altamente similares para cada compuesto de prueba ciega. Un valor de 1 en la matriz de similitud sugiere una alta similitud, mientras que un valor de 0 indica que no hay similitud. Las Figuras 6a, b muestran la matriz de similitud para los ocho compuestos de prueba ciegos y el conjunto de datos inicial para los modelos SVR y KRR, respectivamente. Las cinco estructuras similares principales (que contienen los nombres y las eficiencias de inhibición) del 5-nitrouracilo (6) se muestran en la Fig. 6 para ambos modelos. Se puede extraer un orden de similitud de mayor a menor para estas 5 estructuras en SVR (uracilo, glicina, ácido 5-nitrobarbitúrico, DL-fenilalanina, ácido glutámico) y KRR (uracilo, maltol, ácido kójico, ácido fumárico, urea). Es de destacar que existen diferencias de similitud obvias para algunas de las cinco estructuras similares principales, como la diferencia entre uracilo y urea en el modelo KRR, como se muestra en la figura 6b. Esto indica la limitación del conjunto de datos utilizado en este trabajo, donde solo hay 58 puntos de datos en total. Como consecuencia, no hay suficientes estructuras en el conjunto de datos con similitudes mayores o comparables a la similitud entre el uracilo y el compuesto de prueba ciego 5-nitrouracilo (6). Los IE de estas 5 estructuras similares están ordenados por similitud en la Tabla 2. Se aplicó el mismo proceso para extraer las 5 estructuras similares principales y enumerar sus IE en la Tabla 2 para todos los demás valores atípicos. Naturalmente, el valor previsto para cada valor atípico está fuertemente influenciado por los IE de las cinco estructuras similares principales. Por ejemplo, debido a que los IE de las cinco estructuras similares principales para el compuesto 3 en el modelo SVR son todos positivos, el valor de IE predicho por el modelo también será positivo. Esto indica que nuestros modelos son capaces de capturar las conexiones de similitud existentes en el conjunto de datos y realizar las predicciones correspondientes. Sin embargo, las conexiones de similitud están limitadas por el pequeño tamaño de nuestro conjunto de datos, lo que resulta en la aparición de estos valores atípicos. Las curvas de aprendizaje para los modelos SVR y KRR (como se ilustra en la figura complementaria 3) muestran que los RMSE promediados para los conjuntos de prueba en la validación cruzada disminuyen a medida que aumenta el tamaño del conjunto de entrenamiento, aunque los RMSE promediados de los conjuntos de prueba para ambos modelos son mayores en relación con los de los juegos de trenes. Una posible solución es expandir el conjunto de datos, de modo que los RMSE promediados de los conjuntos de prueba puedan disminuir consistentemente al agregar datos de entrenamiento adicionales. Matriz de similitud de los 8 compuestos de prueba ciega y los 58 compuestos en el conjunto de datos para el modelo (a) SVR y (b) modelo KRR. Las cinco estructuras similares principales que contienen los nombres y las eficacias de inhibición del 5-nitrouracilo (6) se representan en la figura a modo de ejemplo. Los valores debajo de los nombres son los valores de similitud. La escala de colores corresponde a los valores de la matriz donde el azul oscuro indica valores de similitud bajos/no, el verde moderado y el amarillo alto. En este trabajo, se evaluó el rendimiento de dos enfoques de aprendizaje automático supervisado (SVR y KRR) en cuanto a su solidez para predecir la inhibición de la corrosión de pequeños compuestos orgánicos para AZ91. Se realizaron pruebas ciegas de los modelos para evaluar la confiabilidad de cada modelo. A medida que el conjunto de datos crezca en tamaño y diversidad en el futuro, las conexiones de similitud se pueden mejorar para aumentar el dominio de aplicabilidad del modelo. Cualquiera de los enfoques del modelo descrito se puede aplicar para predecir los comportamientos de inhibición de la corrosión de una gran cantidad de compuestos orgánicos con mayor confianza y seleccionar inhibidores prometedores para AZ91, disminuyendo así significativamente los costos de materiales y el impacto ambiental de los experimentos, al tiempo que se acelera el descubrimiento de una corrosión efectiva. inhibidores. En resumen, las moléculas orgánicas pequeñas exhiben un gran potencial para controlar el comportamiento de corrosión de los materiales a base de magnesio. Seleccionar inhibidores de corrosión orgánicos eficaces entre el vasto espacio de compuestos disponibles no es una tarea trivial y no puede resolverse únicamente mediante investigaciones experimentales que consumen tiempo y recursos. Los modelos QSPR basados en técnicas de aprendizaje supervisado como SVR y KRR crean grandes eficiencias en la detección de agentes eficaces para el control de la corrosión. En este trabajo, se utilizó el núcleo RBF para desarrollar dos modelos predictivos basados en datos basados en los IE experimentales disponibles de compuestos orgánicos para AZ91 de un trabajo anterior7. Se generó un conjunto de 876 características de entrada derivadas del paquete de software de quimioinformática y DFT y se expusieron a una selección de características inicial basada en RFE para identificar el grupo de características que consta de 25 características con la mayor relevancia para la propiedad objetivo. Posteriormente, estas 25 características se redujeron gradualmente para encontrar el número óptimo de características para el método respectivo y los resultados indican que el RMSE más bajo se obtiene para 8 características en el SVR y para 11 características en el enfoque KRR. Existe una superposición considerable entre los dos grupos de características seleccionadas, ya que los niveles de energía del HOMO derivados de DFT, descriptores 3D-MoRSE y descriptores de autocorrelaciones 2D terminaron en el modelo final para ambos casos, lo que concuerda bien con los hallazgos de nuestro estudio. trabajo anterior37. Se llevaron a cabo pruebas ciegas para evaluar el rendimiento de los dos marcos modelo que se investigaron en este trabajo. De los diez compuestos en las pruebas ciegas, ambos modelos predijeron correctamente que la 1-acetilpiperazina (1) y la 1-amino-4-metilpiperazina (2) serían aceleradores fuertes con valores de IE más negativos que -100%. Sin embargo, los valores derivados experimentalmente estaban muy fuera del rango de IE de entrenamiento y, por lo tanto, sus valores predichos estaban fuertemente subestimados. Para los otros ocho compuestos, ambos modelos predijeron correctamente el ácido 2-hidroxifenilacético, el 3-metilpirazol, el ácido tartrónico y el ácido piromelítico, donde los valores predichos por el modelo SVR están más cerca de los valores reales en comparación con el modelo KRR. Además, ambos modelos identificaron 5-nitrouracilo y trimetilolpropano como valores atípicos, aunque hay dos valores atípicos más para el modelo SVR. Para cada uno de los valores atípicos, existe una variación distinta para los IE de sus 5 estructuras principales altamente similares extraídas del conjunto de datos, lo que en última instancia podría causar una predicción falsa del valor de IE. Esto indica que la conexión de similitud de las estructuras está limitada por los datos disponibles. En conclusión, el método de selección de características de dos pasos propuesto en este artículo puede seleccionar las características más relevantes al tiempo que mejora la precisión de la predicción de los modelos QSPR basados en SVR y KRR. Después de reducir primero el conjunto de características disponibles a una tupla de 25 usando RFE, este conjunto de características se examina sistemáticamente para encontrar la mejor n-tupla para entrenar el modelo predictivo, en lugar de confiar en la intuición humana para elegir el número y la composición de las características de entrada. . A pesar del conjunto de datos de entrenamiento limitado, el modelo basado en SVR predijo estimaciones sólidas para el rendimiento anticorrosión de cuatro y el modelo basado en KRR de seis miembros del conjunto de pruebas ciegas, mientras que las predicciones de SVR estaban más cerca de los resultados experimentales, mientras que el modelo KRR se generalizó mejor, lo que resultó en menos valores atípicos detectados. Los valores atípicos, por otra parte, no siempre son algo malo porque proporcionan orientación sobre qué leitmotivs estructurales deben probarse a continuación para aumentar el dominio de aplicabilidad y solidez de los modelos. Según nuestros resultados, la sustitución del sistema original de uracilo con un resto nitro (5-nitrouracilo (6)) da como resultado un inhibidor de la corrosión muy potente (IE = 78%) en comparación con el uracilo (IE = −151%). Sin embargo, nuestro modelo no logra predecir correctamente el comportamiento de este compuesto y, por lo tanto, este leitmotiv estructural debería ser el objetivo de próximos experimentos para ampliar el dominio de aplicabilidad de nuestro modelo. Los nuevos puntos de datos se utilizarán posteriormente para aumentar la base de datos de entrenamiento y, como consecuencia, mejorar la precisión de las predicciones para un área más amplia del espacio químico. Alimentar más muestras de entrenamiento al modelo facilitará un diseño activo de experimentos, acelerando así la selección de inhibidores potentes para AZ91 y otros materiales. Este trabajo demuestra que los modelos basados en datos basados en enfoques SVR y KRR no solo proporcionan una base confiable para generar modelos predictivos y que pueden aplicarse para predecir las eficiencias de inhibición de la corrosión de pequeñas moléculas orgánicas para materiales a base de Mg. A continuación, se investigará la intercalación de los inhibidores seleccionados en LDH para lograr una protección activa contra la corrosión de AZ91. Finalmente, las estrategias basadas en aprendizaje automático desarrolladas en este trabajo también se pueden adaptar para explorar relaciones cuantitativas estructura-propiedad en diferentes campos de aplicación, siempre que haya suficientes datos de entrenamiento disponibles para entrenar los modelos respectivos. Se extrajeron 58 compuestos orgánicos del trabajo de Lamaka et al.7 para AZ91 y se utilizaron como base de datos en este trabajo. Estos 58 compuestos orgánicos se seleccionaron en función de los siguientes tres requisitos: la concentración del inhibidor probado fue 0,05 M en una solución acuosa de pH neutro de electrolito de cloruro de sodio (NaCl) al 0,5% en peso, peso molecular (<350 Da) y eficiencias de inhibición que oscilaron entre −250% a 100%. Se seleccionó una concentración de 0,05 M debido a que la mayoría de los compuestos orgánicos se midieron en esta concentración para AZ91 y otras concentraciones influyeron en la eficiencia de inhibición de un compuesto químico7. El espacio químico fue explorado en un rango limitado de pesos moleculares ya que estamos interesados en buscar inhibidores orgánicos de pequeño peso molecular. La selección del rango de eficiencia de inhibición es un equilibrio entre la gran cantidad de compuestos, lo cual es beneficioso para construir un modelo, y el pequeño rango del lado de los aceleradores, ya que la exploración de aceleradores fuertes no es de interés en este trabajo. Después de la extracción de datos, las estructuras moleculares de estos 58 compuestos se construyeron y optimizaron en los cálculos DFT en el nivel teórico TPSSh/def2SVP utilizando el paquete de software de química cuántica Gaussian 1675. Las características calculadas por DFT, especialmente las más ocupadas (HOMO) y Se ha demostrado que el orbital molecular desocupado más bajo (LUMO) está correlacionado con las eficiencias de inhibición de la corrosión de pequeñas moléculas orgánicas para algunos materiales a base de Mg38,76,77. Las estructuras optimizadas de DFT se utilizaron posteriormente como entrada en el paquete de software de quimioinformática alvaDesc 1.0.2262 para generar más funciones, que luego se combinaron con las funciones HOMO y LUMO en el conjunto de funciones inicial. Hay más de 800 características para cada compuesto en el conjunto de características inicial, lo que excede significativamente la cantidad de compuestos en el conjunto de datos inicial. Al principio, se aplicó RFE basado en bosques aleatorios para seleccionar las características de 25 tuplas, reduciendo así inicialmente el espacio de características. Estas 25 características seleccionadas pueden ser diferentes si el procedimiento de selección se repite debido a la inicialización aleatoria en los bosques aleatorios. El procedimiento de selección se repitió 50 veces, obteniendo 50 grupos diferentes de las 25 características principales seleccionadas. Estos 50 grupos distintos de características obtenidas en el paso 1 se incorporan a la validación cruzada quíntuple (como se muestra en la figura complementaria 4) del modelo SVR. El grupo de características con el RMSE de prueba promedio más bajo de la validación cruzada en el modelo SVR se seleccionó de los 50 grupos de características y es la base para buscar las características más relevantes para los modelos SVR y KRR, respectivamente. Las 25 funciones se redujeron paso a paso (una función por paso) para eliminar funciones insignificantes en el entrenamiento del modelo. En cada paso, hay más de una posibilidad de eliminar una de las características totales y se investigaron todas las posibilidades. En cada paso se seleccionó la opción que produjo el RMSE de prueba promedio más bajo y las características preservadas se utilizaron para el siguiente paso. El número de características consideradas osciló entre 25 y 1. Al aplicar este método, se seleccionaron las características más relevantes que obtuvieron el RMSE de prueba promedio más bajo para los modelos SVR y KRR, respectivamente. Después de la selección de las características óptimas para cada modelo, el procedimiento paso a paso continuo dio como resultado un orden de importancia para las características seleccionadas, dependiendo de su orden de eliminación. Se seleccionaron los enfoques SVR52,78 y KRR58 para construir los modelos QSPR para la predicción de la eficiencia de inhibición de compuestos orgánicos pequeños para la aleación AZ91 con la ayuda de un núcleo RBF. Una función central puede asignar los datos de distribución no lineal en el espacio de entrada a un espacio de dimensiones superiores donde la regresión puede ser en forma lineal. En este trabajo se seleccionó el núcleo RBF ya que es el núcleo más utilizado en SVM79 y Smola et al.80 señalaron que el núcleo RBF es generalmente una opción razonable para conjuntos de datos con poca información sobre su forma. Después de aplicar el mismo proceso de selección de características a cada modelo, se obtuvieron las características más relevantes. En este trabajo, el vector de entrada de alta dimensión se compone de las características más relevantes previamente identificadas y los valores objetivo son la eficiencia de inhibición experimental extraída del trabajo de Lamaka et al.7. La regresión se logra mediante ε-SVR y KRR, y los resultados obtenidos con estos dos métodos se comparan y discuten en este trabajo. La diferencia entre estos dos métodos son sus funciones de pérdida de errores. Mientras que KRR aplica una pérdida de error al cuadrado, SVR emplea una pérdida insensible a ε, como se ilustra en la figura complementaria 5. Hiperparámetros como γ del núcleo RBF (como se ve en la figura complementaria 6), el parámetro de regularización C, que gestiona la compensación entre la suavidad y el sobreajuste del ε-SVR, y el parámetro de regularización α para una función de compensación similar en el modelo KRR, se ajustan en una búsqueda de cuadrícula de 5 veces para encontrar valores óptimos con respecto al objetivo propiedad. Excepto por estos tres parámetros mencionados, el parámetro de estado aleatorio (random_state) que controla la división del tren y los conjuntos de prueba también se ajustó en la búsqueda de cuadrícula de 5 veces para evitar la división sesgada debido al conjunto de datos relativamente pequeño (58 compuestos) y amplio rango de eficiencia de inhibición (de −250% a 100%). La distribución de las eficiencias de inhibición se proporciona en la Figura complementaria 7. El cálculo de similitud utilizado en este trabajo se basa en una métrica de distancia donde las características de entrada seleccionadas son las coordenadas de cada compuesto en el espacio de características de alta dimensión correspondiente. El núcleo RBF utilizado en el modelo SVR y KRR se aplicó en el cálculo de similitud, que se define como donde xey son los vectores de las características de entrada seleccionadas para dos compuestos, respectivamente. El conjunto de datos utilizado en la construcción de los modelos SVR y KRR se extrajo del trabajo de Lamaka et al.7 y, por lo tanto, la validación de estos dos modelos (pruebas ciegas) se llevó a cabo con la misma configuración experimental y en las mismas condiciones. Para la selección de los compuestos en las pruebas ciegas, los experimentalistas sugirieron el ácido trimesico y el ácido piromelítico basándose en la intuición química, mientras que los candidatos restantes se seleccionaron siguiendo el enfoque ExChem descrito en un trabajo anterior21, utilizando una base de datos de 7094 compuestos disponibles comercialmente. proporcionado por Thermo Fisher Scientific. El IE de los compuestos se calculó basándose en una prueba de desprendimiento de hidrógeno, en la que se mide la cantidad de hidrógeno desprendido debido a la corrosión del magnesio durante la inmersión en una solución de NaCl. 0,5 g de chips AZ91 Mg con una superficie de 430 ± 29 cm2/g del mismo lote utilizado en el trabajo de Lamaka et al. se sumergió en una solución de NaCl al 0,5% en peso sin (solución de referencia) y con los compuestos no probados. La composición química de los chips AZ91 es idéntica al trabajo de Lamaka et al. y se proporciona en la Tabla complementaria 3. La concentración de los compuestos fue de 0,05 M y el pH de las soluciones se ajustó a 7 ± 0,1 mediante NaOH/HCl. Las mediciones de desprendimiento de hidrógeno se repitieron tres veces para cada solución y el promedio de los IE calculados se utilizó para el punto de datos de prueba ciego correspondiente. El IE se definió mediante la siguiente ecuación donde \({V\,}_{{{{{\rm{H}}}}}_{2}}^{0}\) y \({V\,}_{{{{{\rm {H}}}}}_{2}}^{{{{\rm{Inh}}}}}\) son los volúmenes de H2 desprendidos después de 20 h de inmersión en la solución de NaCl de referencia y la solución de NaCl que contiene el compuesto químico investigado, respectivamente. Más detalles sobre las pruebas de evolución de hidrógeno están disponibles en la publicación original7. Los autores declaran que los datos primarios que respaldan los resultados de este estudio se pueden encontrar en el artículo y en su información complementaria. Los datos utilizados en este estudio están disponibles en https://doi.org/10.5281/zenodo.8135985. El código utilizado para este estudio está disponible en https://doi.org/10.5281/zenodo.8135985. Tan, J. y Ramakrishna, S. Aplicaciones del magnesio y sus aleaciones: una revisión. Aplica. Ciencia. 11, 6861 (2021). Artículo CAS Google Scholar Landkof, B. Aleaciones de magnesio y sus aplicaciones, p. 168–172 (John Wiley & Sons, Inc, 2000). Luan, B., Yang, D., Liu, X. y Song, G.-L. Corrosión de aleaciones de magnesio, pág. 541–564 (Elsevier, 2011). Chen, X.-B., Easton, M., Birbilis, N., Yang, H.-Y. & Abbott, T. Prevención de la corrosión de aleaciones de magnesio 282–312 (Woodhead Publishing Limited, 2013). Pommiers, S., Frayret, J., Castetbon, A. y Potin-Gautier, M. Recubrimientos de conversión alternativos al cromato para la protección de aleaciones de magnesio. Corros. Ciencia. 84, 135-146 (2014). Artículo CAS Google Scholar Zhang, G. y col. Propiedades de protección contra la corrosión de diferentes inhibidores que contienen un recubrimiento compuesto peo/ldhs sobre una aleación de magnesio az31. Ciencia. Rep. 11, 1-14 (2021). Google Académico Lamaka, S. y col. Cribado integral de inhibidores de corrosión mg. Corros. Ciencia. 128, 224–240 (2017). Artículo CAS Google Scholar Hu, H., Nie, X. & Ma, Y. Aleaciones de magnesio: propiedades en estados sólidos y líquidos 67–108 (IntechOpen, 2014). Latnikova, A. Cápsulas poliméricas para revestimientos anticorrosivos autorreparantes. Doctor. tesis (Universität Potsdam, 2012). Denissen, PJ, Shkirskiy, V., Volovitch, P. y García, SJ Inhibición de la corrosión en lugares marcados en aa2024-t3 recubierto mediante micropartículas de sílice natural cargadas con cerio y dmtd bajo inmersión continua y exposición cíclica húmeda/seca. Aplicación ACS. Madre. Interfaces 12, 23417–23431 (2020). Artículo CAS Google Scholar Yin, Y., Prabhakar, M., Ebbinghaus, P., da Silva, CC y Rohwerder, M. Moléculas inhibidoras neutras atrapadas en una red de polipirrol para protección contra la corrosión. Química. Ing. J. 440, 135739 (2022). Artículo CAS Google Scholar Zheludkevich, M. y col. Recubrimientos de protección activa con nanocontenedores de doble capa de hidróxido de inhibidor de corrosión. Corros. Ciencia. 52, 602–611 (2010). Artículo CAS Google Scholar Zhang, X. y col. Protección activa contra la corrosión de hidróxido doble en capas de mg-al para aleaciones de magnesio: una breve revisión. Recubrimientos 11, 1316 (2021). Artículo CAS Google Scholar Jing, C., Dong, B., Raza, A., Zhang, T. y Zhang, Y. Inhibición de la corrosión de hidróxidos dobles en capas para sistemas a base de metales. Nanomadre. Ciencia. 3, 47–67 (2021). Artículo CAS Google Scholar Li, D. y col. Recubrimiento orgánico anticorrosión con doble capa de hidróxido cargado con inhibidor de corrosión de tungstato. Prog. Org. Abrigo. 71, 302–309 (2011). Artículo CAS Google Scholar Yu, X. et al. Síntesis en un solo paso de hidrotalcita pilar de molibdato laminar y su aplicación para la protección de aleación az31 mg. Ciencia de estado sólido. 11, 376–381 (2009). Artículo CAS Google Scholar Poznyak, S. y col. Nuevos hidróxidos dobles en capas huésped inorgánicos intercalados con inhibidores orgánicos invitados para aplicaciones anticorrosión. Aplicación ACS. Madre. Interfaces 1, 2353–2362 (2009). Artículo CAS Google Scholar Zhang, F. y col. Resistencia a la corrosión de películas de doble hidróxido en capas superhidrófobas sobre aluminio. Angélica. Química. 120, 2500–2503 (2008). Artículo de Google Scholar Anjum, MJ y cols. Inhibidores de corrosión verdes intercalados mg: Recubrimientos de hidróxido doble en capas de Al para proteger la aleación mg. Metales raros 40, 2254–2265 (2021). Artículo CAS Google Scholar Tabish, M. y col. Revisión del estado actual de los nanocontenedores inteligentes basados en doble capa de hidróxido para aplicaciones inhibidoras de la corrosión. J. Mater. Res. Tecnología. 10, 390–421 (2021). Artículo CAS Google Scholar Würger, T. y col. Explorando las relaciones estructura-propiedad en moduladores de disolución de magnesio. npj Mater. Degradar. 5, 1-10 (2021). Artículo de Google Scholar Schmidt, J., Marques, MR, Botti, S. y Marques, MA Avances recientes y aplicaciones del aprendizaje automático en la ciencia de materiales de estado sólido. npj Computación. Madre. 5, 1–36 (2019). Artículo de Google Scholar Popel, M. y col. Transformando la traducción automática: un sistema de aprendizaje profundo alcanza una calidad de traducción de noticias comparable a la de los profesionales humanos. Nat. Comunitario. 11, 1-15 (2020). Artículo de Google Scholar Sharma, S., Bhatt, M. y Sharma, P. Sistema de reconocimiento facial que utiliza un algoritmo de aprendizaje automático. En 2020, Quinta Conferencia Internacional sobre Sistemas Electrónicos y de Comunicación (ICCES), 1162–1168 (IEEE, 2020). Gormley, AJ y Webb, MA Aprendizaje automático en química combinatoria de polímeros. Nat. Rev. Mater. 6, 642–644 (2021). Artículo CAS Google Scholar Hart, GL, Mueller, T., Toher, C. y Curtarolo, S. Aprendizaje automático para aleaciones. Nat. Rev. Mater. 6, 730–755 (2021). Artículo de Google Scholar Faber, FA, Lindmaa, A., Von Lilienfeld, OA y Armiento, R. Energías de aprendizaje automático de 2 millones de cristales de elpasolita (abc 2 d 6). Física. Rev. Lett. 117, 135502 (2016). Artículo de Google Scholar Schmidt, J., Chen, L., Botti, S. y Marques, MA Predicción de la estabilidad de intermetálicos ternarios con teoría funcional de la densidad y aprendizaje automático. J. química. Física. 148, 241728 (2018). Artículo de Google Scholar Kim, K. y col. Detección de materiales de alto rendimiento acelerada por aprendizaje automático: descubrimiento de nuevos compuestos cuaternarios de Heusler. Física. Rev. Mater. 2, 123801 (2018). Artículo CAS Google Scholar Graser, J., Kauwe, SK y Sparks, TD Enfoques de aprendizaje automático y minimización de energía para predicciones de estructuras cristalinas: una revisión y nuevos horizontes. Química. Madre. 30, 3601–3612 (2018). Artículo CAS Google Scholar Oliynyk, AO, Adutwum, LA, Harynuk, JJ & Mar, A. Clasificación de estructuras cristalinas de compuestos binarios ab mediante la selección de características de resolución de grupos y análisis de máquinas de vectores de soporte. Química. Madre. 28, 6672–6681 (2016). Artículo CAS Google Scholar Zhuo, Y., Mansouri Tehrani, A. y Brgoch, J. Predicción de bandas prohibidas de sólidos inorgánicos mediante aprendizaje automático. J. Física. Química. Letón. 9, 1668-1673 (2018). Artículo CAS Google Scholar Isayev, O. y col. Cartografía de materiales: representación y extracción del espacio de materiales mediante huellas dactilares estructurales y electrónicas. Química. Madre. 27, 735–743 (2015). Artículo CAS Google Scholar De Jong, M. et al. Un marco de aprendizaje estadístico para la ciencia de materiales: aplicación a módulos elásticos de compuestos policristalinos inorgánicos k-narios. Ciencia. Representante 6, 1-11 (2016). Google Académico Winkler, DA y cols. Utilizar datos experimentales de alto rendimiento y modelos in silico para descubrir alternativas a los inhibidores de corrosión por cromatos tóxicos. Corros. Ciencia. 106, 229–235 (2016). Artículo CAS Google Scholar Galvão, TL, Novell-Leruth, G., Kuznetsova, A., Tedim, J. & Gomes, JR Esclarecimiento de las relaciones estructura-propiedad en inhibidores de corrosión de aleaciones de aluminio mediante aprendizaje automático. J. Física. Química. C 124, 5624–5635 (2020). Artículo de Google Scholar Schiessler, EJ y cols. Predecir las eficiencias de inhibición de los moduladores de disolución de magnesio utilizando modelos dispersos de aprendizaje automático. npj Computación. Madre. 7, 1–9 (2021). Artículo de Google Scholar Feiler, C. y col. Detección in silico de moduladores de la disolución del magnesio. Corros. Ciencia. 163, 108245 (2020). Artículo CAS Google Scholar Blanco, PA y col. Hacia el descubrimiento de materiales: ensayos para la detección y el estudio de interacciones químicas de nuevos inhibidores de corrosión en soluciones y recubrimientos. Nuevo J. Chem. 44, 7647–7658 (2020). Artículo CAS Google Scholar Kokalj, A. Modelado molecular de inhibidores de corrosión orgánicos: cálculos, dificultades y conceptualización del enlace molécula-superficie. Corros. Ciencia. 193, 109650 (2021). Artículo CAS Google Scholar Chen, R., Dewi, C., Huang, S. y Caraka, R. Selección de características críticas para la clasificación de datos basada en métodos de aprendizaje automático. J. Big Data 7, 1–26 (2020). Kubus, M. y col. El problema de las variables redundantes en bosques aleatorios. Acta Univ. Danubio. Oecón. 6, 7-16 (2018). Google Académico Darst, BF, Malecki, KC y Engelman, CD Uso de la eliminación de características recursivas en un bosque aleatorio para tener en cuenta variables correlacionadas en datos de alta dimensión. Genética BMC. 19, 1–6 (2018). Artículo de Google Scholar Biau, G. & Scornet, E. Una visita guiada aleatoria al bosque. Prueba 25, 197–227 (2016). Artículo de Google Scholar Shulha, T. y col. Formación in situ de nanocontenedores a base de LDH en la superficie de una aleación de magnesio az91 e investigación detallada de su estructura cristalina. J. Magnés. Aleación. (2021). Thurnhofer-Hemsi, K., López-Rubio, E., Molina-Cabello, MA y Najarian, K. Optimización del núcleo de función de base radial para clasificadores de máquinas de vectores de soporte. Preimpresión en https://archiv.org/pdf/2007.08233.pdf (2020). Cervantes, J., García-Lamont, F., Rodríguez-Mazahua, L. & López, A. Un estudio completo sobre la clasificación de máquinas de vectores de soporte: aplicaciones, desafíos y tendencias. Neurocomputación 408, 189–215 (2020). Artículo de Google Scholar Kaur, P., Pannu, HS & Malhi, AK Reconocimiento de enfermedades de plantas mediante momentos Zernike de orden fraccionario y clasificador svm. Neural. Computadora. Aplica. 31, 8749–8768 (2019). Artículo de Google Scholar Bhowmik, TK, Ghanty, P., Roy, A. y Parui, SK Arquitecturas jerárquicas basadas en Svm para el reconocimiento de caracteres bengalíes escritos a mano. En t. J. Doc. Anal. Reconocer. 12, 97-108 (2009). Artículo de Google Scholar Je, H.-M., Kim, D. & Bang, SY Detección de rostros humanos en vídeo digital utilizando svmensemble. Proceso neuronal. Letón. 17, 239–252 (2003). Artículo de Google Scholar Awad, M. y Khanna, R. Máquinas de aprendizaje eficientes, p. 67–80 (Springer, 2015). Okujeni, A. et al. Una comparación de algoritmos de regresión avanzados para cuantificar la cobertura del suelo urbano. Sensores remotos 6, 6324–6346 (2014). Artículo de Google Scholar Wehbe, B., Hildebrandt, M. & Kirchner, F. Evaluación experimental de varios métodos de regresión de aprendizaje automático para la identificación de modelos de vehículos submarinos autónomos. En 2017, Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA), 4885–4890 (IEEE, 2017). Fang, S., Wang, M., Qi, W. & Zheng, F. Algoritmos genéticos híbridos y regresión de vectores de soporte en la predicción de la corrosión atmosférica de materiales metálicos. Computadora. Madre. Ciencia. 44, 647–655 (2008). Artículo CAS Google Scholar Zhi, Y., Fu, D., Zhang, D., Yang, T. & Li, X. Predicción y extracción de conocimientos de las tasas de corrosión atmosférica al aire libre de aceros de baja aleación basada en el enfoque de bosques aleatorios. Metales 9, 383 (2019). Artículo de Google Scholar Liu, Y. et al. Un modelo qsar basado en aprendizaje automático para derivados de bencimidazol como inhibidores de la corrosión mediante la incorporación de una selección integral de características. Interdisciplina. Ciencia. Computadora. Ciencias de la vida. 11, 738–747 (2019). Artículo CAS Google Scholar Schölkopf, B., Luo, Z. & Vovk, V.Inferencia empírica: Festschrift en honor a Vladimir N. Vapnik (Springer Science & Business Media, 2013). Murphy, KP Machine Learning: una perspectiva probabilística (Prensa del MIT, 2012). Labute, P. Un conjunto de descriptores de amplia aplicación. J. Mol. Grafico. 18, 464–477 (2000). Artículo CAS Google Scholar Devinyak, O., Havrylyuk, D. y Lesyk, R. Explicación de los descriptores 3D-morse. J. Mol. Grafico. 54, 194-203 (2014). Artículo CAS Google Scholar Hollas, B. Un análisis del descriptor de autocorrelación de moléculas. J. Matemáticas. Química. 33, 91-101 (2003). Artículo CAS Google Scholar Mauri, A. alvadesc: una herramienta para calcular y analizar descriptores moleculares y huellas dactilares. En QSAR ecotoxicológicos, 801–820 (Springer, 2020). Caballero, J. Modelado computacional para explicar por qué las 5, 5-diarilpentadienamidas son antagonistas de trpv1. Moléculas 26, 1765 (2021). Artículo CAS Google Scholar Reid, B., Agri-Minerals, PE & Headquarters, C. Petición Nop para la inclusión del óxido de magnesio en la lista nacional de sustancias permitidas. Celda 850, 261–0807 (2013). Google Académico Case, DR, Zubieta, J., González, R. & Doyle, RP Síntesis y evaluación química y biológica de un quelato de magnesio tripéptido de glicina. Moléculas 26, 2419 (2021). Artículo CAS Google Scholar Murakami, Y. Comportamiento complejante del ácido kójico con iones metálicos. i. quelatos mg (ii) y mn (ii). Toro. Química. Soc. Jpn 35, 52–56 (1962). Artículo CAS Google Scholar Kufelnicki, A. Complejos de derivados de uracilo (2, 4-dihidroxipirimidina). parte i. coordinación de cu (ii), ca (ii) y mg (ii) con uracilo y compuestos relacionados en solución acuosa. Pol. J. química. 76, 1559-1570 (2002). CAS Google Académico Schober, P., Boer, C. & Schwarte, LA Coeficientes de correlación: uso e interpretación apropiados. Anestesia. Analgésico. 126, 1763-1768 (2018). Artículo de Google Scholar Guyon, I., Weston, J., Barnhill, S. y Vapnik, V. Selección de genes para la clasificación del cáncer utilizando máquinas de vectores de soporte. Mach. Aprender. 46, 389–422 (2002). Artículo de Google Scholar Pedregosa, F. et al. Scikit-learn: aprendizaje automático en Python. J. Mach. Aprender. Res. 12, 2825–2830 (2011). Google Académico Würger, T. y col. Selección basada en datos de aditivos electrolíticos para baterías acuosas de magnesio. J. Mater. Química. A 10, 21672–21682 (2022). Deyab, M. Inhibición de la corrosión del material de la tubería del intercambiador de calor (titanio) en plantas desalinizadoras de MSF en una solución de limpieza ácida utilizando compuestos nitro aromáticos. Desalinización 439, 73–79 (2018). Artículo CAS Google Scholar Aslam, J. y col. Efecto inhibidor de la 2-nitroacridona sobre la corrosión del acero con bajo contenido de carbono en una solución de hcl 1 m: un enfoque experimental y teórico. J. Mater. Res. Tecnología. 9, 4061–4075 (2020). Artículo CAS Google Scholar Eddy, NO, Ameh, PO y Essien, NB Estudios de química experimental y computacional sobre la inhibición del aluminio y acero dulce en 0,1 m hcl por ácido 3-nitrobenzoico. Universidad J. Taibah. Ciencia. 12, 545–556 (2018). Artículo de Google Scholar Frisch, M. y col. Revisión gaussiana 16 c. 01 de enero de 2016. Gaussian Inc. Wallingford CT1 (2016). Ju, H., Kai, Z.-P. & Li, Y. Compuestos amínicos de base de Schiff polidentados que contienen nitrógeno como inhibidores de la corrosión del hierro en medios ácidos: un cálculo químico cuántico. Corros. Ciencia. 50, 865–871 (2008). Artículo CAS Google Scholar Barouni, K. y col. Aminoácidos como inhibidores de la corrosión del cobre en medio de ácido nítrico: estudio experimental y teórico. J. Mater. Reinar. Ciencia 5, 456–463 (2014). CAS Google Académico Chang, C.-C. y Lin, C.-J. Libsvm: una biblioteca para máquinas de vectores de soporte. Transmisión ACM. Intel. Sistema. 2, 1–27 (2011). Artículo de Google Scholar Shi, H., Xiao, H., Zhou, J., Li, N. y Zhou, H. Algoritmo de optimización de parámetros del kernel de función de base radial en una máquina de vectores de soporte basado en dicotomía segmentada. En 2018, Quinta Conferencia Internacional sobre Sistemas e Informática (ICSAI), 383–388 (IEEE, 2018). Smola, AJ & Schölkopf, B. Un tutorial sobre regresión de vectores de soporte. Estadística. Computadora. 14, 199–222 (2004). Artículo de Google Scholar Descargar referencias Se agradece enormemente la financiación del proyecto MUFfin de Helmholtz-Zentrum Hereon I2B. Los autores agradecen a Thermo Fisher Scientific por proporcionar una base de datos química utilizada para la selección de pruebas ciegas. Financiamiento de Acceso Abierto habilitado y organizado por Projekt DEAL. Instituto de Ciencias de Superficies, Helmholtz-Zentrum Hereon, Geesthacht, Alemania Xuejiao Li, Bahram Vaghefinazari, Tim Würger, Sviatlana V. Lamaka, Mikhail L. Zheludkevich y Christian Feiler Instituto de Polímeros y Compuestos, Universidad Tecnológica de Hamburgo, Hamburgo, Alemania Tim Wurger Instituto de Ciencia de Materiales, Facultad de Ingeniería, Universidad de Kiel, Kiel, Alemania Mijail L. Zheludkevich También puedes buscar este autor en PubMed Google Scholar. También puedes buscar este autor en PubMed Google Scholar. También puedes buscar este autor en PubMed Google Scholar. También puedes buscar este autor en PubMed Google Scholar. También puedes buscar este autor en PubMed Google Scholar. También puedes buscar este autor en PubMed Google Scholar. XL, BV, TW, SVL, MLZ y CF: contribuyeron a la concepción y diseño del estudio. BV y SVL: proporcionaron datos experimentales. XL, TW y CF: construyeron los dos modelos de aprendizaje automático. XL y CF: escribieron el primer borrador del manuscrito. Todos los autores contribuyeron a la revisión del manuscrito, leyeron y aprobaron la versión enviada. Correspondencia a Xuejiao Li o Christian Feiler. Los autores declaran no tener conflictos de intereses. Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales. Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/. Reimpresiones y permisos Li, X., Vaghefinazari, B., Würger, T. et al. Predecir las eficiencias de inhibición de la corrosión de pequeñas moléculas orgánicas utilizando técnicas basadas en datos. npj Mater Degrad 7, 64 (2023). https://doi.org/10.1038/s41529-023-00384-z Descargar cita Recibido: 16 de diciembre de 2022 Aceptado: 28 de julio de 2023 Publicado: 09 de agosto de 2023 DOI: https://doi.org/10.1038/s41529-023-00384-z Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido: Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo. Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt