Comparación y clasificación de algoritmos de inteligencia artificial para la predicción del peso en ovejas
Scientific Reports volumen 13, número de artículo: 13242 (2023) Citar este artículo
384 Accesos
3 altmétrico
Detalles de métricas
En un mundo en rápida transformación, los datos agrícolas están creciendo exponencialmente. Al darse cuenta de la importancia de estos datos, los investigadores están buscando nuevas soluciones para analizarlos y hacer predicciones agrícolas. La Inteligencia Artificial, con su capacidad para manejar big data, se está popularizando rápidamente. Además, también puede manejar datos ruidosos y no lineales y no está limitado por las condiciones requeridas para el análisis de datos convencional. Por lo tanto, este estudio se llevó a cabo para comparar los algoritmos de aprendizaje automático (ML) más populares y clasificarlos según su capacidad para hacer predicciones sobre datos de granjas de ovejas que abarcan 11 años. Los datos se limpiaron y prepararon antes del análisis. La winsorización se realizó para eliminar valores atípicos. Se realizaron análisis de componentes principales (PCA) y selección de características (FS) y, en base a eso, se crearon tres conjuntos de datos, a saber. Predicción del peso corporal PCA (donde solo se usó PCA), PCA+ FS (ambas técnicas utilizadas para la reducción de dimensionalidad) y FS (solo se usó selección de características). Entre los 11 algoritmos de ML que se evaluaron, se encuentran las correlaciones entre los valores verdaderos y predichos para el algoritmo MARS, la regresión de crestas bayesianas, la regresión de crestas, las máquinas de vectores de soporte, el algoritmo de aumento de gradiente, los bosques aleatorios, el algoritmo XgBoost, las redes neuronales artificiales, los árboles de clasificación y regresión. La regresión polinómica, los K vecinos más cercanos y los algoritmos genéticos fueron 0,993, 0,992, 0,991, 0,991, 0,991, 0,99, 0,99, 0,984, 0,984, 0,957, 0,949, 0,734 respectivamente para los pesos corporales. Los cinco algoritmos principales para la predicción del peso corporal fueron MARS, regresión de crestas bayesianas, regresión de crestas, máquinas de vectores de soporte y algoritmo de aumento de gradiente. En el presente estudio se desarrollaron un total de 12 modelos de aprendizaje automático para la predicción del peso corporal en ovejas. Se puede decir que las técnicas de aprendizaje automático pueden realizar predicciones con precisión razonable y, por lo tanto, pueden ayudar a sacar inferencias y hacer predicciones futuristas en las granjas para su prosperidad económica, mejora del rendimiento y, posteriormente, seguridad alimentaria.
Se prevé que en 2050 la población mundial aumentará a 9.900 millones de personas y que la demanda mundial de diversos productos cárnicos y animales aumentará en más de un 70 % en las próximas décadas1. Por lo tanto, existe una necesidad imperiosa de aumentar la producción de alimentos para 2050 intensificando la producción en casi la misma cantidad de tierra y utilizando los mismos recursos. Esto también ejerce presión sobre el sector ganadero porque ahora existe la necesidad de producir más animales utilizando la tierra, el agua y todos los demás recursos naturales limitados. Significa que necesitamos encontrar enfoques nuevos e innovadores para producir más alimentos, lo cual es un gran desafío para los científicos animales a pesar de su enorme riqueza genética2,3. Para abordar esto, se están adoptando nuevas tecnologías en las granjas de animales que están evolucionando de lo tradicional a lo de alta tecnología4. Las operaciones agrícolas se están automatizando cada vez más y el uso de sensores está aumentando en todos los aspectos de la gestión agrícola. Esto no sólo reduce la monotonía y el trabajo, sino que también conduce a un aumento exponencial en la cantidad de datos generados diariamente. Todo esto está provocando un aumento exponencial de los datos agrícolas. Los métodos tradicionales y las estrategias convencionales no son capaces de seguir el ritmo de estos enormes datos, lo que está provocando tendencias decrecientes de la producción, especialmente en los países en desarrollo5,6,7,8,9,10.
Dado que la inteligencia artificial está transformando en gran medida todas las industrias, ofrece soluciones a los problemas analíticos de la ganadería y las ciencias veterinarias11. Estos ayudarían a demostrar muchos aspectos de la gestión agrícola que son importantes para reducir la mortalidad y mejorar la productividad12. No solo pueden manejar datos de manera eficiente, sino que también pueden sacar inferencias que hasta ahora eran desconocidas porque las técnicas de ML poseen capacidades que no están presentes en las técnicas convencionales. La tolerancia de modelado de tales métodos es considerablemente mayor que la de las metodologías estadísticas. Esto se debe a que no existen requisitos para realizar suposiciones o pruebas de hipótesis en ML. Además, los beneficios del ML son la capacidad de manejar datos no lineales, imprecisos y ruidosos. Todo esto hace que esta área de la ciencia sea mucho más flexible que los modelos estadísticos convencionales.
El uso de inteligencia artificial para prácticas agrícolas se está volviendo popular rápidamente. Sin embargo, los estudios que comparan los algoritmos de aprendizaje supervisado más populares y los clasifican son todavía escasos. Investigación para la comparación de diversas técnicas de aprendizaje automático en ciencias animales para la predicción de enfermedades11, rendimiento13, incubabilidad14 lactancia15, méritos genéticos12,16,17,18, pesos corporales19, diagnóstico y predicciones de enfermedades21,22, inmunidad23 e incluso en estudios moleculares como la transcriptómica24 , expresión genética de secuenciación de ARN25, selección genética26, etc. Para todos los estudios indicados, se ha descubierto que algoritmos como redes neuronales artificiales, máquinas de vectores de soporte, K-vecinos más cercanos, etc., son muy útiles y, en la mayoría de los casos, mejores que los enfoques convencionales debido a la gran cantidad de datos.
Los científicos han informado que múltiples algoritmos son prometedores para resolver diversos problemas en las ciencias animales. La predicción del desempeño futuro es un área crucial que, si se hace con precisión, podría ayudar a tomar decisiones importantes para mejorar tanto la producción como los ingresos. Por lo tanto, este estudio se llevó a cabo para comparar los algoritmos de aprendizaje automático más populares y clasificarlos según su capacidad para hacer predicciones sobre datos de granjas de ovejas. También se intentó perfeccionar los modelos para poder desarrollar modelos desplegables.
Nuestros resultados indicaron que la imputación eliminó efectivamente los valores faltantes en el conjunto de datos. Considerando que todas las variables del conjunto de datos (para la predicción del peso corporal) tenían una variación superior al 95 % en el análisis de componentes principales, se recuperó un total de 23 características para crear el conjunto de datos PCA. El conjunto de datos FS se creó utilizando características en el conjunto de datos original con puntuaciones F superiores a 10. De esta manera, la cantidad de características dentro del conjunto de datos FS fue 28. Para el conjunto de datos que contiene características seleccionadas después de PCA, se seleccionaron 6 características para el conjunto de datos final. (PCA y FS) con puntuaciones superiores a 4. Las puntuaciones para los primeros 6 componentes principales fueron 1357,04, 29,97, 20,24, 13,68, 11,68 y 4,29. La multicolinealidad se redujo efectivamente mediante PCA. En la Fig. 1 se muestra el gráfico de pares para la multicolinealidad del conjunto de datos PCA+ FS para el peso corporal.
Para la regresión de cresta bayesiana, el RMSE, MAE, el coeficiente de determinación y el coeficiente de correlación para el conjunto de datos PCA fueron 1,084, 0,872, 0,940 y 0,979, y para el conjunto de datos FS fueron 0,926, 0,816, 0,957, 0,992 y para el conjunto de datos FCA + FS, fueron 1,179, 0,93, 0,923 y 0,974. Para la regresión de crestas, el RMSE, MAE, el coeficiente de determinación y el coeficiente de correlación para el conjunto de datos PCA fueron 1,082, 0,871, 0,940 y 0,979, y para el conjunto de datos FS fueron 0,939, 0,822, 0,955, 0,991 y para el conjunto de datos FCA+FS, fueron 1,178, 0,930, 0,924, 0,974 respectivamente. Los resultados obtenidos mediante la regresión de crestas bayesiana y la regresión de crestas fueron muy similares. El conjunto de datos de FS tuvo el coeficiente de correlación más alto.
Gráfico de pares para multicolinealidad para el conjunto de datos PCA+ FS.
Gráfico de optimización de hiperparámetros para 1000 iteraciones.
El gráfico de optimización de hiperparámetros para mil iteraciones se muestra en la Fig. 2. Los resultados del entrenamiento de las RNA se muestran en la Tabla 1. Nuestros resultados indicaron que el conjunto de datos PCA+FS convergió antes que los otros dos conjuntos de datos. Los resultados obtenidos mediante la optimización de hiperparámetros se refinaron aún más heurísticamente y, a través de esto, los modelos ya no se pudieron mejorar. De esto se puede inferir que la aplicación de buenos algoritmos de búsqueda, en este caso, fue suficiente para obtener resultados óptimos. De los tres conjuntos de datos, el conjunto de datos PCA mostró el coeficiente de correlación más alto de 0,977. Este conjunto de datos también tuvo la mayor cantidad de neuronas por capa. Este conjunto de datos también mostró el MSE, MAE y pérdida más bajos en comparación con los otros conjuntos de datos. El conjunto de datos FS por sí solo tuvo un mejor rendimiento que el conjunto de datos PCA+FS y el conjunto de datos PCA. La reducción en la cantidad de características en este conjunto de datos no fue suficiente para lograr la mayor capacidad predictiva de este conjunto de datos. Los resultados de la búsqueda arrojaron la función de activación sigmoidea, así como una baja tasa de aprendizaje, como la más apropiada para la predicción del peso corporal. Para el ajuste de hiperparámetros, el descenso de gradiente estocástico (sgd) y Adam tuvieron un buen desempeño como optimizadores. Para la función de activación, ReLU y sigmoide obtuvieron mejores resultados que el resto. De los hiperparámetros entrenados, ReLU (unidad lineal rectificada) y Adam (estimación de momento adaptativo) fueron los mejores optimizadores y funciones de activación, respectivamente. El número de capas ocultas fue 9 para todos los modelos de árbol después de la aplicación de algoritmos genéticos. Con el aumento del número de iteraciones, el coeficiente de correlación también aumentó. También se vio que cuanto mayor era el número de iteraciones, mayores eran los coeficientes de correlación.
Los algoritmos genéticos fueron suficientemente capaces de predecir el peso corporal de las ovejas, pero de manera menos eficiente que los otros algoritmos. El poder de predicción de los algoritmos genéticos fue el más bajo entre todos los algoritmos entrenados para la predicción del peso corporal. Entre los tres conjuntos de datos (PCA, PCA+FS y FS) para la predicción del peso corporal, el conjunto de datos PCA+FS arrojó el coeficiente de correlación más alto entre los valores genéticos verdaderos y previstos. El número de generaciones, el umbral de aptitud, el tamaño de la población, la tasa de mutación de activación, RMSE, MAE, R2 y los coeficientes de correlación para el conjunto de datos PCA fueron 100, 0,980, 300, 0,001, 1,930, 1,248, 0,835, 0,874; el conjunto de datos FS + PCA fue 100, 0,980, 300, 0,001, 1,322, 1,031, 0,917 y 0,944, mientras que para el conjunto de datos FS fue 100, 0,980, 300, 0,001, 1,363, 1,036, 0,929 y 0,940 respectivamente. El mejor modelo desarrollado utilizando algoritmos genéticos tenía el número de generaciones, el umbral de aptitud, el tamaño de la población, la tasa de mutación de activación RMSE, MAE, R2 y un coeficiente de correlación de 100, 0,980, 300, 0,001, 1,322, 1,031 y 0,917.
El conjunto de datos FS tuvo el coeficiente de correlación más alto con las etiquetas de prueba, los hiperparámetros para los cuales se realizó la búsqueda en la cuadrícula. Los hiperparámetros para lo mismo fueron 'C': 1000, 'gamma': 1 y 'kernel': 'lineal'. La Tabla 2 muestra los resultados obtenidos del entrenamiento y prueba de este algoritmo. El kernel lineal superó consistentemente al kernel rbf, lo que continúa diciendo que los datos de predicción de peso son linealmente separables. Las máquinas de vectores de soporte para la predicción del peso corporal utilizando el parámetro predeterminado kernel = rbf tenían RMSE, MAE, R2 y la correlación para el conjunto de datos FS fueron 1,569, 1,005, 0,832 y 0,944 respectivamente, para el conjunto de datos PCA+ FS, fueron 1,461, 1,012, 0,861 y 0,959 respectivamente mientras que para PCA fueron 1,538, 1,025, 0,834 y 0,956 respectivamente. La optimización de hiperparámetros reveló los mejores hiperparámetros de 'C': 1000, 'gamma': 1, 'kernel': 'linear' para el conjunto de datos FS, 'C': 1000, 'gamma': 0.0001, 'kernel': 'rbf ' para el conjunto de datos PCA y FS y 'C': 100, 'gamma': 0,001, 'kernel': 'rbf' para el conjunto de datos PCA. El modelo mejor entrenado tenía los siguientes parámetros: C: 1000, gamma: 1 kernel: lineal.
El ajuste de hiperparámetros mejoró los resultados de la predicción y la búsqueda aleatoria tuvo un mejor rendimiento que la búsqueda en cuadrícula para la predicción del valor genético para la mayoría de las predicciones, excepto FS, donde la búsqueda en cuadrícula proporcionó los mejores resultados de correlación. Para bootstrap = TRUE y max características = auto para los algoritmos de búsqueda. La correlación más alta (0,990) se obtuvo para el conjunto de datos FS con búsqueda en cuadrícula. Sin hiperparámetros, el conjunto de datos de FS funcionó mejor para los árboles de regresión. El conjunto de datos de FS tuvo la correlación más alta en comparación con otros conjuntos de datos con todos los algoritmos. El ajuste de hiperparámetros mejoró la capacidad de predicción de los bosques aleatorios (Tabla 2).
El conjunto de datos de selección de características (FS) tuvo el coeficiente de correlación más alto para el algoritmo de aumento de gradiente con o sin hiperparámetros. Los resultados del entrenamiento para el algoritmo se dan en la Tabla 3.
La correlación más alta se encontró para el conjunto de datos FS, con una correlación promedio de hasta 0,901. El polinomio de primer grado proporcionó el modelo de mejor ajuste. Los resultados del entrenamiento para el algoritmo se muestran en la Tabla 3. Los valores MAE para los conjuntos de datos PCA, FS y FS+PCA fueron 1,096, 0,709 y 1,078 respectivamente.
El conjunto de datos FS tuvo el coeficiente de correlación más alto para el conjunto de datos de prueba con el algoritmo XGBoost. Todos los valores se indican en la Tabla 3. El tiempo transcurrido para ejecutar el algoritmo fue mayor para el conjunto de datos PCA+FS. Los tiempos de pared para los conjuntos de datos PCA, FS y FS +PCA fueron 93 ms, 91 ms y 511 ms respectivamente. Colmuestra por árbol, tasa de aprendizaje, profundidad máxima, peso mínimo del niño, estimadores N y submuestra para el conjunto de datos PCA fueron 0,7, 0,05, 3, 5, 1000 y 0,5, para el conjunto de datos FS fueron 0,7, 0,1, 3, 3, 1000 y para en el conjunto de datos FS+PCA, fueron 0,7, 0,01, 5, 5, 1000, 0,5 y 0,7 respectivamente.
La correlación más alta entre los valores verdaderos y previstos se encontró para el conjunto de datos FS + PCA (Tabla 3). El conjunto de datos PCA tuvo los n vecinos más altos utilizando ajuste de hiperparámetros. Los N vecinos para los conjuntos de datos PCA, FS y FS +PCA fueron 7,4,3 respectivamente.
El coeficiente de correlación del valor previsto y real fue de 0,993 al aplicar splines de regresión adaptativa multivariada. El coeficiente de correlación más alto se encontró para el conjunto de datos FS. Todos los valores se indican en la Tabla 3.
Para la predicción del peso corporal, el algoritmo MARS dio las mejores predicciones basadas en el coeficiente de correlación (Tabla 4) y para la predicción del valor genético, los algoritmos basados en árboles dieron los mejores resultados. Los bosques aleatorios tuvieron el coeficiente de correlación más alto (Tabla 4). El conjunto de datos FS superó a los conjuntos de datos PCA y PCA+FS en la mayoría de los casos, excepto en los algoritmos genéticos y las redes neuronales entrenadas tanto mediante optimización de hiperparámetros como mediante modelado heurístico y KNN (pero solo por un margen muy estrecho). Para los algoritmos genéticos, el conjunto de datos con el menor número de características proporcionó los mejores coeficientes de correlación. En el caso de la regresión de componentes principales, el conjunto de datos PCA obtuvo el mejor rendimiento. La regresión bayesiana superó a la regresión de crestas por un pequeño margen. Las correlaciones entre los valores verdaderos y predichos se dan en las Figs. 3 y 4.
Gráfico de pares para multicolinealidad para el conjunto de datos PCA+FS.
Correlación entre los valores verdaderos y predichos de los algoritmos de ML.
En general, todos los valores que deben tomarse al nacer en los datos se registraron más meticulosamente que los parámetros que deben registrarse más adelante en la vida del animal. Los valores faltantes son universales en los conjuntos de datos del mundo real y el uso de winsorización para darle a la distribución propiedades estadísticas más deseables también se ha publicado en la literatura para reducir el peso de las observaciones influyentes y eliminar los efectos no deseados de los valores atípicos sin introducir más sesgos. Anderson et al.27 convirtieron un rango mucho más alto, a saber. el 10% superior e inferior de los datos al percentil 90 con una pequeña introducción de error. En este estudio se utilizó un enfoque de winsorización bilateral que también fue mejor que el enfoque unilateral de Chambers et al.28 y Hamadani et al.29.
Los resultados del presente estudio indican que la cantidad de características se redujo efectivamente en el conjunto de datos utilizando el análisis de componentes principales, lo que redujo sustancialmente la cantidad efectiva de parámetros que caracterizan el modelo subyacente. Los pesos corporales tomados a distintas edades desde el destete tuvieron las mayores puntuaciones de características. Esto es de esperar, como también se desprende de las curvas de crecimiento de varios animales en los que el peso corporal es el parámetro más importante30.
Los investigadores han demostrado que la selección de funciones aumenta el funcionamiento de los algoritmos de aprendizaje tanto en términos de tiempo de cálculo como de precisión31,32. Nuestros resultados de que el PCA reduce la multicolinealidad a 1 se corresponden con los resultados de muchos autores33,34, ya que el PCA se ha informado en la literatura como uno de los métodos más comunes para reducir la multicolinealidad en el conjunto de datos. El conjunto de datos FS tenía una alta multicolinealidad ya que la selección de características reduce el número de características totales sin tener que lidiar con la multicolinealidad presente dentro del conjunto de datos. Se ha informado en la literatura que la multicolinealidad no afecta el poder predictivo o la confiabilidad del modelo final. Las predicciones del modelo para la regresión de crestas y la cresta bayesiana similares a la nuestra fueron reportadas por 19, quienes también utilizaron varias técnicas de aprendizaje automático para la predicción de pesos y reportaron valores altos de R2 cercanos a 0,988. Se utilizó una validación cruzada diez veces mayor para entrenar el modelo, que también fue considerada la más apropiada por 19. Sin embargo35, utilizaron una validación cruzada 20 veces mayor en su estudio para predecir los valores genéticos.
Kumar et al.36 y Adebiyi et al.37 también afirmaron un alto coeficiente de determinación (0,92) para la estimación del peso a partir de mediciones y predicción de enfermedades, mientras que38 informaron valores R2 de 0,70, 0,784 y 0,74 para la predicción del peso corporal. en tres razas de ovejas egipcias, ovejas Morkaraman y cabras Malabari, respectivamente. El valor R2, así como el coeficiente de correlación del conjunto de datos PCA, fue mayor que el conjunto de datos PCA+FS, de lo que se puede inferir que PCA no es sólo una técnica efectiva para la reducción de datos sino también una mayor reducción de datos en el conjunto de datos. causó cierta pérdida de varianza en el conjunto de datos.
En comparación con el modelado heurístico, los algoritmos de optimización tardaron más en ejecutarse. A medida que aumenta el número de cálculos, se vuelven cada vez más difíciles de resolver y consumen cada vez más potencia computacional, lo que a veces incluso provoca fallas del sistema. Esto se debe a que los algoritmos de optimización prueban una cantidad mucho mayor de opciones disponibles para ajustar el mejor modo.
Nuestros resultados indican que los tres conjuntos de datos entrenados son comparables en términos de coeficiente de correlación o error de entrenamiento. El conjunto de datos PCA+FS convergió antes que los otros dos conjuntos de datos tras el ajuste de hiperparámetros, lo que puede deberse a que la cantidad de características dentro de este conjunto de datos es menor que la de los otros dos y, por lo tanto, la convergencia se produjo antes que los otros dos conjuntos de datos. Esto es importante para la eficiencia del entrenamiento, especialmente cuando los conjuntos de datos son grandes y la potencia computacional disponible para el investigador es limitada.
De los tres conjuntos de datos entrenados mediante optimización de hiperparámetros y luego mediante modelado heurístico, el conjunto de datos PCA mostró el coeficiente de correlación más alto de 0,977. De esto se puede inferir que PCA se encargó eficientemente de la selección de características que podrían explicar suficientemente la varianza de los datos. FS por sí solo tuvo un mejor rendimiento que el conjunto de datos PCA+FS, lo que continúa diciendo que algunas de las variaciones explicadas pueden haberse perdido cuando ambas técnicas se utilizaron juntas. La reducción en la cantidad de características en este conjunto de datos por sí sola no fue suficiente para lograr la mayor capacidad predictiva de este conjunto de datos. Mayor correlación para la predicción del rendimiento de grasa de 0,93 cuando lo predijo ANN por Shahinfar et al.39. Peters y cols. (2016) utilizaron el modelo MLP-ANN para lograr correlaciones predictivas de 0,53 para el peso al nacer, 0,65 para el peso a los 205 días y 0,63 para el peso a los 365 días, que es mucho menor que nuestra predicción. Khorshidi-Jalali y Mohammadabadi40 compararon las RNA y los modelos de regresión para llegar al peso corporal en cabras de Cachemira y descubrieron que la capacidad del modelo de red neuronal artificial era mejor. Sin embargo, a diferencia de nuestros resultados, este valor fue 0,86 para ANN.
Los algoritmos genéticos tuvieron un rendimiento deficiente en comparación con otros algoritmos. Los valores inferiores a los esperados también pueden ser la razón por la que los algoritmos genéticos rara vez se utilizan para la regresión directa. También se informó que los algoritmos genéticos son más adecuados para optimizar espacios paramétricos grandes y complejos41.
Para SVM, el conjunto de datos FS tuvo el coeficiente de correlación más alto con las etiquetas de prueba y los hiperparámetros para los cuales se realizó la búsqueda en la cuadrícula. El kernel lineal superó consistentemente al kernel rbf, lo que sugiere que los datos de predicción de peso son linealmente separables. Se ha informado que el núcleo rbf funciona mejor en la estimación de funciones no lineales al evitar que el ruido tenga una alta capacidad de generalización42. Ben-Hur et al.43 también observaron que los núcleos no lineales, gaussianos o polinomiales, conducen sólo a una ligera mejora en el rendimiento en comparación con un núcleo lineal. Sin embargo, utilizando un núcleo lineal, Long et al.44 informaron un coeficiente de correlación más bajo, de 0,497 a 0,517, para la predicción de rasgos cuantitativos. Alonso et al.45 también utilizaron 3 técnicas diferentes de RVS para la predicción del peso corporal y reportaron errores de predicción (MAE) más altos de 9,31 ± 8,00, 10,98 ± 11,74, 9,61 ± 7,90 para las 3 técnicas. Huma e Iqbal19 también utilizaron la regresión de vectores de soporte para la predicción del peso corporal en ovejas y reportaron coeficientes de correlación, R2, MAE y RMSE de 0,947, 0,897, 3,934 y 5,938 respectivamente, que están cerca de los valores de la presente investigación.
El ajuste de hiperparámetros mejoró los resultados de la predicción y la búsqueda aleatoria tuvo un mejor rendimiento que la búsqueda en cuadrícula para la predicción del valor genético para la mayoría de las predicciones, excepto FS, donde la búsqueda en cuadrícula proporcionó los mejores resultados de correlación. La búsqueda aleatoria es muy similar a la búsqueda en cuadrícula, aunque se ha informado consistentemente que produce mejores resultados comparativamente46 al buscar efectivamente en un espacio de configuración más grande y menos prometedor.
Debido a una diferencia en la relevancia de los hiperparámetros para los diferentes modelos disponibles, la búsqueda en cuadrícula a veces se convierte en una mala elección para construir algoritmos para diferentes conjuntos de datos. Los hiperparámetros mejoraron la capacidad de predicción de los bosques aleatorios, lo cual también fue publicado por 47,48. Huma e Iqbal19 también utilizaron árboles de regresión para la misma predicción y reportaron R2 y MAE de 0,896, 4,583. También utilizaron bosques aleatorios para la predicción del peso corporal en ovejas e informaron coeficientes de correlación, R2, MAE y RMSE de 0,947, 0,897, 3,934 y 5,938 respectivamente. En comparación con otros modelos. Muchos autores19,49 han afirmado que el método de bosques aleatorios y sus variantes producen los errores más bajos. Jahan et al.50 informaron valores más bajos para bosques aleatorios (RF) y reportaron un R2 de 0,911 para la predicción del peso corporal de las ovejas Balochi. Çelik y Yilmaz51 también utilizaron el algoritmo CART y reportaron valores más bajos que el presente estudio de R2 = 0,6889, Adj. R2 = 0,6810, r = 0,830 y RMSE = 1,1802, respectivamente. También se ha sugerido que RF es una opción importante para modelar relaciones complejas entre variables en comparación con muchos otros modelos de ML para investigadores en función de sus características. De manera similar a los resultados reportados en el presente estudio, también se encontró que los bosques aleatorios generalmente superan a otros árboles de decisión, pero su precisión fue menor que la de los árboles potenciados por gradiente. Se informa que los algoritmos de refuerzo funcionan bien en una amplia variedad de condiciones52,53. Sin embargo, es importante mencionar que la convergencia de los algoritmos también depende en gran medida de las características de los datos54,55.
En este estudio se utilizaron parámetros morfométricos junto con el peso corporal para la predicción del peso corporal con alta correlación. Se informó que la mayor variación del peso corporal se debe a la combinación de circunferencia del pecho, longitud del cuerpo y altura para la predicción del peso corporal por56.
XgBoost superó al algoritmo de aumento de gradiente para la predicción del peso corporal. Para el algoritmo XGBoost, se encontró que tanto la precisión como la velocidad de entrenamiento eran mejores. Esto también lo publicaron Bentéjac et al.57, quienes compararon XGBoost con varios algoritmos de aumento de gradiente. Niang et al.58 también demostraron que el algoritmo XGBoost logra un valor de error más bajo en comparación con los bosques aleatorios. XGBoost utiliza regularización avanzada (L1 y L2), lo que puede haber sido el motivo de las capacidades mejoradas de generalización del modelo36.
La mayor correlación se encontró para el conjunto de datos FS + PCA, lo que significa que a través de esta técnica se puede hacer una mejor predicción utilizando la menor cantidad de características. La regresión del vector de soporte proporcionó una convergencia ligeramente mejor que la de los k vecinos más cercanos, lo que también afirmaron Ramyaa et al.59 en su estudio sobre el fenotipado de sujetos en función del peso corporal. También se ha informado que los resultados de KNN están algo sesgados hacia la media con los valores extremos de las variables independientes, pero esto no afectó los resultados del presente estudio.
El conjunto de datos de FS arrojó el coeficiente de correlación más alto utilizando el algoritmo splines de regresión adaptativa multivariante. Nuevamente, la presencia de una mayor cantidad de características que los otros dos conjuntos de datos podría haber contribuido a esto. Se reportaron valores de R2 más cercanos a los obtenidos en este estudio de 0,972 obtenidos del algoritmo MARS para predicción del peso final de engorde de toros60. Çelik y Yilmaz51 también utilizaron MARS para predecir el peso corporal y reportaron valores ligeramente más altos de R2 igual a 0,919, RMSE igual a 0,604 y r igual a 0,959. Se informó que el algoritmo MARS era un modelo flexible que revelaba los efectos de la interacción y minimizaba la varianza residual61.
Para la predicción del peso corporal, el algoritmo MARS dio las mejores predicciones basadas en el coeficiente de correlación y para la predicción del valor genético, los algoritmos basados en árboles dieron los mejores resultados. El conjunto de datos FS superó a los conjuntos de datos PCA y PCA+FS en la mayoría de los casos, excepto en los algoritmos genéticos y las redes neuronales entrenadas tanto mediante optimización de hiperparámetros como mediante modelado heurístico y KNN (pero solo por un margen muy estrecho). Esto puede atribuirse a una mayor cantidad de características presentes dentro del conjunto de datos FS que contribuyen a que cada una cause la adición de alguna variación explicada adicional dentro del conjunto de datos hacia la variable predicha. La regresión bayesiana superó a la regresión de crestas por un pequeño margen y continuó diciendo que la multicolinealidad dentro del conjunto de datos FS no causó ningún problema de convergencia, lo cual también está respaldado por la literatura.
La inteligencia artificial es un área prometedora que tiene el potencial de hacer predicciones precisas sobre diversos aspectos de la gestión agrícola y, por tanto, puede ser una alternativa viable a las estrategias convencionales. En este estudio se desarrollaron 12 modelos desplegables y reutilizables para la predicción del peso corporal a los 12 meses de edad. Todos los modelos tenían una alta capacidad de predicción y los algoritmos basados en árboles generalmente superaban a otras técnicas en tareas basadas en regresión. Estos, si se personalizan y se implementan en las granjas, ayudarían a tomar decisiones informadas. Por lo tanto, la modernización agrícola sería beneficiosa para la producción animal y la economía agrícola contribuiría así al objetivo más amplio de lograr la seguridad alimentaria.
Para predecir el peso corporal, se utilizaron datos de 11 años (2011-2021) para la raza Corriedale y se recopilaron de una granja de ovejas organizada en Cachemira. El número total de puntos de datos disponibles para el estudio fue 37201. Los datos brutos iniciales incluyeron números de animales (número de marca, etiqueta en la oreja), fecha de nacimiento, sexo, pelaje al nacer, tamaño de la camada, fecha de destete, registro de los padres (número de madre, número de padre, número de madre). peso, capacidad de ordeño de la madre, historial de partos), color del pelaje, hora de nacimiento, pesos corporales (pesos corporales semanales hasta la cuarta semana, pesos quincenales hasta la sexta quincena, peso corporal mensual hasta el mes 12), mediciones morfométricas mensuales hasta el destete. , datos meteorológicos (temperatura y humedad diaria), registros de eliminación, registros de tratamiento. Las características se determinaron heurísticamente y utilizando técnicas que se analizan más adelante. Se limpiaron los datos sin procesar y se eliminaron las filas duplicadas con demasiados valores faltantes. La imputación de datos se realizó de forma iterativa utilizando la regresión de cresta bayesiana62. Se utilizó winsorización para manejar valores atípicos y los datos se codificaron adecuadamente y también se realizó la estandarización. Esto se logró dividiendo, restando la media de cada característica y dividiendo por la desviación estándar. Los datos se dividieron en entrenamiento y prueba, y la división óptima de la prueba del tren se determinó heurísticamente con datos de prueba iguales al 10% y datos de entrenamiento iguales al 90% del conjunto de datos. El conjunto total de datos de entrenamiento fue nuevamente para validación y los datos de validación representaron el 10 por ciento de los datos de entrenamiento.
Para disminuir la cantidad de variables de entrada en el conjunto de datos y seleccionar las que más contribuyen a la varianza, se realizó una reducción de dimensionalidad mediante análisis de componentes principales (PCA) y selección de características. PCA es una técnica estadística que convierte linealmente características correlacionadas en un conjunto de características no correlacionadas. Esto se hace mediante transformación ortogonal. La selección de características se realizó en Python basándose en la estimación de la prueba F del grado de dependencia lineal entre dos variables numéricas: la entrada y la salida. La selección de características se realizó tanto para los conjuntos de datos originales como después de extraer características de PCA. Las variables de entrada fueron constantes en todos los métodos de ML utilizados en este estudio para eliminar el sesgo que un número desigual de características/variables de entrada podría causar durante el proceso de entrenamiento. Así, se crearon tres conjuntos de datos:
El conjunto de datos de análisis de componentes principales (PCA) en el que se utilizó principalmente la técnica PCA para la reducción de dimensionalidad.
El conjunto de datos de selección de características (FS) donde se utilizó la estimación de la prueba F del grado de dependencia lineal entre dos variables numéricas para la reducción de dimensionalidad.
El conjunto de datos PCA+FS en el que se utilizaron ambas técnicas para lograr una cantidad muy reducida de funciones.
También se utilizaron mediciones morfométricas puras para predecir el peso corporal utilizando RNA. Este constituyó el conjunto de datos de DM que se utilizó para la predicción del peso al destete. Esto se hizo porque las mediciones morfométricas eran muy escasas en el conjunto de datos después del destete.
Se utilizaron como etiquetas los pesos corporales a los 12 meses de edad. El peso al destete también se utilizó como etiqueta para uno de los algoritmos.
En este estudio se emplearon un total de 11 algoritmos de IA. La predicción del parámetro de peso se realizó utilizando medidas corporales, así como pesos corporales anteriores, como atributos de entrada a redes neuronales artificiales. Los hiperparámetros se optimizaron utilizando algoritmos de búsqueda aleatoria y de cuadrícula de búsqueda y, más tarde, también mediante ajuste heurístico.
En este estudio se realizó una comparación de los siguientes algoritmos de aprendizaje automático:
Esta técnica funciona según el principio de que la salida 'y' se extrae de una distribución de probabilidad y no de un valor único. Debido a la inclusión de un enfoque probabilístico, se espera que el modelo se entrene mejor. Por lo tanto, el valor previo para el coeficiente "w" se obtiene utilizando gaussiano esférico y la regularización L2 probada, que es un enfoque eficaz para la multicolinealidad [10]. La función de costo es un término lambda para una penalización que reduce los parámetros, reduciendo así la complejidad del modelo para obtener estimaciones insesgadas. Se utilizaron los parámetros predeterminados de \(1 {e^{-6}}\) para alfa 1 y alfa 2. Estos son hiperparámetros para los parámetros de forma y velocidad de la distribución.
Esta popular técnica de aprendizaje automático está inspirada en las neuronas que se encuentran en los sistemas neuronales de los animales. Por lo tanto, una red neuronal es sólo un grupo de unidades/nodos que están conectados entre sí para formar neuronas artificiales[18]. Esta conexión es similar a una neurona. Los números, al igual que las señales en un cerebro real, se transmiten como señales entre las neuronas artificiales y la salida de cada una se calcula después de agregar una no linealidad a la suma de todas las entradas a esa neurona en particular. En una visión más amplia, la red de neuronas se forma cuando muchas de esas neuronas se agregan en capas. Cuanto mayor sea el número de neuronas, más densa será la red neuronal. La adición de muchas capas internas es lo que hace que la red sea profunda. Los rangos de hiperparámetros para los conjuntos de datos PCA+FS, PCA y FS respectivamente para redes neuronales artificiales fueron iteraciones = 1000, 200, 1000. Tasa de aprendizaje = 0,001, 0,5 para el conjunto de datos PCA +FS, 0,001, 0,5 para el conjunto de datos PCA, 0,001, 0,5 para FS conjunto de datos. Tasa de abandono = 0,01, 0,9 para el conjunto de datos PCA +FS, 0,01, 0,9 para el conjunto de datos PCA, 0,01, 0,9 para el conjunto de datos FS. Las capas ocultas para el conjunto de datos PCA+FS = 1–5, el conjunto de datos PCA = 1–7 y el conjunto de datos FS = 1–10. Las neuronas por capa para el conjunto de datos PCA+FS = 1300, el conjunto de datos PCA = 1400 y el conjunto de datos FS = 1400. Los tamaños de lote por capa para el conjunto de datos PCA+FS = 8, 10, 16, 20, el conjunto de datos PCA = 8, 10 , 16, 20, 30 y conjunto de datos FS = 8, 10, 16, 20, 30. Las opciones de activación y optimizadores para los conjuntos de datos fueron 'tanh', 'sigmoid', 'ReLU' y 'adam', 'rms' y 'sgd'.
Este algoritmo de aprendizaje automático supervisado (SVM) es útil para resolver problemas tanto de regresión (SVR) como de clasificación (SVM). SVM funciona creando un hiperplano de margen máximo en el espacio de entrada transformado. De esta manera, se optimiza la solución y se utiliza un problema de optimización cuadrática para derivar los parámetros de la solución del hiperplano. Los parámetros de búsqueda de cuadrícula para máquinas de vectores de soporte con los rangos de Param grid \(\copyright \) iguales a 0.1, 1, 100, 10, 1000, gamma igual a 1, 0.1, 0.01, 0.001, 0.0001 y kernels iguales a 'rbf ', 'sigmoideo', 'lineal'. Se realizó una búsqueda aleatoria de los hiperparámetros preespecificados para estimar los mejores. Los rangos de hiperparámetros para la búsqueda de cuadrícula y la búsqueda aleatoria, respectivamente, fueron Bootstrap True y True, False, profundidad máxima 5, 10, 20, 15, 30, Ninguno y 4 valores espaciados uniformemente entre 5 y 20, características máximas iguales a = 'auto', 'log2' y 'auto', 'log2', 'sqrt', n estimadores iguales a 5–13, 15, 20 y 20 valores espaciados uniformemente entre 5 y 25.
El algoritmo CART funciona construyendo un árbol de decisión. Este árbol de decisión trabaja con el índice de impurezas de Gini y lo utiliza para llegar a una decisión final. De manera análoga a un árbol real, cada ramificación o bifurcación representa una decisión y la variable predictora se segrega hacia cualquiera de los muchos puntos de ramificación. Y al final, el nodo final llega a la variable objetivo final.
Los bosques aleatorios son similares a otros algoritmos basados en árboles. La teoría, sin embargo, utiliza métodos de aprendizaje conjunto en los que se construyen muchos árboles de decisión para llegar a la solución más óptima. Por lo tanto, el promedio de la predicción obtenida de todos esos árboles se toma como resultado final.
De nuevo, un algoritmo de conjunto basado en árboles que utiliza muchos árboles de decisión de predicción débiles. Así, el modelo final se construye por etapas. Esto permite la optimización de una función de pérdida diferenciable arbitraria que hace que este algoritmo sea mejor que muchos basados en árboles. Las opciones de hiperparámetro del algoritmo de aumento de gradiente fueron tasa de aprendizaje = 0,001, 0,01, 0,1, N estimadores = 500, 1000, 2000, submuestra = 0,5, 0,75, 1, profundidad máxima = 1, 2, 4 y estado aleatorio = 1.
También un algoritmo basado en árboles de decisión que utiliza marcos de aumento de gradiente para llegar a las soluciones más óptimas. XGBoost utiliza parámetros de aleatorización adicionales, penalización de árboles, reducción proporcional de los nodos de las hojas y aumento de Newton. El ajuste de hiperparámetros para la búsqueda de cuadrícula XGBoost se tomó como tasas de aprendizaje = 0,001, 0,01, 0,05, 0,1, profundidades máximas = 3, 5, 7, 10, 20, peso mínimo del niño = 1, 3, 5, submuestra = 0,5, 0,7, colmuestra por árbol = 0,5, 0,7, N estimadores = 50, 100, 200, 500, 1000 y Objetivo = 'reg: error al cuadrado.
La regresión polnominal lleva la regresión monomial un paso adelante porque aquí, la relación entre las variables independientes y dependientes se representa como el polinomio de enésimo grado. Esta técnica es útil para relaciones no lineales entre las variables dependientes e independientes. Se verificaron 10 grados de polinomios para la regresión polinomial con una media de 6 para cada algoritmo. La regresión polinómica se implementó utilizando el paquete sklearn en Python. Los mejores parámetros para el algoritmo también se obtuvieron mediante ajuste de hiperparámetros.
Un algoritmo de aprendizaje automático simple y eficaz que es un clasificador de aprendizaje no paramétrico. Utiliza la proximidad para predecir puntos de datos. Se supone que puntos similares estarían cerca unos de otros en un gráfico y, por lo tanto, se toma un valor predicho como el promedio del número n (k vecinos más cercanos) de puntos similares. que los puntos que son similares se encontrarían cerca uno del otro. Se empleó la búsqueda de cuadrícula para KNN con un rango de 2 a 11.
MARS combina múltiples funciones lineales simples para agregarlas formando la curva que mejor se ajusta a los datos. Combina ecuaciones lineales en una ecuación agregada. Esto es útil para situaciones en las que la regresión lineal o polinómica no funciona. El algoritmo MARS también se utilizó para la validación cruzada K-fold de los tres conjuntos de datos. Se utilizaron 10 divisiones y 3 repeticiones.
Técnicas que resuelven problemas de optimización con y sin restricciones, ya que son algoritmos heurísticos de búsqueda adaptativa que pertenecen a la clase más amplia de algoritmos evolutivos. Inspirándose en la selección natural y la genética, los algoritmos genéticos simulan la “supervivencia del más apto” entre los individuos de cada generación para resolver un problema. Cada generación consta de una población de individuos, todos los cuales representan puntos en el espacio de búsqueda.
Para la evaluación del modelo se utilizaron cuatro criterios de puntuación. Y dado que la tarea en cuestión era una regresión, estos fueron los errores cuadráticos medios (MSE) dados en la ecuación. 1, error absoluto medio (MAE) dado en la ecuación. 2, coeficiente de determinación (R2) presentado en la Ec.,3, y coeficiente de correlación \(r\) representado en la Ec. 4.
Aquí yi es igual al valor real de la i-ésima observación, xi es el valor calculado para la i-ésima observación y n representa el número total de observaciones.
Los datos analizados durante el estudio actual no están disponibles públicamente porque los autores no tienen permiso para compartirlos públicamente, pero están disponibles a través del autor correspondiente a solicitud razonable.
Neethirajan, S. El papel de los sensores, los big data y el aprendizaje automático en la ganadería moderna. Sens. Bio-Sens. Res. 29, 100367. https://doi.org/10.1016/j.sbsr.2020.100367 (2020).
Artículo de Google Scholar
Hamadani, A. y col. Razas de ganado y aves de corral de jammu y cachemira y ladakh. Indio J. Anim. Ciencia. 92, 409–416. https://doi.org/10.56093/ijans.v92i4.124009 (2022).
Artículo de Google Scholar
Hamadani, H., Khan, A. y Banday, M. Cachemira y cría de gansos. Ciencia avícola mundial. J. 76, 144-153. https://doi.org/10.1080/00439339.2020.1711293 (2020).
Artículo de Google Scholar
Hamadani, H. & Khan, AA Automatización en la ganadería: una revolución tecnológica. En t. J. Adv. Res. 3, 1335-1344 (2015).
CAS Google Académico
Hamadani, H. y col. Caracterización morfométrica de gansos locales en el valle de Cachemira. Indio J. Anim. Ciencia. 84, 978–981 (2014).
Google Académico
Hamadani, A., Ganai, NA, Khan, NN, Shanaz, S. y Ahmad, T. Estimación de tendencias genéticas, de heredabilidad y fenotípicas para el peso y los rasgos de lana en ovejas rambouillet. Rumino Pequeño. Res. 177, 133-140. https://doi.org/10.1016/j.smallrumres.2019.06.024 (2019).
Artículo de Google Scholar
Hamadani, A. & Ganai, NA Desarrollo de un sistema de apoyo a la toma de decisiones de usos múltiples para la gestión científica y la cría de ovejas. Ciencia. Rep. 12, 19360. https://doi.org/10.1038/s41598-022-24091-y (2022).
Artículo ADS CAS PubMed PubMed Central Google Scholar
Hamadani, A., Ganai, NA y Rather, MA Tendencias genéticas, fenotípicas y de heredabilidad para el peso corporal en ovejas merinas de Cachemira. Rumino pequeño. Res. 205, 106542. https://doi.org/10.1016/j.smallrumres.2021.106542 (2021).
Artículo de Google Scholar
Khan, NN y cols. Evaluación genética del desempeño del crecimiento en ovejas corriedale en j y k, India. Rumino Pequeño. Res. 192, 106197. https://doi.org/10.1016/j.smallrumres.2020.106197 (2020).
Artículo de Google Scholar
Baba, J., Hamadani, A., Shanaz, S. y Rather, M. Factores que afectan las características de la lana de las ovejas corriedale en la región templada de Jammu y Cachemira. Indio J. Pequeño Rumin. (El) 26, 173. https://doi.org/10.5958/0973-9718.2020.00035.5 (2020).
Artículo de Google Scholar
Cihan, P., Gökçe, E., Atakisi, O., Kirmzigül, AH y Erdogan HM Predicción de inmunoglobulina g en corderos con métodos de inteligencia artificial. Revista de la Facultad de Medicina Veterinaria de la Universidad Kafkashttps://doi.org/10.9775/kvfd.2020.24642(2021).
Más bien, M. et al. Efecto de factores no genéticos sobre la supervivencia y la mortalidad acumulada de corderos merinos de Cachemira. Indio J. Pequeño Rumin. (El) 26, 22. https://doi.org/10.5958/0973-9718.2020.00011.2 (2020).
Artículo de Google Scholar
CİHAN, P., GÖKÇE, E. & KALIPSIZ, O. Una revisión sobre las aplicaciones del aprendizaje automático en medicina veterinaria. Revista de la Facultad de Medicina Veterinaria de la Universidad Kafkashttps://doi.org/10.9775/kvfd.2016.17281(2017).
Karabag, K., Alkan, S. & Mendes, M. Determinación de factores que afectan el poder sexual en huevos de perdiz Knal (alectoris chukar) mediante el método del árbol de clasificación (Kafkas Univ. Vet. Fak, Derg, 2009).
Takma, C., Atil, H. & Aksakal, V. Comparación de la adaptabilidad de modelos neuronales artificiales y de regresión lineal múltiple a la producción de leche durante la lactancia (Kafkas Univ. Vet. Fak, Derg, 2012).
Hamadani, A. y col. Técnicas de inteligencia artificial para la predicción de pesos corporales en ovinos. Indio J. Anim. Res.https://doi.org/10.18805/ijar.b-4831 (2022).
Artículo de Google Scholar
Hamadani, A. y col. Comparación de algoritmos de inteligencia artificial y su ranking para la predicción del mérito genético en ovejas. Ciencia. Rep. 12, 18726. https://doi.org/10.1038/s41598-022-23499-w (2022).
Artículo ADS CAS PubMed PubMed Central Google Scholar
Hamadani, A., Ganai, NA y Bashir, J. Redes neuronales artificiales para la minería de datos en ciencias animales. Toro. Nacional. Res. Centavo. 47, 68. https://doi.org/10.1186/s42269-023-01042-9 (2023).
Huma, ZE & Iqbal, F. Predicción del peso corporal de las ovejas balochi mediante un enfoque de aprendizaje automático. Turco. J. Veterinario. Ciencia. 43, 500–506. https://doi.org/10.3906/vet-1812-23 (2019).
Artículo de Google Scholar
Arowolo, MO, Aigbogun, HE, Michael, PE, Adebiyi, MO y Tyagi, AK Un modelo predictivo para clasificar el cáncer colorrectal mediante análisis de componentes principales. En Ciencia de datos para genómica, 205–216, https://doi.org/10.1016/b978-0-323-98352-5.00004-5 (Elsevier, 2023).
Arowolo, MO y cols. Desarrollo de un enfoque de chi-cuadrado para clasificar la predicción del accidente cerebrovascular isquémico. En Sistemas de información y ciencias de la gestión, 268–279, (Springer International Publishing, 2022). https://doi.org/10.1007/978-3-031-13150-9_23
Abdulsalam, SO, Arowolo, MO y Ruth, O. Modelo de predicción de la enfermedad de accidente cerebrovascular mediante ANOVA con algoritmos de clasificación. En Inteligencia artificial en virología médica, 117–134, (Springer Nature Singapore, 2023). https://doi.org/10.1007/978-981-99-0369-6_8
Cihan, P., Gökçe, E., Atakişi, O., Kirmizigül, AH & Erdoğan, HM Predicción de inmunoglobulina g en corderos con métodos de inteligencia artificial. Revista de la Facultad de Medicina Veterinaria de la Universidad Kafkas (2021).
Arowolo, MO, Adebiyi, M., Adebiyi, A. y Okesola, O. Modelo Pca para la clasificación de datos de vectores de malaria rna-seq utilizando knn y algoritmo de árbol de decisión. En 2020, Conferencia Internacional de Matemáticas, Ingeniería Informática y Ciencias de la Computación (ICMCECS), 1–8, https://doi.org/10.1109/ICMCECS47690.2020.240881(2020).
Arowolo, MO, Adebiyi, MO y Adebiyi, AA Un enfoque eficiente de aprendizaje conjunto de PCA para la predicción de la clasificación de datos de expresión génica del vector de malaria RNA-seq. En t. J. Ing. Res. Tecnología. 13, 163. https://doi.org/10.37624/ijert/13.1.2020.163-169 (2020).
Artículo de Google Scholar
Arowolo, MO, Awotunde, JB, Ayegba, P. & Sulyman, SOH Selección de genes relevantes utilizando el enfoque de optimización de colonias de hormigas ANOVA para la clasificación de datos de vectores de malaria. En t. J. Modell. Identificativo. Control 41, 12. https://doi.org/10.1504/ijmic.2022.127093 (2022).
Artículo de Google Scholar
Anderson, CA Temperatura y agresión: efectos en las tasas trimestrales, anuales y de la ciudad de delitos violentos y no violentos. J. Personal. Soc. Psicólogo. 52, 1161-1173. https://doi.org/10.1037/0022-3514.52.6.1161 (1987).
Artículo CAS Google Scholar
Chambers, R., Kokic, P., Smith, P. & Cruddas, M. Winsorización para identificar y tratar valores atípicos en encuestas empresariales. Actas de la Segunda Conferencia Internacional sobre Encuestas de Establecimientos 717–726 (2000).
Hamadani, A. y col. Eliminación de valores atípicos en conjuntos de datos de granjas ovinas mediante winsorización. Bhartiya Krishi Anusandhan Patrika https://doi.org/10.18805/bkap397 (2022).
Artículo de Google Scholar
Swatland, HJ Estructura y desarrollo de animales de carne y aves de corral (CRC Press, 1994).
Abualigah, LM, Khader, AT & Hanandeh, ES Un nuevo método de selección de características para mejorar la agrupación de documentos utilizando un algoritmo de optimización de enjambre de partículas. J. Computación. Ciencia. 25, 456–466. https://doi.org/10.1016/j.jocs.2017.07.018 (2018).
Artículo de Google Scholar
Sharma, M. Estimación mejorada del trastorno del espectro autista utilizando el subconjunto cfs con una técnica de selección de características paso a paso codiciosa. En t. J.Inf. Tecnología. 14, 1251-1261 (2022).
Google Académico
Sugiarto, T. Aplicación del análisis de componentes principales (pca) para reducir la multicolinealidad del tipo de cambio de algunos países en Asia en el período 2004-2014. En t. J. Educación. Método. 3, 75–83. https://doi.org/10.12973/ijem.3.2.75 (2017).
Artículo de Google Scholar
Marco, PD & Nóbrega, CC Evaluación de los efectos de la colinealidad en modelos de distribución de especies: un enfoque basado en la simulación virtual de especies. MÁS UNO 13, e0202403. https://doi.org/10.1371/journal.pone.0202403 (2018).
Artículo CAS PubMed Google Scholar
Liang, M. y col. Un marco de aprendizaje de conjuntos apilables para la predicción genómica. https://doi.org/10.21203/rs.3.rs-52592/v1 (2020)
Kumar, S., Dahiya, S., Malik, Z., Patil, C. y Magotra, A. Análisis genético de los rasgos de rendimiento en ovejas harnali. Indio J. Anim. Res. 52, 643–648 (2018).
Google Académico
Adebiyi, MO, Arowolo, MO y Olugbara, O. Un algoritmo genético para la predicción de la clasificación de datos de expresión génica del vector de malaria RNA-seq utilizando núcleos SVM. Toro. eléctrico. Ing. Informar. 10, 1071–1079. https://doi.org/10.11591/eei.v10i2.2769 (2021).
Artículo de Google Scholar
Valsalan, J., Sadan, T. & Venketachalapathy, T. Análisis multivariado de componentes principales para evaluar el desempeño del crecimiento en cabras malabari de la India. tropo. Animación. Productos de salud. 52, 2451–2460. https://doi.org/10.1007/s11250-020-02268-9 (2020).
Artículo PubMed Google Scholar
Shahinfar, S. y col. Predicción de valores genéticos para ganado lechero mediante redes neuronales artificiales y sistemas neurodifusos. Computadora. Matemáticas. Métodos Med. 2012 (2012).
Khorshidi-Jalali, M., Mohammadabadi, M., Esmailizadeh, AK, Barazandeh, A. y Babenko, O. Comparación de redes neuronales artificiales y modelos de regresión para la predicción del peso corporal en cabras de cachemira Raini. Irán. J. Aplica. Animación. Ciencia. 9, 453–461 (2019).
Google Académico
Han, J., Gondro, C., Reid, K. y Steibel, JP Optimización heurística de hiperparámetros de modelos de aprendizaje profundo para predicción genómica. G3 Genes Genomas Genet. 11, 32. https://doi.org/10.1093/g3journal/jkab032 (2021).
Artículo de Google Scholar
Wang, J., Chen, Q. y Chen, Y. Máquina de vectores de soporte basada en kernel Rbf con aproximación universal y su aplicación. En Advances in Neural Networks—ISNN 2004 (eds Yin, F.-L. et al.) (Springer Berlin Heidelberg, Berlín, Heidelberg, 2004).
Google Académico
Ben-Hur, A., Ong, CS, Sonnenburg, S., Schölkopf, B. & Rätsch, G. Máquinas de vectores de soporte y núcleos para biología computacional. Computación PLoS. Biol. 4, e1000173. https://doi.org/10.1371/journal.pcbi.1000173 (2008).
Artículo ADS CAS PubMed PubMed Central Google Scholar
Long, N., Gianola, D., Rosa, GJM y Weigel, KA Aplicación de la regresión de vectores de soporte a la predicción de rasgos cuantitativos asistida por el genoma. Teor. Aplica. Gineta. 123, 1065-1074. https://doi.org/10.1007/s00122-011-1648-y (2011).
Artículo PubMed Google Scholar
Alonso, J., Villa, A. & Bahamonde, A. Estimación mejorada de las trayectorias del peso bovino utilizando la clasificación de máquinas de vectores de soporte. Computadora. Electrón. Agrícola. 110, 36–41. https://doi.org/10.1016/j.compag.2014.10.001 (2015).
Artículo de Google Scholar
Bergstra, J. & Bengio, Y. Búsqueda aleatoria para optimización de hiperparámetros. J. Mach. Aprender. Res. 13, 281–305 (2012).
MathSciNet MATEMÁTICAS Google Scholar
Probst, P., Wright, MN y Boulesteix, A.-L. Hiperparámetros y estrategias de ajuste para bosque aleatorio. CABLES Datos Min. Conocimiento. Descubrimiento. 9, e1301. https://doi.org/10.1002/widm.1301 (2019).
Artículo de Google Scholar
Kumar, N., Sharma, M., Singh, VP, Madan, C. y Mehandia, S. Un estudio empírico de técnicas de extracción de características densas y artesanales para la clasificación del cáncer de pulmón y colon a partir de imágenes histopatológicas. Biomédica. Proceso de señal. Control 75, 103596 (2022).
Artículo de Google Scholar
Sharma, M. & Kumar, N. Pronóstico mejorado de mortalidad por carcinoma hepatocelular mediante un enfoque de aprendizaje conjunto. J. Inteligencia ambiental. Humaniz. Computadora. 13, 5763–5777 (2022).
Artículo de Google Scholar
Jahan, M., Traiq, M., Kakar, M., Eyduran, E. y Waheed, A. Predicción del peso corporal a partir de las características corporales y testiculares de ovejas macho balochi en Pakistán utilizando diferentes análisis estadísticos. J.Anim. Ciencia vegetal. 23, 14-19 (2012).
Google Académico
Celik, S. y col. Predicción del peso corporal de perros tazi turcos mediante técnicas de minería de datos: árbol de clasificación y regresión (cart) y splines de regresión adaptativa multivariada (mars). Paquete. J. Zool. 50, 575–583 (2018).
Artículo de Google Scholar
Sharma, M. y col. Evaluación de partículas finas para una ciudad portuaria del este de la India peninsular utilizando un modelo de aprendizaje automático que impulsa el gradiente. Atmósfera (Basilea) 13, 743 (2022).
Artículo ADS CAS Google Scholar
Sharma, M. Pronóstico del cáncer de cuello uterino mediante algoritmo genético y enfoque de refuerzo adaptativo. Tecnología de la salud. (Berl.) 9, 877–886 (2019).
Artículo de Google Scholar
Piryonesi, SM & El-Diraby, TE Uso del aprendizaje automático para examinar el impacto del tipo de indicador de desempeño en el modelado de deterioro de pavimentos flexibles. J. Infraestructura. Sistema. 27, 04021005. https://doi.org/10.1061/(asce)is.1943-555x.0000602 (2021).
Artículo de Google Scholar
Piryonesi, SM & El-Diraby, TE Papel del análisis de datos en la gestión de activos de infraestructura: superar los problemas de calidad y tamaño de los datos. J. Transp. Ing. Parte B 146, 04020022. https://doi.org/10.1061/jpeodx.0000175 (2020).
Artículo de Google Scholar
Topai, M. & Macit, M. Predicción del peso corporal a partir de medidas corporales en ovejas morkaraman. J. Aplica. Animación. Res. 25, 97-100 (2004).
Artículo de Google Scholar
Bentéjac, C., Csörgő, A. & Martínez-Muñoz, G. A comparative analysis of gradient boosting algorithms. Artif. Intell. Rev. 54, 1937–1967. https://doi.org/10.1007/s10462-020-09896-5 (2020).
Artículo de Google Scholar
Niang, M. y col. Comparación de huellas dactilares que aumentan el bosque aleatorio y el gradiente extremo para mejorar un sistema de localización wifi en interiores. En 2021 Conferencia internacional sobre informática móvil, inteligente y ubicua (MIUCC), https://doi.org/10.1109/miucc52538.2021.9447676(IEEE, 2021).
Ramyaa, R., Hosseini, O., Krishnan, GP y Krishnan, S. Fenotipado de mujeres en función de los macronutrientes dietéticos, la actividad física y el peso corporal mediante herramientas de aprendizaje automático. Nutrientes 11, 1681. https://doi.org/10.3390/nu11071681 (2019).
Artículo PubMed PubMed Central Google Scholar
Aytekin, İ., Eyduran, E., Karadas, K., Akşahan, R. y Keskin, İ. Predicción del peso vivo final de engorde a partir de algunas medidas corporales y período de engorde en toros jóvenes de razas mestizas y exóticas mediante el algoritmo de minería de datos MARS. Paquete. J. Zool.https://doi.org/10.17582/journal.pjz/2018.50.1.189.195(2018).
Eyduran, E. et al. Comparación de las capacidades predictivas de varios algoritmos de minería de datos y regresión lineal múltiple en la predicción del peso corporal mediante medidas corporales en la cabra remolacha indígena de Pakistán. Paquete. J. Zool. https://doi.org/10.17582/journal.pjz/2017.49.1.273.282 (2017).
Tipping, M. Máquina de vectores de relevancia y aprendizaje bayesiano disperso. J. Mach. Aprender. Res. 1, 211–244. https://doi.org/10.1162/15324430152748236 (2001).
Artículo MathSciNet MATEMÁTICAS Google Scholar
Pedregosa, F. et al. Scikit-learn: aprendizaje automático en Python. J. Mach. Aprender. Res. 12, 2825–2830 (2011).
MathSciNet MATEMÁTICAS Google Scholar
Schmidhuber, J. Aprendizaje profundo en redes neuronales: una descripción general. Red neuronal. 61, 85-117 (2015).
Artículo PubMed Google Scholar
Cortes, C. & Vapnik, V. Redes de vectores de soporte. Mach. Aprender. 20, 273–297 (1995).
Artículo MATEMÁTICAS Google Scholar
Breiman, L., Friedman, J., Olshen, R. & Stone, C. Árboles de clasificación y regresión (las series de estadística/probabilidad de Wadsworth) 1–358 (Chapman y Hall, Nueva York, NY, 1984).
Ho, TK Bosques de decisión aleatoria. En Actas de la Tercera Conferencia Internacional sobre Análisis y Reconocimiento de Documentos, vol. 1, 278–282 (IEEE, 1995).
Chen, T. y Guestrin, C. Xgboost: un sistema de impulso de árboles escalable. En Actas de la 22ª Conferencia Internacional acm sigkdd sobre Descubrimiento de Conocimiento y Minería de Datos, 785–794 (2016).
Maulud, D. & Abdulazeez, AM Una revisión sobre la regresión lineal integral en el aprendizaje automático. J. Aplica. Ciencia. Tecnología. Tendencias 1, 140–147 (2020).
Artículo de Google Scholar
Altman, NS Introducción a la regresión no paramétrica del kernel y del vecino más cercano. Soy. Estadístico 46, 175–185 (1992).
MathSciNetGoogle Académico
Friedman, JH Splines de regresión adaptativa multivariada. Ana. Estadística. 19, 1–67 (1991).
MathSciNet MATEMÁTICAS Google Scholar
Yang, Z. y Yang, Z. Física biomédica integral (2004).
Descargar referencias
Instituto Nacional de Tecnología, Srinagar, India
Ambreen Hamadani
Universidad Sher-e-Kashmir de Ciencias y Tecnología Agrícolas de Cachemira, Cachemira, India
Nazir Ahmad Ganai
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
NAG y AH concibieron los experimentos, AH realizó los experimentos y analizó los resultados. Todos los autores revisaron el manuscrito.
Correspondencia a Ambreen Hamadani.
Los autores declaran no tener conflictos de intereses.
Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.
Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.
Reimpresiones y permisos
Hamadani, A., Ganai, NA Comparación y clasificación de algoritmos de inteligencia artificial para la predicción del peso en ovejas. Informe científico 13, 13242 (2023). https://doi.org/10.1038/s41598-023-40528-4
Descargar cita
Recibido: 02 de marzo de 2023
Aceptado: 11 de agosto de 2023
Publicado: 15 de agosto de 2023
DOI: https://doi.org/10.1038/s41598-023-40528-4
Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:
Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.
Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt
Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.