Guía completa

Matriz de confusión: qué es, cómo se utiliza y evaluaciones

La matriz de confusión proporciona una visión detallada del rendimiento del modelo, lo que le permite identificar cualquier error recurrente y tomar medidas correctivas. Los pasos a seguir.

Publicado el 14 Nov 2023

La matriz de confusión es un medio específico para analizar los errores de un modelo de aprendizaje automático (ML). A continuación, una guía práctica para evaluar el modelo de clasificación.

Matriz de confusión para evaluar el rendimiento de un modelo de clasificación

La matriz de confusión proporciona una visión detallada del rendimiento del modelo, lo que permite identificar cualquier error recurrente y tomar medidas correctivas. Permite evaluar la calidad de las predicciones del modelo de clasificación. En detalle, la matriz resalta dónde se equivoca el modelo, en qué casos responde peor y en cuáles mejor.

De hecho, es importante evaluar el modelo no solo en términos de precisión, sino también teniendo en cuenta las demás métricas. El objetivo es tener una visión más completa de su rendimiento.

La matriz de confusión es una herramienta muy útil para evaluar el rendimiento de un modelo de clasificación. Representa una tabla que muestra el número de predicciones correctas o incorrectas hechas por el modelo sobre un conjunto de datos de prueba.

La matriz de confusión se organiza en cuatro categorías

 Verdaderos positivos (TP), Verdaderos negativos (TN), Falsos positivos (FP) y Falsos negativos (FN). Los primeros representan el número de casos en los que el modelo dio una predicción correcta de una clase positiva.

Los Verdaderos Negativos (TN), por su parte, representan el número de casos en los que el modelo predijo correctamente una clase negativa.

La tercera categoría representa el número de casos en los que el modelo predijo incorrectamente una clase positiva, cuando en realidad era negativa. Se trata de una falsa alarma.

Los falsos negativos (FN), por último, indican el número de casos en los que el modelo predijo incorrectamente una clase negativa cuando en realidad era positiva. Se trata, por tanto, de una identificación errónea.

Confusion Matrix | How to evaluate classification model | Machine Learning Basics

Cómo utilizar la matriz de confusión para mejorar la precisión de la predicción

El filtro de spam entrante es un ejemplo perfecto de clasificador binario, en el que hay dos clases: sí o no. De hecho, el objetivo del modelo es decidir si el correo electrónico entrante es spam o no.

La matriz de confusión tiene filas que muestran las clases reales, las de las respuestas correctas. En cambio, las columnas tienen las clases de predicción, las de las respuestas del modelo. Pero la matriz de confusión también puede ser multiclase con tres clases.

El modelo analiza 80 correos electrónicos para clasificarlos como spam/no spam. En 60 casos, el modelo hace una clasificación correcta, mientras que en 20 comete errores.

Sin embargo, los errores y las respuestas correctas no son todos iguales. Si la clase predicha es Sí y coincide con la clase real, se trata de un caso positivo verdadero en el que el modelo ha dado una respuesta correcta (Sí).

El segundo caso es cuando la clase predicha es No y coincide con la clase real. Se trata de un caso de negativo verdadero en el que el modelo ha dado una respuesta negativa correcta (No).

El tercer caso es el falso positivo, en el que la clase predicha es Sí, pero no coincide con la clase real. Se trata del modelo que ha respondido incorrectamente Sí.

Si la clase predicha es No, pero no coincide con la clase real, se trata de un falso negativo en el que el modelo se equivocó al responder No. La matriz de confusión simplifica así la matriz de confusión.

La matriz de confusión simplifica así el análisis de errores, al dejar en claro que el modelo no retiene todos los correos basura (falsos negativos), sino que deja pasar unos 15 correos basura que se consideran válidos. En cambio, los falsos positivos son más raros: de hecho, de 80 mensajes, solo 5 correos válidos se confunden con spam.

Matriz de confusión: guía práctica para evaluar el modelo de clasificación

Matriz de confusión: métrica de evaluación esencial

La matriz de confusión puede utilizarse para calcular varias métricas de evaluación, como la tasa de error, la exactitud, la precisión, el recuerdo y la puntuación F1. Al poner la matriz de confusión y sus métricas asociadas bajo el microscopio, es posible identificar las áreas en las que el modelo es crítico. Entonces pueden tomarse medidas específicas para aumentar la precisión de las previsiones.

La tasa de error es una medida del porcentaje de error de previsión sobre el número total de instancias. Varía de 0 (mejor previsión) a 1 (peor escenario).

La precisión representa el porcentaje de predicciones correctas sobre el número total de predicciones. La precisión es la inversa del porcentaje de errores, por lo que varía de 0 (peor escenario) a 1 (mejor predicción).

La precisión indica el porcentaje de predicciones correctas en la clase positiva sobre el número total de predicciones en la clase positiva.

matriz de confusión: métricas

El recuerdo, por su parte, es el porcentaje de predicciones correctas de la clase positiva sobre el número total de casos de la clase positiva. El recuerdo o sensibilidad es el porcentaje de predicciones positivas correctas (TP) sobre el número total de casos positivos. Varía de 0 (peor predicción) a 1 (mejor predicción).

La puntuación F1 también representa la puntuación F, la media armónica de las métricas Precision y Recall. Varía de 0 (peor) a 1 (mejor) y proporciona una medida global del rendimiento del modelo.

Por último, otra métrica es la Especificidad, el porcentaje de predicciones negativas correctas (TN) sobre el número total de instancias negativas. Oscila entre 0 (peor) y 1 (mejor). La tasa de falsos positivos es el porcentaje de predicciones positivas incorrectas (PF) sobre el número total de instancias negativas. Oscila entre 0 (mejor) y 1 (peor).

La matriz de confusión para optimizar los parámetros del modelo de aprendizaje automático

La matriz de confusión no optimiza directamente los parámetros del modelo de aprendizaje automático. Sin embargo, proporciona información útil para evaluar el rendimiento del modelo y orientar la optimización de los parámetros.

Utilizándola, es posible obtener varias métricas de evaluación del modelo, como la exactitud, la precisión, el recuerdo y la puntuación F1, a partir de las cuales se puede obtener una visión general del rendimiento del modelo en varias clases o categorías.

A través de estas métricas, es posible identificar las áreas en las que el modelo está experimentando dificultades, por ejemplo, si supera un umbral de falsos positivos o falsos negativos, y tomar medidas específicas para corregir los errores cometidos.

Por ejemplo, si la precisión del modelo es baja, significa que está haciendo muchas predicciones erróneas de la clase positiva. En este caso, se podría intentar optimizar el modelo reduciendo el número de falsos positivos. Por ejemplo, simplemente cambiando el umbral de clasificación o aplicando técnicas de equilibrio de clases se reducirían los falsos positivos.

Del mismo modo, si el modelo tiene una baja recuperación, significa que está pasando por alto muchos casos positivos. En este caso, se podría intentar optimizar el modelo aumentando la recuperación, por ejemplo cambiando el umbral de clasificación o mediante técnicas de muestreo para aumentar la presencia de ejemplos positivos en el conjunto de entrenamiento.

Así, la matriz de confusión proporciona información valiosa para comprender el rendimiento del modelo y orientar la optimización de los parámetros, permitiendo hacer cambios específicos para mejorar las predicciones.

Matriz de confusión: gestión e interpretación de falsos positivos y falsos negativos

La gestión y la interpretación de los falsos positivos y los falsos negativos dependen del contexto específico del problema de clasificación y de las consecuencias de las predicciones incorrectas. Requieren un análisis cuidadoso del contexto del problema y de las consecuencias de las predicciones incorrectas, junto con el uso de métricas de evaluación y técnicas de optimización apropiadas para encontrar el equilibrio adecuado entre los dos tipos de error.

Los falsos positivos se producen cuando el modelo clasifica erróneamente una instancia como positiva, cuando en realidad pertenece a la clase negativa. Los falsos negativos, por su parte, se producen cuando el modelo clasifica erróneamente una instancia como negativa cuando en realidad pertenece a la clase positiva.

Para manejar e interpretar los falsos positivos y los falsos negativos, hay que evaluar las consecuencias de las predicciones incorrectas examinando las métricas de evaluación. Uno debe ajustar el umbral de clasificación así como utilizar técnicas de equilibrio de clases. Por último, uno debe analizar las características y patrones de los falsos positivos y falsos negativos. Esto es lo que se hace.

Consideraciones

Es importante comprender las consecuencias de las predicciones incorrectas para las distintas clases. Por ejemplo, en un sistema de detección de fraudes financieros, un falso positivo podría causar molestias al cliente. Por el contrario, un falso negativo podría provocar una pérdida financiera importante. Basándose en esto, puede decidir qué tipo de error es más crítico minimizar.

Métricas como la precisión, la recuperación y la puntuación F1 pueden ayudarlo a evaluar el equilibrio entre falsos positivos y falsos negativos. Por ejemplo, si quiere minimizar los falsos positivos, puede intentar aumentar la precisión. A la inversa, si quiere minimizar los falsos negativos, puede intentar aumentar la recuperación.

Cambiar el umbral de clasificación puede afectar al número de falsos positivos y falsos negativos. Aumentar el umbral reduce el número de falsos positivos a favor de aumentar los falsos negativos, mientras que reducir el umbral tiene el efecto contrario. Hay que encontrar un compromiso que se ajuste a las necesidades específicas del problema.

Si el conjunto de datos está desequilibrado, es decir, una clase está representada de forma significativamente diferente a la otra, los falsos positivos o negativos pueden ser más frecuentes para la clase infrarrepresentada. En este caso, pueden utilizarse técnicas como el muestreo o la adición de peso a las instancias para equilibrar las clases y reducir los errores.

El examen de las instancias mal clasificadas puede proporcionar información sobre las razones de los errores. Se pueden buscar características comunes entre los falsos positivos o falsos negativos y tomar medidas para mejorar el modelo, por ejemplo añadiendo nuevas características o recopilando más datos para esas instancias concretas.

Matriz de confusión: cómo diagnosticar y resolver errores comunes

Resolver los errores comunes de la matriz de confusión requiere un análisis cuidadoso de la información que proporciona la propia matriz.

Para diagnosticar y resolver los errores comunes, hay que seguir una serie de pasos. Debe analizarse la distribución de verdaderos positivos y verdaderos negativos, inicialmente examinando los valores TP y TN de la matriz de confusión. Si estos valores son bajos en comparación con el número total de instancias, puede ser necesario evaluar las características del conjunto de datos o del propio modelo. También sería útil recopilar datos adicionales o considerar el uso de técnicas de ingeniería de características para mejorar el rendimiento.

La atención debe centrarse en los valores FP y FN de la matriz de confusión. El examen de las instancias mal clasificadas puede ayudar a identificar patrones o características que estén causando los errores. Se puede recopilar información adicional sobre las instancias mal clasificadas y considerar la posibilidad de añadir nuevas características o utilizar técnicas de preprocesamiento de datos para abordar estos errores específicos.

El umbral de clasificación determina el punto de corte entre clases. Modificarlo puede ayudar a reducir errores comunes. Por ejemplo, si desea reducir los falsos positivos, puede aumentar el umbral para hacer la clasificación más conservadora. A la inversa, para reducir los falsos negativos, puede bajar el umbral, haciendo que la clasificación sea más inclusiva.

Si el conjunto de datos está desequilibrado, con una clase representada de forma significativamente diferente a la otra, pueden producirse errores comunes para la clase infrarrepresentada. En este caso, pueden utilizarse técnicas como el muestreo o la adición de peso a las instancias para equilibrar las clases y reducir los errores comunes.

Por último, es importante evaluar la calidad y representatividad de los datos. Si los datos de formación están incompletos, tienen ruido o no son representativos del problema real, pueden producirse errores comunes. Asegúrese de que la recopilación de datos es de alta calidad, garantizando datos que sean representativos del problema a resolver.

Prohibida su reproducción total o parcial.

¿Qué te ha parecido este artículo?

¡Su opinión es importante para nosotros!

C
Mirella Castigli
Temas principales

Especificaciones

E
Empresas

Nota 1 de 3