Lineal y logística: la relación entre los modelos de regresión
LLa función de costo de la regresión lineal minimiza el distancia entre puntos de datos y, por lo tanto, no puede interpretarse como un probabilidad.
LLa regresión logística es uno de los métodos más populares y fáciles para resolver tareas de clasificación, tiene su limitaciones pero incluso en la period del aprendizaje profundo (posterior a 2014) se usa ampliamente en todas partes.
En esta publicación, descubramos en qué se diferencia de la regresión lineal y su relación con ella. En resumen, sabemos que la regresión lineal no es tan útil para problemas relacionados con la clasificación. Por ejemplo, a continuación estamos tratando de encontrar un óptimo límite de decisión para diferenciar entre tumores malignos y benignos. Y debido a la incapacidad de la regresión lineal para manejar valores atípicos, incluso con dos atípicos (en el extremo derecho), las predicciones del modelo de IA se vuelven inútiles.
Ahora que tenemos una comprensión visible de las limitaciones de la regresión lineal, veamos cómo se conecta con la regresión logística y cómo la regresión logística maneja los valores atípicos. Para comenzar suavemente, vamos a revisar la ecuación básica utilizada en la regresión lineal.
Aquí, los múltiples puntos de datos de entrada indicados con el símbolo ‘x’ se multiplican con los parámetros beta de la IA, indicados con el símbolo ‘β’. Y todos los puntos de datos de entrada se escalan hacia arriba o hacia abajo de forma lineal, según el valor de beta.
El siguiente paso es un easy concepto, pero puede ser difícil de seguir debido a cómo se ve la ecuación. Vamos a poner la ecuación para la regresión lineal dentro OTRO ecuación y la función last se ve como algo que se muestra a continuación.
Aunque a primera vista puede parecer complicado, realmente no es tan difícil de entender si lo diseccionamos uno por uno. Visualicemos la función sigmoidea una vez más.
Como resumen, la función sigmoidea es una función matemática que solo genera números entre el rango de 0 y 1. Y esos números también se pueden interpretar como probabilidades.
Entonces, incluso si le damos a la función sigmoidea un valor de 10 o 1000, ambos puntos de datos se traducirán en un valor numérico de 1. Si bien la historia sigue siendo la misma para los números negativos, -10 y -1000 se convertirán en 0. Entonces ¿Qué es esto que hace posible todo esto? Nuevamente, es la función sigmoidea, echemos un vistazo SOLO a la función en sí.
Nos parece muy acquainted, ¿no? si solo reemplazar el símbolo ‘norte‘ con nuestra ecuación para regresión lineal, ¡obtenemos la ecuación para la regresión logística! Entonces, en resumen, podemos entender la regresión logística en dos pasos…
1. Utilice la regresión lineal para calcular el valor intermedio.
2. Use la función sigmoide para aplastar el valor intermedio entre 0 y 1.
Esta es una forma sencilla de entender la regresión logística y por qué es necesaria. Cuando regresamos y aplicamos la regresión logística en el mismo conjunto de datos con el que la regresión lineal tuvo problemas…
Es fácil ver la gran diferencia, gracias a la capacidad de la regresión logística para limitar la salida entre el rango de 0 y 1, podemos manejar problemas de clasificación complejos. Y al igual que los parámetros utilizados en la regresión lineal pueden indicar la correlación entre dos variables, la regresión logística puede explicar la relación determinada entre dos variables.
Lregresión logística explica cómo cambiar uno variable cambiará el relación de probabilidades por un cierto peso.
Entonces, ¿cómo se llega a aplicar este concepto en nuestro negocio? En la tabla anterior, podemos ver un número subrayado 2.27. Lo que ese número representa se puede reescribir de la siguiente manera…
Al observar los factores que pueden causar cáncer o no cáncer, un aumento en el número de ETS diagnosticadas tuvo una ponderación de 2,27. Y en comparación con otros factores como los anticonceptivos hormonales (como las píldoras anticonceptivas), tuvo un efecto mucho mayor en el desarrollo del cáncer.
Pero recuerda siempre, La correlación no implica causa.
Regresión logística y ciencia de datos
A menudo, la regresión logística se usa como una de las herramientas para obtener información sobre el negocio y juega un papel pequeño pero essential en el flujo de trabajo del científico de datos. Por lo normal, desde el principio, la mejor práctica es echar un vistazo más de cerca a los datos.
Incluso al observar más de cerca los datos, podemos encontrar una relación significativa entre las variables que componen nuestro negocio. Lo que esto significa es que podemos obtener una visión muy profunda de nuestras operaciones diarias, saber qué tubería/variable está afectando las ganancias/pérdidas/márgenes y mucho más. En el caso anterior, si la edad promedio de nuestros clientes que compraron fuera mayor, deberíamos cambiar nuestra estrategia de advertising para adaptar esos datos demográficos.
Data ciencia NO ES sobre la creación de cuadros o gráficos se trata de contar una historia, un historia de negocios.
Un error de principiante entre los científicos de datos es hacer demasiado para obtener tan poco. Si buscas claridad, menos es más. Si bien no hay nada de malo en usar métodos más avanzados para construir un mejor modelo de IA. Métodos como SMOTE o Eliminación de características recursivas debe usarse si se ajusta a sus necesidades en la creación de una solución viable para su objetivos de negocio.
Sin olvidar nunca que también necesita una adecuada métrica. Al alinear (o, a veces, reformular) los KPI comerciales con las herramientas adecuadas, como la regresión logística, no solo sabe que va en la dirección correcta. Pero también puede tener un impacto en la organización de manera oportuna incluso utilizando las metodologías más simples.
En En conclusión, la regresión logística es un método easy pero poderoso para descubrir cómo el cambio de una variable conducirá a la ocurrencia de otra por un cierto peso. También vimos su relación con la regresión lineal y cómo puede manejar los casos en los que falla la regresión lineal. Finalmente, vimos cómo se usa realmente entre los científicos de datos, también encontré una hoja de trucos genial vinculada arriba 📝.
Si te gusta mi escritura por favor considere suscribiendosey si quieres unirte a la comunidad de Medium (¡por favor hazlo!) considera usar mi invitación.