¿Qué es la regresión logística? - Master ciencia de datos: Guía 2023

La regresión logística es un algoritmo de aprendizaje supervisado utilizado para predecir una variable objetivo categórica dependiente. En esencia, si tiene un gran conjunto de datos que desea categorizar, la regresión logística puede ayudar.

Por ejemplo, si te dieron un perro y una naranja y quisieras averiguar si cada uno de estos artículos era un animal o no, el resultado deseado sería que el perro terminara clasificado como un animal, y que la naranja se clasificara como no un animal. El animal es tu objetivo; Depende de sus datos para poder clasificar el artículo correctamente. En este ejemplo, solo hay dos respuestas posibles (regresión logística binaria), animal o no animal. Sin embargo, también es posible configurar su regresión logística con más de dos categorías posibles (regresión logística multinomial).

Para profundizar un poco más en cómo su modelo podría intentar clasificar estos dos elementos directamente, consideremos qué más necesitaría saber el modelo sobre los elementos para decidir a dónde pertenecen. Otros aspectos similares de estos elementos tendrían que ser considerados al considerar cómo clasificar cada elemento o punto de datos. Los aspectos, o características, pueden incluir color, tamaño, peso, forma, altura, volumen o cantidad de extremidades. De esta manera, saber que la forma de una naranja era un círculo puede ayudar al algoritmo a concluir que la naranja no era un animal. Del mismo modo, saber que la naranja tenía cero extremidades también ayudaría.

La regresión logística requiere que la variable dependiente, en este caso si el ítem era un animal o no, sea categórica. El resultado es animal o no animal, no hay rango intermedio. Un problema que tiene un resultado continuo, como predecir la calificación de un estudiante o el rango del tanque de combustible de un automóvil, no es un buen candidato para usar la regresión logística. Otras opciones como la regresión lineal pueden ser más apropiadas.

Predicciones probabilísticas

Si bien muchos podrían identificar fácilmente si una naranja es un animal o no, basándose en el conocimiento previo de frutas, animales, etc., la fórmula matemática que calcula la regresión logística no tiene acceso a este tipo de información externa. Por esta razón, las respuestas que proporciona no son definitivas; son probabilísticos. Los resultados se calculan en función de las probabilidades en lugar de las certezas absolutas.

La regresión logística deriva su nombre de la Función sigmoide, que también se conoce como función logística. La función logística es una curva en forma de S que se extiende de cero a uno, mientras que nunca es exactamente cero y nunca es exactamente uno, tampoco.

Si está interesado en la ciencia de datos o en el diferencias entre la ciencia de datos y el aprendizaje automático, Siga leyendo para obtener más información sobre lo que la regresión logística puede hacer en ambos campos.

¿Cuáles son los tipos de regresión logística?

Hay tres tipos principales de regresión logística: binaria, multinomial y ordinal. Se diferencian en ejecución y teoría. La regresión binaria trata con dos valores posibles, esencialmente: sí o no. La regresión logística multinomial se ocupa de tres o más valores. Y la regresión logística ordinal trata con tres o más clases en un orden predeterminado.

Regresión logística binaria

La regresión logística binaria se mencionó anteriormente en el caso de clasificar un objeto como un animal o no un animal, es una solución de uno u otro. Solo hay dos posibles respuestas de resultado. Este concepto se representa típicamente como un 0 o un 1 en la codificación. Algunos ejemplos son:

Si prestar o no a un cliente bancario (los resultados son sí o no).
Evaluación del riesgo de cáncer (los resultados son altos o bajos).
¿Ganará un equipo el partido de mañana (los resultados son sí o no)?

Regresión logística multinomial

La regresión logística multinomial es un modelo en el que hay varias clases en las que se puede clasificar un elemento. Hay un conjunto de tres o más clases predefinidas configuradas antes de ejecutar el modelo. Algunos ejemplos son:

Clasificar los textos en el idioma del que provienen.
Predecir si un estudiante irá a la universidad, escuela de oficios o a la fuerza laboral.
¿Tu gato prefiere comida húmeda, comida seca o comida humana?

Regresión logística ordinal

La regresión logística ordinal también es un modelo en el que hay múltiples clases en las que se puede clasificar un elemento; sin embargo, en este caso se requiere un orden de clases. Las clases no necesitan ser proporcionadas. La distancia entre cada clase puede variar. Algunos ejemplos son:

Clasificación de restaurantes en una escala de 0 a 5 estrellas.
Predecir los resultados del podio de un evento olímpico.
Evaluar una elección de candidatos, específicamente en lugares que instituyen la votación de elección clasificada.

¿Para qué se utiliza la regresión logística?

Aquí hay un escenario más realista y detallado para cuando se podría usar la regresión logística:

La regresión logística se puede utilizar para predecir si es probable que los clientes bancarios incumplan sus préstamos. Este es un cálculo que un banco hace al decidir si prestará o no a un cliente y evaluar la cantidad máxima que el banco prestará a aquellos que ya ha considerado solventes. Para hacer este cálculo, el banco analizará varios factores. Prestar es el objetivo en esta regresión logística, y en función de la probabilidad de incumplimiento que se calcula, un prestamista elegirá si asume el riesgo de prestar a cada cliente.
- Estos factores, también conocidos como características o variables independientes, pueden incluir puntaje de crédito, nivel de ingresos, edad, estado laboral, estado civil, género, el vecindario de residencia actual y el historial educativo.
La regresión logística también se utiliza a menudo para la investigación médica y por las compañías de seguros. Para calcular los riesgos de cáncer, los investigadores analizarían ciertos hábitos de los pacientes y predisposiciones genéticas como factores predictivos. Para evaluar si un paciente tiene o no un alto riesgo de desarrollar cáncer, se considerarían factores como la edad, la raza, el peso, el tabaquismo, el estado de bebida, los hábitos de ejercicio, la historia clínica general, los antecedentes familiares de cáncer y el lugar de residencia y lugar de trabajo, teniendo en cuenta los factores ambientales.
La regresión logística se utiliza en muchos otros campos y es una herramienta común de los científicos de datos.

Como científicos de datos, Un escollo en el análisis estadístico Asegúrese de evitar al seleccionar qué factores elegir para su regresión logística es un alto nivel de correlación entre las características. Si encuentra, por ejemplo, que los panaderos de masa fermentada que amasan su pan más de 9 de cada 10 veces también permiten que sus panes fermenten durante 24 horas, entonces no habría necesidad de incluir ambas características, ya que ocurren exactamente con la misma frecuencia.

Hacer predicciones con regresión logística

Como sugieren muchos de los ejemplos anteriores, la regresión logística se emplea en la ciencia de datos como un modelo de clasificación de aprendizaje automático supervisado. Puede ser útil para predecir tendencias de categorías dentro de un alto rango de precisión. Con el ejemplo de alto riesgo de cáncer versus no alto riesgo de cáncer, esa predicción podría dividirse en categorías más granulares dependiendo de los requisitos del investigador. Como regresión logística ordinal, podría cambiarse a alto riesgo de cáncer, riesgo moderado de cáncer y bajo riesgo de cáncer. En este caso, el bajo riesgo de cáncer podría configurarse para encapsular puntos de datos que están por debajo del 33% de riesgo de cáncer, para moderado podría ser puntos de datos que caen entre un 33% y 66% de probabilidad de riesgo de cáncer, mientras que el alto riesgo sería para casos por encima del 66% de riesgo.

Supuestos de regresión logística

Elimine las entradas altamente correlacionadas.
Considere eliminar los valores atípicos en su conjunto de entrenamiento porque la regresión logística no les dará un peso significativo durante sus cálculos.
No favorece los datos dispersos (que consisten en una gran cantidad de valores cero).
La regresión logística es un modelo de clasificación, a diferencia de la regresión lineal.

Regresión logística vs. regresión lineal

Volver al ejemplo de animal o no animal versus mirar el rango o espectro de posibles colores de ojos es un buen punto de partida para comprender la diferencia entre regresión lineal y logística.

Mientras que la regresión logística es categórica, la regresión lineal es continua, como las propias líneas. Según el diccionario de Cambridge, La definición de lineal es «consistente en o que tiene que ver con líneas». Con la regresión lineal, podemos hacer comparaciones continuas y observar preguntas como qué tan cerca están varios colores de ojos azules de un tono de vista específico. En otras palabras, su objetivo podría ser azul mar. Si lo fuera, abstractamente hablando, entonces ejecutaría su regresión contra todos los demás tonos de azul y mediría su distancia en sombra o tono de su color azul marino objetivo. La comparación de regresiones logísticas y lineales es, en última instancia, una diferencia en la forma de ordenar los datos.

Mediante el uso de la regresión logística en el aprendizaje automático, puede buscar una comprensión de qué factores predecirán de manera confiable los puntajes de las pruebas de los estudiantes para la mayoría de los estudiantes en su muestra de prueba. Específicamente, qué tan probable es que la preparación para el examen mejore los puntajes del SAT en un cierto porcentaje. Si la regresión lineal encuentra en su conjunto de entrenamiento que la mayoría de las personas que estudian durante una hora diaria aumentan sus puntajes en 100 puntos, mientras que la mayoría de las personas que estudian durante dos horas diarias aumentan su puntaje en 200 puntos y tres horas equivalen a 300 puntos y así sucesivamente, entonces hará la predicción de que una cierta duración de estudio aumentará los puntajes de los estudiantes en un número particular de puntos. Esta predicción se deriva dibujando una línea de mejor ajuste a través de una colección de puntos de datos. Algunos puntos existirán por encima o por debajo de la línea, mientras que otros se sentarán directamente encima de ella. La regresión logística proporcionará una tasa de aumento de la puntuación basada en la existencia en relación con el aumento del tiempo de estudio.

Lo que se puede concluir de la predicción de este modelo de regresión logística es que la mayoría de los estudiantes que estudian las cantidades de tiempo anteriores verán las mejoras correspondientes en sus puntajes. Sin embargo, es importante recordar que habrá ligeras variaciones en los resultados para la mayoría de los estudiantes, y algunos estudiantes serán valores atípicos completos. Un estudiante puede estudiar durante una hora diaria y ver una mejora de 500 puntos en su puntaje, mientras que otro estudiante puede estudiar durante tres horas diarias y en realidad no ver ninguna mejora en su puntaje.

Conclusión

La regresión logística es un algoritmo utilizado por profesionales de muchas industrias para clasificar datos para varios propósitos diferentes. Desde banqueros hasta investigadores médicos y estadísticos hasta juntas escolares, muchos de los que tienen interés en poder comprender mejor sus datos y predecir mejor las tendencias entre sus electores encontrarán útil la regresión logística. Permite a los científicos e instituciones por igual hacer predicciones sobre datos futuros antes de que esos datos estén disponibles. Funciona según un principio de mayoría y no predecirá correctamente los resultados de todos los elementos, personas o temas considerados. Aún así, es bastante exitoso en predecir altas probabilidades de precisión para gran parte de su grupo de sujetos considerados.

Si estos conceptos y capacidades le atraen, obtenga más información sobre las rutas disponibles para iniciar su carrera en ciencia de datos y programas de grado relacionados visitando Máster Universitario en Ciencia de Datos.