Puntos clave
- Los estudios asociativos y predictivos tienen diferentes objetivos. Machine learning es muy útil para el segundo caso, pero es muy limitado en el primero.
- Estudos asociativos se enfocan en entender mejor un fenómeno. Buscan encontrar relaciones relevantes entre las partes, pero pudieran no ser útiles para hacer predicciones.
- Los estudios predictivos usan muchas variables para crear herramientas que hagan predicciones. Se enfocan en aprender patrones presentes en los datos. Pueden ser muy precisos, pero difíciles de interpretar, y no hay problema en ello.
Introducción
En el grupo de psiquiatría computacional de la Universidad de Alberta queremos crear herramientas que nos ayuden a diagnosticar enfermedades mentales y a identificar cuál es el mejor tratamiento para cada paciente. Siguiendo esa línea, mi investigación actual se centra en las aplicaciones de machine learning para identificar problemas mentales.
Una de las preguntas más comunes que recibimos es: ¿Cuáles son las “cosas” que analiza el algoritmo que están usando? Por ejemplo, en el artículo “Aprendiendo patrones estables y predictivos basados en redes en esquizofrenia y sus síntomas clínicos” (disponible únicamente en inglés), Mina Gheiratmand creó una herramienta que puede identificar pacientes con esquizofrenia con un 74% de efectividad usando imágenes cerebrales. La pregunta inmediata fue: ¿Cuáles son las partes del cerebro que están siendo analizadas para hacer la predicción? Regularmente la respuesta de las personas que trabajamos en machine learning es: “De hecho es una combinación de casi todas”. Esta es una de las razones por las cuales se considera muchas veces a machine learning como una “caja negra”. Regularmente no podemos indicar una, o un pequeño grupo, de partes que el algoritmo analiza para tomar una decisión.
Es aquí cuando la diferencia entre estudios asociativos y predictivos juega un rol muy importante. Ambos son muy importantes, pero tienen diferentes objetivos en mente, y responden a diferentes preguntas. Los estudios asociativos buscan incrementar nuestro nivel de conocimiento sobre un fenómeno, así que se enfocan encontrar diferencias significativas entre los grupos que están siendo analizados. Los estudios predictivos se enfocan en crear herramientas de clasificación eficaces, las cuales van a ser usadas para hacer predicciones a nivel individuo. El líder de nuestro grupo, Russ Greiner, tiene una plática en inglés donde describe en más detalle las diferencias entre ambos estudios. Machine learning es una excelente herramienta para los estudios predictivos, pero es muy limitada en estudios asociativos.
Para entender un poco mejor las diferencias, pongamos un ejemplo sencillo. Queremos estudiar esquizofrenia. ¿En qué se enfocan los estudios asociativos y predictivos?
Estudios asociativos
Estos estudios son muy buenos para entender algún fenómeno que se esté estudiando. También nos ayudan a determinar cuáles son las cosas que se deben estudiar más a profundidad para seguir entendiendo el tema.
Los estudios asociativos se enfocan en poder ser interpretables. Tratan de contestar la pregunta, ¿Cómo se relacionan las variables que estoy estudiando con mi variable de interés? En nuestro ejemplo de esquizofrenia, por ejemplo, una pregunta pudiera ser: ¿Existen diferencias en los niveles de activación del cortex frontal cerebral entre personas sanas y personas con esquizofrenia? Una posible respuesta pudiera ser: Sí, en promedio, las personas con esquizofrenia tienen menores niveles de activación en esta parte del cerebro. (Esto es únicamente una ilustración. No sé si en verdad los niveles de activación en realidad son diferentes). Este tipo de estudios también son lo que muestran las imágenes médicas que quizá hayamos visto, como esta:
Estos son el tipo de estudios de los cuales puedes haber escuchado en las noticias. Un punto importante a resaltar es que estos estudios analizan los efectos a niveles de grupo, no de individuos. Esta es una de las razones por las cuales podemos encontrar contraejemplos todo el tiempo. Por ejemplo, cuando escuchamos cosas como: “Se ha encontrado que las personas que fuman tienen un mayor riesgo de tener cáncer de pulmón” muchas veces se nos viene a la mente: “Mi bisabuela fumó desde que tenía 15 años, y nunca le pasó nada”. El estudio estaba hablando de cuáles son los efectos en promedio, pero no puede ser usado para hacer predicciones acerca de una persona en particular.
Cuando estos estudios se usan para aplicaciones médicas regularmente buscan bio-marcadores. No existe una definición muy clara sobre lo que es un bio-marcador, pero muchas veces se entiende como una o un pequeño grupo de características que nos permiten detectar una condición o enfermedad. Si se logran encontrar estos bio-marcadores, entonces se puede investigar más a fondo para determinar cuál es el rol preciso de este bio-marcador.
Estudios predictivos
Estos estudios están enfocados en crear herramientas con capacidad de hacer predicciones precisas. Se encargan de encontrar patrones en los datos que les permitan predecir cuál es el comportamiento esperado en una persona en particular. La mayor parte del tiempo estos patrones son complejos, por lo que deben tomar muchas variables en cuenta.
Regresando a nuestro ejemplo de esquizofrenia, un estudio predictivo no preguntaría cuál es la relación entre la enfermedad y el nivel de activación de una región específica del cerebro. En vez de eso, pediría información sobre la activación de todas las áreas cerebrales de una persona y, con base en eso, trataría de determinar si esa persona tiene esquizofrenia o no.
Los estudios predictivos son muy útiles cuando queremos tener herramientas que nos ayuden a tomar decisiones. Sin embargo, la mayor parte del tiempo necesitamos sacrificar la interpretabilidad de la herramienta a cambio de su eficacia. Vivimos en un mundo complejo, y la mayor parte de los patrones presentes en nuestro mundo son complicados. Necesitamos herramientas que nos ayuden a encontrar estos patrones, pero muchas veces no vamos a poder entender a la perfección lo que ese patrón significa. Hay simplemente muchas variables involucradas.
Un ejemplo sencillo
*Nota: Para este ejemplo estoy usando datos simulados. Las gráficas que presento a continuación no están relacionadas con un estudio real, son únicamente para ilustrar un punto.
Supongamos que queremos desarrollar una herramienta que nos ayude a detectar esquizofrenia, y para ellos medimos los niveles de activación entre dos poblaciones diferentes: Gente sana (Azul) y gente con esquizofrenia (Naranja). La siguiente figura muestra los niveles de activación en cada uno de los grupos. Debajo de cada gráfica está el p-value que nos indica si la diferencia entre la media de cada población es estadísticamente significativa o no.
En la gráfica de la izquierda podemos ver que hay una diferencia estadísticamente significativa entre los grupos azul y naranja; sin embargo, parece no haber ninguna diferencia en la gráfica de la derecha. Un estudio asociativo pudiera considerar el motor cortex (izquierda) como un posible bio-marcador, y después reportar que parece no haber diferencias significativas en el frontal cortex (derecha). Analizar ambas gráficas de manera individual hace muy complicado hacer predicciones. Aún cuando hay diferencias en el motor cortex, existe mucho traslape entre ambas distribuciones.
Hay que notar que este análisis no es óptimo para hacer predicciones. Si queremos hacer esto, entonces poder hacer un estudio predictivo y tomar todas las variables en cuenta al mismo tiempo. Esto lo podemos ver ilustrado en la siguiente figura:
Esta gráfica nos muestra una clara distinción entre los grupos azul y naranja. Los datos son exactamente los mismos que en las gráficas anteriores, pero ahora estamos visualizando los dos al mismo tiempo. Ahora el problema de clasificar cada individuo como persona sana o con esquizofrenia es mucho más sencillo. Ahora, ¿Cuál de las dos variables es más importante? La respuesta es que ambas son igual de importantes, si quitamos una entonces ya no podemos hacer una clasificación tan precisa.
Conclusiones
En este post usé un ejemplo que tiene únicamente dos variables para ejemplificar las diferencias entre estudios predictivos y asociativos. Desafortunadamente datos reales pueden llegar a tener cientos o miles de variables. Los estudios predictivos van a seguir tratando de encontrar patrones en este mar de datos, pero es muy poco probable que los patrones que encuentren vayan a depender únicamente de unas pocas variables.
Machine learning es un área muy interesante, y puede ayudarnos a crear las herramientas que necesitamos para hacer predicciones. Sin embargo, la mayor parte del tiempo no será posible darle un interpretación precisa al modelo, aún cuando sea muy preciso en las predicciones que genera. Existen algunos modelos que intentan crear un balance entre interpretabilidad y precisión en las predicciones, sacrificando uno por el otro. ¿Vale la pena hacer esto?
Desde mi punto de vista, la respuesta es no. Necesitamos definir de manera clara cuál es el objetivo de nuestro análisis, y entonces hacer el tipo de estudio que maximice nuestro objetivo. Mi asesor en el doctorado usa el ejemplo: ¿Quieres un carro muy rápido, o uno muy resistente? Por supuesto que nos gustaría tener ambos, pero no es posible. Si tratamos de hacer un carro que tenga ambas características, entonces fallaremos en una de ellas.
Por supuesto, este es un tema muy complejo, y no es un tema de “blanco o negro”, sobre todo cuando nos movemos al área médica. ¿Podemos confiar en un algoritmo que hace predicciones muy precisas, pero que no podemos entender qué está haciendo realmente? Yo creo que la respuesta es sí, siempre y cuando podamos comprobar que las respuestas son en realidad precisas. Por otro lado, todavía estamos muy lejos de tener un algoritmo que alcance estos niveles tan altos y robustos de precisión.
¿Quieres aprender más sobre machine learning y sus aplicaciones?
A la gente interesada en iniciar a aprender machine learning regularmente les recomiendo el curso de Machine Learning de Andrew Ng en Coursera. Este curso da una introducción muy buena al tema, concentrándose en las aplicaciones y entendimiento general en vez de matemáticas complejas. Lo considero como una excelente introducción al tema.