Aprendizaje automático: Desafíos y falencias de los modelos de entrenamiento
Aprendizaje automático: Desafíos y falencias de los modelos de entrenamiento
El aprendizaje automático o aprendizaje automatizado es una rama de la Inteligencia Artificial (AI), cuyo objetivo es generar técnicas y metodologías para que las computadoras “aprendan”, de un modo similar a como lo hacen los humanos. Esta premisa, aunque podría sonar ambiciosa, hoy es la base de la gran mayoría de las soluciones IA desarrolladas por la industria.
Al interior de esta disciplina, sus investigadores buscan algoritmos y heurísticas para convertir muestras de datos en programas computacionales. Esto, sin tener que escribir los últimos explícitamente; de ahí la utilización del término “aprendizaje”. Los modelos resultantes deben ser capaces de generalizar comportamientos e inferencias para un conjunto más amplio potencialmente infinito de datos. Es decir, deben ser capaces de cierta autonomía. En pocas palabras, la construcción de un modelo de aprendizaje automático implica entrenarlo en una gran cantidad de posibilidades y luego probarlo en un montón de ejemplos similares.
Sin embargo, la complejidad de esta tarea tiene múltiples dimensiones. Si bien antes de su aplicación el modelo en cuestión debe enfrentar una infinidad de pruebas es distintos escenarios, lo cierto es que todos éstos ocurren en un ambiente más bien controlado, donde las posibilidades de variación son mínimas. Entonces, ¿qué ocurre cuando se lleva al mundo real?
Ambiente de prueba vs. Realidad
No es ningún secreto que, incluso si un modelo específico logra un rendimiento perfecto en el laboratorio, puede presentar -y probablemente presentará- fallas en entornos reales. Esto generalmente se atribuye a una falta de coincidencia entre los datos con los que se entrenó y probó la Inteligencia Artificial (AI) y los datos que encuentra en el mundo. Por ejemplo, una IA entrenada para detectar signos de enfermedad en imágenes médicas de alta calidad claramente tendrá problemas con imágenes borrosas o fotos tomadas con una cámara de mala calidad.
Un grupo de 40 investigadores de Google ha identificado otra causa importante del fracaso común de los modelos de aprendizaje automático. Se trata de un problema conocido como "sub-especificación". El estudio señala que todo proceso de entrenamiento es capaz de producir muchos modelos diferentes e incluso todos ellos pueden llegar a pasar las pruebas finales.
Sin embargo, la investigación señala que estos modelos diferirán en formas pequeñas y arbitrarias. Estas diferencias van a depender de elementos tales como valores aleatorios dados a los nodos en una red neuronal antes de que comience el entrenamiento, la forma en que se seleccionan o representan los datos de entrenamiento, el número de ejecuciones de entrenamiento, etc. El problema es que, estas variables generalmente se pasan por alto si no afectan el desempeño de un modelo en un ambiente de prueba. Pero el mundo real es otra historia.
Los investigadores llevaron a cabo experimentos similares con dos sistemas de PNL diferentes y tres IA médicos para predecir enfermedades oculares a partir de escáneres de retina, cáncer de lesiones cutáneas e insuficiencia renal a partir de registros de pacientes. Todos los sistemas tenían el mismo problema: los modelos que deberían haber sido igualmente precisos se comportaron de manera diferente cuando se probaron con datos del mundo real, como diferentes escaneos de retina o tipos de piel.
Buscando respuestas
Una alternativa que podría permitir a los data scientists cerrar esta brecha, es diseñar una etapa adicional al proceso de capacitación y prueba. Esto implicaría producir muchos modelos a la vez en lugar de solo uno. Para una empresa como Google, que construye e implementa grandes modelos, este esfuerzo bien podría valer la pena. Sin embargo, la cantidad de trabajo y recursos, tanto materiales como humanos, que implica esta tarea puede estar fuera del alcance de empresas más pequeñas.