Aprendizaje automático: Desafíos y falencias de los modelos de entrenamiento

Aprendizaje automático: Desafíos y falencias de los modelos de entrenamiento

El aprendizaje automático o aprendizaje automatizado es una rama de la Inteligencia Artificial (AI), cuyo objetivo es generar técnicas y metodologías para que las computadoras “aprendan”, de un modo similar a como lo hacen los humanos. Esta premisa, aunque podría sonar ambiciosa, hoy es la base de la gran mayoría de las soluciones IA desarrolladas por la industria.

Al interior de esta disciplina, sus investigadores buscan algoritmos y heurísticas para convertir muestras de datos en programas computacionales. Esto, sin tener que escribir los últimos explícitamente; de ahí la utilización del término “aprendizaje”. Los modelos resultantes deben ser capaces de generalizar comportamientos e inferencias para un conjunto más amplio potencialmente infinito de datos. Es decir, deben ser capaces de cierta autonomía. En pocas palabras, la construcción de un modelo de aprendizaje automático implica entrenarlo en una gran cantidad de posibilidades y luego probarlo en un montón de ejemplos similares. 

Sin embargo, la complejidad de esta tarea tiene múltiples dimensiones. Si bien antes de su aplicación el modelo en cuestión debe enfrentar una infinidad de pruebas es distintos escenarios, lo cierto es que todos éstos ocurren en un ambiente más bien controlado, donde las posibilidades de variación son mínimas. Entonces, ¿qué ocurre cuando se lleva al mundo real?

Ambiente de prueba vs. Realidad

No es ningún secreto que, incluso si un modelo específico logra un rendimiento perfecto en el laboratorio, puede presentar -y probablemente presentará- fallas en entornos reales. Esto generalmente se atribuye a una falta de coincidencia entre los datos con los que se entrenó y probó la Inteligencia Artificial (AI) y los datos que encuentra en el mundo. Por ejemplo, una IA entrenada para detectar signos de enfermedad en imágenes médicas de alta calidad claramente tendrá problemas con imágenes borrosas o fotos tomadas con una cámara de mala calidad.

Un grupo de 40 investigadores de Google ha identificado otra causa importante del fracaso común de los modelos de aprendizaje automático. Se trata de un problema conocido como "sub-especificación". El estudio señala que todo proceso de entrenamiento es capaz de producir muchos modelos diferentes e incluso todos ellos pueden llegar a pasar las pruebas finales. 

Sin embargo, la investigación señala que estos modelos diferirán en formas pequeñas y arbitrarias. Estas diferencias van a depender de elementos tales como valores aleatorios dados a los nodos en una red neuronal antes de que comience el entrenamiento, la forma en que se seleccionan o representan los datos de entrenamiento, el número de ejecuciones de entrenamiento, etc. El problema es que, estas variables generalmente se pasan por alto si no afectan el desempeño de un modelo en un ambiente de prueba. Pero el mundo real es otra historia.

Los investigadores llevaron a cabo experimentos similares con dos sistemas de PNL diferentes y tres IA médicos para predecir enfermedades oculares a partir de escáneres de retina, cáncer de lesiones cutáneas e insuficiencia renal a partir de registros de pacientes. Todos los sistemas tenían el mismo problema: los modelos que deberían haber sido igualmente precisos se comportaron de manera diferente cuando se probaron con datos del mundo real, como diferentes escaneos de retina o tipos de piel.

Buscando respuestas

Una alternativa que podría permitir a los data scientists cerrar esta brecha, es diseñar una etapa adicional al proceso de capacitación y prueba. Esto implicaría producir muchos modelos a la vez en lugar de solo uno. Para una empresa como Google, que construye e implementa grandes modelos, este esfuerzo bien podría valer la pena. Sin embargo, la cantidad de trabajo y recursos, tanto materiales como humanos, que implica esta tarea puede estar fuera del alcance de empresas más pequeñas.

 


UNIT formará parte de programa para startups patrocinado por Microsoft

UNIT formará parte de programa para startups patrocinado por Microsoft

Comenzamos el año con una excelente noticia: UNIT ha sido seleccionado para participar de un programa global diseñado especialmente para ayudar a las startups a escalar rápidamente. La propuesta, desarrollada por Microsoft, proporciona acceso a tecnologías y una red de asociados para potenciar el desarrollo comercial.

Se trata de una apuesta a nivel internacional y gratuita, la cual está dedicada a impulsar empresas emergentes B2B para que puedan expandir correctamente el alcance de sus compañías. Para ello, se entregan créditos para el uso de servicios como Azure, junto con una ruta de acceso simplificada para vender junto con Microsoft y su ecosistema global de asociados. Durante 2020, las startups participantes aseguraron más de $1.000 millones de oportunidades de ventas con un volumen promedio de transacciones de más de seis cifras.

Un nuevo desafío

La iniciativa representa una gran oportunidad para expandir el alcance de UNIT, tanto a nivel nacional como internacional. Además, este nuevo desafío se alinea con el nuestro compromiso de ser una empresa multicloud que se abre a las mejores soluciones tecnológicas disponibles en el mercado, buscando siempre el estado del arte de la tecnología para desarrollar proyectos que se adapten a las necesidades de nuestros clientes y partners.

“A través de esta colaboración, esperamos poder llevar los servicios ofrecidos por Microsoft y nuestro equipo a los desafíos reales que enfrentan las empresas en la actualidad”, comenta José Tomás Cumsille, Chief Technology Officer (CTO) de UNIT. 

El primer acercamiento a Microsoft Startups Program, se dio a través del equipo de VOYAGER, en la búsqueda de mejores herramientas para manejar datos no estructurados de texto. Entre las opciones disponibles en el mercado, los especialistas de esta solución de Inteligencia Artificial (IA), desarrollada por UNIT, encontraron que la mejor opción era el modelo entrenado por Microsoft.

“El objetivo es, gracias a este apoyo, contribuir como empresa a cerrar la brecha que existe actualmente entre la tecnología, la inteligencia artificial y los grandes problemas de la humanidad”, puntualiza Cumsille.

 


¿Cómo está cambiando el mundo de la minería a través de la IA?

¿Cómo está cambiando el mundo de la minería a través de la IA?

Hablar de minería es hablar, sin duda, de una industria global cuya producción es vital para gran parte de las comodidades que disfrutamos en nuestra vida diaria. Como en toda actividad a gran escala, la eficiencia es un elemento central e indispensable para su funcionamiento. Pequeñas mejoras en la velocidad de ejecución, sistematización de procesos y reducción de los tiempos de inactividad son la clave para una operación exitosa. 

Es por esto que los avances en robótica, automatización e inteligencia artificial (IA) y aprendizaje automático tienen un gran potencial para la industria minera. Lugares de trabajo remotos, la naturaleza peligrosa del trabajo y los altos costos de mano de obra y transporte son sólo algunas de las problemáticas que la IA podría ayudar a solucionar.

Como en cualquier sistema computacional, siempre existen posibles fallas, las que suelen generar desconfianza entre los usuarios potenciales. Sin embargo, la aplicación de la inteligencia artificial podría ser la clave para ayudar a los directivos a tomar mejores decisiones administrativas basadas en datos. Pero, ¿cómo funciona su implementación?

Minería e Inteligencia Artificial: una colaboración más que posible

El potencial aporte de la IA a la minería se está dando actualmente en dos frentes. Por un lado, los sistemas impulsados ​​por inteligencia artificial utilizan diferentes algoritmos para organizar y analizar grandes cantidades de datos. Esto permite generar insights que, a su vez, entregan claves para tomar decisiones óptimas sobre diversos aspectos de una operación. 

En segundo lugar, una aplicación más práctica e inmediata de la IA en la minería puede darse durante la fase de prospección, especialmente para descubrir depósitos. Su uso puede ayudar a comprender de mejor forma el entorno y terreno donde se llevarán a cabo las nuevas obras. Por ejemplo, Goldspot Discoveries Inc. de Australia la utiliza para mejorar la exploración minera.  A su vez, otras empresas han comenzado a utilizar drones y visión artificial para comprender mejor el entorno y el terreno donde se iniciará la explotación.

COSMOS

COSMOS, proyecto desarrollado por UNIT a través de la aplicación de inteligencia artificial, busca convertirse en un apoyo para las empresas mineras nacionales. Se trata de una solución para la eficiencia energética y su objetivo es lograr que cada partícula de energía se convierta en productividad y eficiencia real, sin pérdidas.

Sus modelos IA permiten predecir el consumo de combustible utilizando bases de datos con información estructurada de los traslados de equipos y operadores involucrados en dichas acciones, tanto históricas como presentes, tomando en cuenta la topografía del lugar y los signos vitales de los equipos involucrados.

Así, la plataforma permite reducir el consumo de combustible, junto con las emisiones GHG a través de predicciones realizadas en base a modelos de inteligencia artificial. Éstos predicen el consumo, optimizan el rendimiento y detectan anomalías en el uso de combustible para asegurar un mejor uso de este recurso. La detección temprana permite, además, retroalimentar a los operadores sobre prácticas operacionales incorrectas. De esta manera,  buscando la excelencia y eficiencia operacional.



Inteligencia Artificial: Una nueva forma de conectar(nos)

Inteligencia Artificial: Una nueva forma de conectar(nos)

Comúnmente, o por lo menos en mi corta vida, he sentido una inquietud en torno al concepto de Inteligencia Artificial y su significado real. Claramente, se trata de una noción que puede sonar bastante estruendosa, pintoresca e incluso exacerbada. Apenas se hace mención a esta idea, inmediatamente creemos que estamos atravesando un mundo distópico de cyborgs y autos voladores.

Pero lo cierto es que, al buscar una definición concreta del término podemos establecer que es la habilidad de computadoras para ejecutar tareas cognitivas que asociamos con la mente humana. Es decir, es la capacidad de argumentar, resolver problemas de forma independiente e incluso está incluida la habilidad de percepción.

Es así como la inteligencia artificial ha permitido tangibilizar ciertos comportamientos humanos mediante modelos neuronales, acercándose así a nociones humanas en cuanto a cómo percibimos el mundo. En esta línea, la IA como recurso nos pone en la búsqueda de alguna forma de objetivizar el conocimiento, generar correlaciones y permitir detectar oportunidades, todo bajo una mirada antropocéntrica. 

¿Dónde queda el resto de las especies que conforman este mundo tan biodiverso? ¿Es posible conectar con ellas?

Existimos en un planeta con una enorme biodiversidad, donde el 80% de los seres vivientes son plantas. Lamentablemente, sabemos que la humanidad ha contribuido a la pérdida del 83% de mamíferos salvajes y la mitad de las especies vegetales. Si bien durante los últimos años pareciera que la sustentabilidad ha comenzado a ser parte del inconsciente colectivo, estamos todavía muy lejos de reparar este daño.

Es claro que el ser humano se ha dotado así mismo de un verdadero complejo de superioridad, pero la verdad es que actualmente representamos solamente un 0.01% de la población viviente del planeta Tierra.  No obstante, hoy el rol y esfuerzos de nuestra tecnología siguen estando siendo sesgados y derivados a esta mirada humana, sin poner en valor la percepción interespecial que debiera guiar estos avances.

Entonces, ¿qué pasaría si dirigimos los esfuerzos a escuchar y procesar el contenido rico de cada uno mediante estos modelos neuronales? ¿Sería posible entrenar un modelo bio híbrido

Claramente estamos ante un panorama ambicioso, pero necesario dado al contexto crítico global en el que nos encontramos. Si bien la dificultad es alta, nuestra misión debiese ser la coexistencia entre organismos para así regenerar y recuperar la biodiversidad perdida, una responsabilidad que, hasta hoy, sigue siendo ignorada.  

Desde niños y niñas, nos enseñan que las plantas son seres “vegetales”. Actualmente, este término se utiliza con una connotación más bien negativa en cuanto a la habilidad de entender y percibir el mundo. Pero lo que la gran mayoría de las personas no sabe, es que las plantas tienen una gran capacidad para conectar, entender y adaptarse al medio ambiente. ¿Acaso es una mera coincidencia la trayectoria que han tenido a lo largo de la existencia del planeta?

Es aquí donde la inteligencia artificial entra en la ecuación, ya que estudios científicos han demostrado semejanzas entre la comunicación neuronal de las personas con la comunicación electroquímica que realizan estas especies.

Comunicar es vital para todo ser vivo: nos permite evitar el peligro, acumular experiencia, conocer nuestro propio cuerpo y el entorno. ¿Hay alguna razón por la que este simple mecanismo deba negarse a las plantas?

Mancuso, S., & Viola, A. (2015). Brilliant Green: The Surprising History and Science of Plant Intelligence. (J. Benham, Trans.). Washington, DC: Island Press.

A pesar de que la trayectoria de las plantas en este planeta ha demostrado su capacidad perceptiva, lo cual repercute en una adaptabilidad significativa a lo largo de su existencia, la tecnología se ha visto sesgada por querer exacerbar la percepción humana. En vez de generar una comprensión más transversal y dejarse nutrir por la de las otras especies, insistimos en separarnos del resto del mundo como si fuéramos los únicos seres vivos capaces de comunicarnos e impactar el ecosistema.

Pareciera ser que lo natural y lo tecnológico son ámbitos aislados pero la realidad es que tienen un tremendo potencial para convivir, potencial reflejado en tendencias como biomímesis.

Pero, ¿dónde entra la inteligencia artificial en toda esta ecuación?

Tomemos un paso atrás, y recordemos la capacidad de la inteligencia artificial de modelar, construir y entrenar distintos modelos en base a datos. Dichos datos alimentan este modelo y lo van perfeccionando. Lo mismo sucede a la hora de aprender un nuevo idioma. Un idioma es una forma de comunicar, y si desglosamos aún más, simplificando lo que es la comunicación,podemos definirla como un traspaso de información de un emisor a un receptor. 

Basándonos en esa premisa, es posible entender nuestra relación con el entorno, tanto nuestra como con otras especies, como una forma de comunicación. Hace algunos años, muchos no creían ni se imaginaban el rápido crecimiento que tendría la inteligencia artificial y sus aplicaciones. Hoy, podría ser la clave para entender a otros organismos, particularmente, a las plantas.

Con sus sentidos, las plantas recopilan información sobre su entorno y se orientan en el mundo. Las plantas pueden medir docenas de parámetros diferentes y procesar una gran cantidad de datos.

Mancuso, S., & Viola, A. (2015). Brilliant Green: The Surprising History and Science of Plant Intelligence. (J. Benham, Trans.). Washington, DC: Island Press.

La inteligencia artificial bien podría ser un medio de comunicación entre distintas especies, todo con la finalidad de poder comprender las realidades de cada una y enriquecer nuestro conocimiento. Tiene la potencialidad de establecer asociaciones y patrones de distintas respuestas electrofisiológicas de las plantas sentando las bases para un entendimiento más completo entre ambas especies.

La IA, como tecnología, nos ofrece la posibilidad de ir más allá para cerrar las brechas comunicacionales que mantenemos con las demás especies del planeta. Esta misión, aunque tardía, podría permitirnos sanar, en cierta medida, parte de la deuda y el daño que hemos provocado en el planeta en el nombre del progreso.


 


Cambio climático: ¿De qué forma la IA puede ayudarnos a frenar esta crisis global?

Cambio climático: ¿De qué forma la IA puede ayudarnos a frenar esta crisis global?

Según un estudio publicado por la revista académica Nature, los seres humanos son responsables de entre un 25% y un 40% más de la producción total de emisiones de metano de lo que se había estimado anteriormente. El metano es uno de los gases de efecto invernadero más potentes, siendo aproximadamente 28 veces más eficaz que el dióxido de carbono para atrapar el calor en la atmósfera, contribuyendo así al cambio climático. 

Por esta razón, este gas es actualmente el responsable de aproximadamente una cuarta parte del calentamiento global. Si bien es generado naturalmente por animales, volcanes y humedales, también es un subproducto de la producción de petróleo y gas. En la industria minera, esta es una problemática que también se encuentra muy presente, debido al impacto negativo de los combustibles fósiles que se utilizan.

Uso de combustible fósil: en camino a una mayor eficiencia 

En virtud del Acuerdo de París de 2015, 195 países se comprometieron a limitar el aumento de la temperatura global a 2.0 °C, e idealmente no más de 1.5 °C. Este objetivo ha motivado, en parte, la descarbonización de múltiples industrias. Este aparente cambio de mentalidad sin duda aumentará prontamente la presión de los gobiernos, los inversores y la sociedad para reducir las emisiones del sector minero.

Actualmente, esta industria es responsable del 4 al 7% de las emisiones de gases de efecto invernadero a nivel mundial. Las emisiones de CO2 generadas por las operaciones mineras y por el consumo de energía, respectivamente, ascienden al 1%. Por su parte, las emisiones fugitivas de metano de la minería del carbón se estiman entre el 3 y el 6%.

El impacto negativo de estas emisiones ha sido largamente documentado, tanto en el extranjero como en nuestro país. Durante principios de 2020, un estudio reveló que el alza en la temperatura del planeta fue parcialmente responsable por los devastadores incendios registrados en Australia. En Chile, la diversidad climática presente a lo largo del territorio se ha visto afectada en distintos aspectos, especialmente en la caída de lluvias, factor que impacta negativamente a rubros tan importantes como la agricultura.

COSMOS

UNIT, empresa dedicada al desarrollo de soluciones a través de la inteligencia artificial, recoge esta problemática a través de COSMOS. El proyecto busca optimizar el uso de combustibles de las industrias en el transporte, especialmente en el rubro minero.

La plataforma permite reducir el consumo de combustible, junto con las emisiones GHG a través de predicciones realizadas en base a modelos de inteligencia artificial. Éstos predicen el consumo, optimizan el rendimiento y detectan anomalías en el uso de combustible para asegurar un mejor uso de este recurso. La detección temprana permite, además, retroalimentar a los operadores sobre prácticas operacionales incorrectas. De esta manera,  buscando la excelencia y eficiencia operacional.

 

 


Inteligencia artificial: ¿Cómo puede ayudarte a conseguir un ascenso?

Inteligencia artificial: ¿Cómo puede ayudarte a conseguir un ascenso?

Todos y todas hemos soñado alguna vez con ser nuestros propios jefes, tarea para la cual invertimos recursos e incontables horas de estudio. Si bien esta es, sin duda, la base del crecimiento profesional, hoy en día existen múltiples herramientas capaces de traspasar distintos campos de expertise para ayudarnos a potenciar nuestros objetivos y permitirnos tomar la delantera en el mundo laboral.

Actualmente, cada estudiante, docente y profesional de las ciencias de datos tiene una opinión formada sobre la inteligencia artificial (IA), sus usos, aplicaciones y limitaciones. Se trata de una disciplina en constante expansión, cuyo alcance se vuelve cada vez más transversal. Incluso aquellos en otras ramas académicas y profesiones están comenzando a tener más que un mero interés pasajero en estas tecnologías emergentes.

Según MIT Sloan Research, más del 90% de las mayores empresas a nivel global están utilizando IA para mejorar sus protocolos de interacción con clientes. En otras palabras, estamos entrando en una nueva década, una que definitivamente será definida por los datos. Como consecuencia, la demanda de profesionales dedicados a disciplinas será mucho más intensa.

Nuevas oportunidades para el crecimiento profesional

La consultora de gestión McKinsey & Company, basada en E.E.U.U, estima que el 13% de las actividades laborales actuales realizadas en ocupaciones que requieren una universidad o títulos avanzados podrían ser desplazadas. En concreto, el estudio arrojó que de 60 a 375 millones de personas en todo el mundo podrían verse enfrentadas a la necesidad de cambiar de rubro para 2030. 

Contrario a la opinión popular, donde estas herramientas suelen ser las causantes de la pérdida de empleos, la nueva era liderada por los datos ofrece múltiples y nuevas oportunidades. En este cambio de panorama, tecnologías como la IA y Machine Learning (ML) liderarán la demanda de profesionales para esta fecha. Pero, ¿por dónde empezar?

A quién seguir

Mantente al día de las novedades del mundo de la inteligencia artificial siguiendo en redes sociales a algunas de las voces más respetadas del mundo AI.

Bob Swan, Intel Corporation

Jen-Hsun “Jensen” Huang, Nvidia

Demis Hassabis, DeepMind Technologies

Jeff Bezos, Amazon

Juan Larenas, UNIT

Recursos gratuitos

Existen muchas herramientas de acceso liberado que pueden ayudarte a forjar tu nueva carrera en AI. Aquí te recomendamos algunas.

Elements of AI

The Elements of AI es una serie de cursos gratuitos en línea creados por Reaktor y la Universidad de Helsinki. Combinan teoría con ejercicios prácticos para que puedas aprender a tu propio ritmo.

Curso de Inteligencia Artificial del MIT

La propuesta, disponible a través del canal oficial de YouTube del Instituto Tecnológico de Massachusetts, está dirigida a profesionales con conocimientos básicos sobre IA.

Curso intensivo de Aprendizaje Automático de Google

Si bien no requiere ningún conocimiento previo, te recomendamos tener experiencia en la programación de Python. Sin embargo, el curso contiene recursos secundarios para ayudarte a seguir aprendiendo.

Curso de Aprendizaje Automático de Stanford

La popular plataforma de cursos en línea Coursera ofrece este curso dictado por la Universidad de Stanford. Está enfocado en adquirir conocimientos prácticos sobre aspectos clave de la AI.

¿Te gustaría conocer tu nivel de AI y Machine Learning? Pon a prueba tus habilidades con esta prueba gratuita de PixelTests.

 

 

 


Inteligencia Artificial: ¿Por qué fallan los sistemas de reconocimiento facial?

Inteligencia Artificial: ¿Por qué fallan los sistemas de reconocimiento facial?

Contrario a los sistemas protegidos con contraseña, nuestra información biométrica está ampliamente disponible y es relativamente fácil de obtener. Por lo anterior, existen algunos tipos de ataques fáciles de implementar y que pueden tener éxito si no existen medidas para evitarlos. En particular, los sistemas de reconocimiento facial se pueden vulnerar utilizando uno de los siguientes métodos:

  • Una fotografía
  • Un vídeo
  • Un modelo 3D del rostro

Se han desarrollado varios métodos para enfrentar el problema de la suplantación con imágenes de rostros en sistemas de reconocimiento facial. Estos pueden ser divididos en dos enfoques: características dinámicas y  características estáticas.

Los enfoques de características dinámicas buscan detectar el movimiento en una secuencia de vídeo, analizando la trayectoria de segmentos específicos del rostro. Éstas revelan información valiosa para discriminar entre rostros reales y copias estáticas. Algunos métodos típicos son aquellos basados en la detección de párpados de ojos; gestos de cabeza y rostro (cabeceo, sonreír o mirar en diferentes direcciones); seguimiento del rostro y la mirada a través de la estimación de flujo. Estas técnicas son altamente efectivas para detectar ataques que utilizan fotos, pero pierden efectividad cuando se trata de vídeos.

Con el objetivo de aumentar el desempeño en los ataques con vídeos, se han desarrollado métodos específicos de liveness detection en vídeos. Por ejemplo, explorar la estructura 3D de los vídeos, analizar una gran cantidad de imágenes 2D con diferentes posiciones de la cabeza; usar un análisis basado en contexto para tomar ventaja de la información no-facial disponible en las muestras, como características de movimientos en la escena (como por ejemplo, movimiento en el fondo v/s primer plano). También se están usando versiones modificadas de Local Binary Patterns o LBP, para aprovechar la información temporal presente en el vídeo o analizar las texturas dinámicas en comparación con objetos rígidos como fotos y máscaras.

En búsqueda de soluciones

Una forma de enfrentar el problema es enfocarse en la detección de vida. Para esto, es necesario considerar una representación espacio-temporal que combine el aspecto facial y su dinámica. Para lograrlo, la clave está en la utilización de una representación espacio-temporal basada en LBP debido al desempeño mostrado en el modelamiento de movimiento de rostros y reconocimiento de expresiones faciales, y también en el reconocimiento de textura dinámica.

¿Cómo se detecta la suplantación en sistemas de reconocimiento facial?

El operador LBP para análisis de textura es definido como una medida de escala de grises invariante a la textura, derivado de una definición general en una vecindad local. Este es un descriptor de textura poderoso, y entre sus propiedades para aplicaciones del mundo real se destaca su poder discriminativo, simplicidad computacional y tolerancia ante cambios monotónicos en escala de grises.

El operador LBP inicialmente fue concebido para lidiar con información espacial. Sin embargo, su uso se ha ampliado a representaciones espacio temporal para análisis de textura dinámica, dando paso al operador Volume Local Binary Pattern (VLBP).

VLBP consiste en encontrar la textura dinámica en un vídeo, el cual es representado como un volumen (X, Y, T), donde X y Y denotan las coordenadas espaciales y T representa el índice del frame. Por otro lado, la vecindad de cada píxel está definida en un entorno tridimensional. El volumen de VLBP puede ser definido por planos ortogonales, dando paso a lo que se conoce como LBP-TOP o LBP Three Orthogonal Planes. Aquí se definen los planos XY, XT y YT. A partir de ellos, se extraen los mapas LBP para cada plano, denotados como XY-LBP, XT-LBP y YT-LBP y luego se concatenan para obtener la representación LBP considerando como centro un píxel del volumen , como se muestra en la figura.

En el operador LBP-TOP el radio del algoritmo LBP en el eje X es denotado Rx, en el eje Y es denotado Ry y en el eje T es denotado por Rt.

El número de puntos vecinos en los planos XY ,XT y YT es PXY, PXT y PYT, respectivamente. El tipo de operador en cada plano puede variar, estos pueden ser, patrones uniformes(u2), patrones uniformes invariantes a la rotación (rui2).

A diferencia de las fotografías, los rostros reales son objetos no rígidos con contracciones de los músculos faciales que resultan en deformaciones temporales. Por ejemplo, párpados y labios. Por lo tanto, se asume que los patrones específicos de movimiento facial deberían ser detectados cuando un humano vivo es observado con una cámara frontalmente. El movimiento de una fotografía frente a una cámara causa patrones de movimiento distintivos que no describen el mismo patrón que una cara genuina.

En la figura se presenta la metodología anti-spoofing, la cuál consta de los siguientes etapas:

Diagrama de bloques de método anti-spoofing basado en LBPTOP.
  1. Cada frame de la secuencia original es convertido a escala de grises y pasado a través de un detector de rostros.
  2. Los rostros detectados son geométricamente normalizados a 64 × 64 píxeles. Esto, con el objetivo de reducir el ruido del detector de rostros, la misma bounding box es utilizada para cada set de frames usado en el cálculo con el operador LBP-TOP.
  3. El operador LBP es aplicado en cada plano (XY,XT y YT) y los histogramas son calculados y luego concatenados.
  4. Se utiliza un clasificador binario para determinar cuáles son datos reales.

Cada uno de los vídeos, ya sea de ataques o accesos reales, es transformado a un arreglo 3D y en escala de grises que representa la distribución espacial X, Y, T. Luego, son divididos en secuencias de 75 frames a las que se aplica un algoritmo de detección de rostros en el frame central.

Este método es útil para prevenir ataques simples en sistemas de reconocimiento facial (como es el caso de las fotografías), pero no recomendable para ataques más complejos. El objetivo del método es identificar variaciones temporales, que pueden ser vulneradas fácilmente con una máscara. Es por ello que se sugiere siempre combinar métodos para construir un sistema biométrico robusto.

Para mayor información y el código del proyecto desarrollado visitar el proyecto en GitHub.

 

 

 


Reconocimiento facial: una tecnología en constante actualización

Reconocimiento facial: una tecnología en constante actualización

El reconocimiento facial se refiere a la tecnología capaz de identificar la identidad de sujetos en imágenes o vídeos. Pese a una cantidad no menor de desconfianza debido a sus posibilidades de falla, actualmente es una metodología en constante desarrollo. Se trata de un sistema biométrico no invasivo, en donde las técnicas utilizadas han variado enormemente durante los años.

Durante los 90’s, los métodos tradicionales utilizaban características handcrafted, como descriptores de bordes y texturas. Gabor, Local Binary Patterns (LBP), Histogram of Oriented Gradients (HOG), Scale Invariant Feature Transform (SIFT), etc. son algunos ejemplos de esto, los que eran la base para representaciones más complejas, por medio de codificación y transformación de características como Principal Component Analysis (PCA), LCA, entre otras. Aspectos como la luminosidad, pose o expresión pueden manejarse a través de estos parámetros.

Antiguamente, no existía ninguna técnica que pudiera dominar completa e integralmente todos los escenarios. Uno de los mejores resultados logrados es el presentado en el estudio  “Blessing of dimensionality: High-dimensional feature and its efficient compression for face verification”, donde se alcanza un 95% en la base de datos Labeled Face in the Wild (LFW). Esto indica que los métodos existentes eran insuficientes para extraer una representación de los rostros que fuese invariante a los cambios del mundo real.

¿Cómo funciona el reconocimiento facial en la actualidad?

Desde hace unos años, los métodos tradicionales han sido reemplazados por otros basados en deep learning, los que a su vez tienen su origen en las Redes Neuronales Convolucionales (CNN). La principal ventaja de los métodos basados en aprendizaje profundo, es que pueden “aprender”, a partir de grandes bases de datos, las mejores características para representar los datos, es decir, para construir los rostros. 

Un ejemplo de esto es la red DeepFace, que el año 2014 alcanzó un desempeño “estado del arte” en la famosa base de datos LFW. Con esto, logró aproximarse al desempeño de un humano en un escenario sin restricciones (DeepFace: 97,35% vs Humanos: 97,53%). Esto, entrenando un modelo de 9 capas sobre 4 millones de imágenes de rostros. Inspirado por este trabajo, el foco de las investigaciones se desvió hacia los métodos basados en aprendizaje profundo, logrando alcanzar un 99,8% en tan solo tres años.

Los sistemas de reconocimiento facial usualmente están conformados por las etapas mostradas en la siguiente figura:

  1. Detección de rostros: Se ingresa al sistema una imagen de consulta. Un detector encuentra la posición del rostro en la imagen de consulta y retorna las coordenadas de la posición.
  2. Alineamiento del rostro: Su objetivo es escalar y recortar la imagen del mismo modo para todos los rostros, utilizando un set de puntos de referencia.
  3. Representación del rostro: Los píxeles de la imagen de la imagen del rostro son transformados a una representación compacta y discriminativa, es decir, en un vector de características. Esta representación puede ser lograda utilizando métodos clásicos o modelos basados en aprendizaje profundo. Idealmente, todas las imágenes del rostros de un mismo sujeto deberían tener vectores de características similares.
  4. Pareo de rostros: Las imágenes de los rostros de los individuos registrados conforman una base de datos llamada galería. Cada imagen de rostro en la galería es representada como un vector de características. La mayoría de los métodos calculan la similitud entre el vector de características de la imagen de consulta y los vectores de la galería, utilizando la distancia coseno o la distancia L2. Aquel con menor distancia indica a qué individuo pertenece el rostro consultado.