Equilibrio entre reconocimiento facial y precisión del mundo real

11 de febrero de 2019

Evaluación de sistemas de reconocimiento facial a través de puntajes del Instituto Nacional de Estándares y Tecnología (NIST). Aquí hay una guía objetiva sobre cómo navegar y comprender mejor los datos NIST.

Las pruebas de referencia son una forma útil de evaluar y contrastar el estado del reconocimiento facial, pero las pruebas se malinterpretan fácilmente y a menudo se tergiversan. Las pruebas más destacadas en la industria del reconocimiento facial, que comenzaron en 2000, son realizadas por NIST, una agencia gubernamental que forma parte del Departamento de Comercio de los Estados Unidos.

NIST realiza una batería continua de pruebas, conocida como Prueba de Proveedor de Reconocimiento Facial (FRVT), para medir las características clave de los algoritmos de reconocimiento facial, incluida la precisión, el rendimiento y el sesgo. Las empresas y las instituciones académicas tienen la oportunidad de presentar uno o más algoritmos para que el NIST aplique un conjunto de pruebas. Los dos resultados de la prueba FRVT más recientes tienen más de 270 páginas y se publicaron en Junio/18 y Enero/19. El NIST no solo mide las características específicas de los algoritmos faciales, como el rendimiento, la precisión y el sesgo, sino que los estándares de medición informan los atributos por tipo de imagen, como fotos planteadas, fotos de cámaras web o imágenes de situaciones reales. Imágenes de situaciones reales (wild images) son caras desconocidas captadas por las imágenes de vídeo: son imágenes complejas porque las caras pueden variar en ángulo y inclinación; sin mencionar que puede haber muchas caras dentro del mismo cuadro de video. Las imágenes salvajes (wild images) desafían las cualidades faciales porque están incrustadas en condiciones del mundo real, para las que se diseñó SAFR. NIST realiza sus pruebas de reconocimiento facial utilizando fotografías fijas. El reconocimiento facial en video en vivo requiere una optimización combinada en captura, precisión y velocidad.

SAFR de RealNetworks es el algoritmo de reconocimiento facial de alto rendimiento más preciso para video en vivo, según lo probado por NIST.

Los proveedores, los investigadores y las instituciones académicas pueden enviar sus soluciones a la prueba FRVT de NIST y no enviar con precisión su algoritmo de reconocimiento facial comercial y real, lo que puede conducir a resultados engañosos. Un proveedor o académico puede presentar un algoritmo que funcione bien con precisión pero que, en condiciones comerciales reales, puede ser tan costoso desde el punto de vista informático que resulta poco práctico. Por ejemplo, en los resultados de FRVT de Enero, varios algoritmos lograron marcas de wild faces de alta precisión, pero funcionaron tan lentamente – tres a cinco veces más lento que el algoritmo SAFR – que sería poco práctico en muchas condiciones del mundo real, que requeriría un poder de cómputo extremadamente costoso, un tiempo excesivo para reconocer una cara y ser abrumado por muchas caras en el video.

Algunos de los algoritmos probados por NIST se pueden comparar con los autos de Fórmula 1: están diseñados para funcionar bien en un circuito dado, pero no reflejan el mundo real de los negocios, lo que requiere un equilibrio en las condiciones de manejo, ruido, frenado, capacidad de alcance, seguridad y comodidad.

Entonces, ¿cómo se desempeñó SAFR contra el algoritmo más preciso en el informe de Enero? El algoritmo más preciso del informe de Enero tiene un puntaje para wild faces de 0.028, pero es 4.7 veces más lento y 2.4 veces más pesado que el algoritmo SAFR, que tiene un puntaje de 0.048. El segundo algoritmo con más precisión de Enero tuvo un buen desempeño en la precisión, pero comparado con el SAFR en una aplicación comercial a gran escala y en el mundo real, se necesitarían 2-3 veces el hardware local para obtener resultados que serían 4-5 veces más lentos, como se ilustra en el gráfico a continuación. El aumento de la precisión tiene un efecto debilitante en el rendimiento y el costo.

El alto rendimiento marca una gran diferencia, ya que aumenta el número de oportunidades de reconocimiento en un sistema computacionalmente restringido. En el grupo de algoritmos que exceden el 95% de precisión, SAFR es el modelo más rápido y ligero. Esto significa que SAFR puede identificar una cara varias veces durante el mismo período de tiempo que otros algoritmos, componiendo posteriormente la precisión de la plataforma. Como resultado, SAFR puede identificar inequívocamente a un solo individuo en una galería de 10.000 registros más rápido que cualquier otro algoritmo.

SAFR es altamente competitivo para la precisión de la fotografía: según lo probado por NIST, está clasificado entre los 10 mejores productos disponibles comercialmente en el mundo y entre los 3 mejores entre las compañías estadounidenses. Sin embargo, como se señaló, la puntuación de precisión NIST no transmite toda la imagen. El NIST mide la coincidencia de una sola imagen con una sola imagen para wild faces, mientras que en la vida real las personas que se mueven dentro de un cuadro de video se mueven constantemente. SAFR utiliza inteligencia de vanguardia para seleccionar la imagen correcta desde de cientos de cuadros de video. Esto significa que la precisión de SAFR es en realidad más alta que la medida por NIST, ya que SAFR monitorea continuamente el video para capturar y enviar el mejor cuadro para el reconocimiento. NIST no usa video en sus pruebas.

El SAFR se diferencia de otros algoritmos de reconocimiento facial, ya que logra resultados con una fracción de la potencia computacional requerida por la mayoría de los algoritmos de su clase. Muchas empresas que están sujetas a NIST están optimizados para la alta precisión, pero no pueden encontrar un equilibrio entre el rendimiento y la precisión.

SAFR de RealNetworks se compromete a proporcionar la mejor precisión y rendimiento con un sesgo mínimo, utilizando hardware fácilmente disponible para reconocer personas en condiciones del mundo real.

SAFR es la plataforma principal para el reconocimiento facial en el mundo real.