Tabla de Contenidos
1. DE MODELO-CÉNTRICO A DATA-CÉNTRICO
Todo proyecto de IA consta, fundamentalmente, de dos partes: datos y código (o el modelo a usar).
Hace unas semanas el famoso co-fundador de la plataforma Coursera y profesor adjunto de la Universidad de Standford, Andrew Ng, impartió una charla por videoconferencia que ha llamada la atención de muchos reivindicando un cambio de paradigma en lo que respecta al desarrollo de productos con IA.
“La calidad de muchos de los productos con IA mejorarían notablemente si el equipo se centrara de manera más sistemática en mejorar la calidad del dato” Andrew Ng
Siguiendo esta fórmula, es de sobra conocido por todos aquellos involucrados en este sector que más de un 80% del tiempo va dedicado al pre-procesado de los datos (limpieza, almacenamiento, consistencia… etc), mientras que la selección y entrenamiento del modelo lleva entorno a un 20% del tiempo. No obstante, pese a la importancia que lleva la calidad y cantidad de los datos, son muchos los equipos de desarrolladores que todavía se empeñan en mejorar la eficiencia y rendimiento del sistema enfocándose únicamente en el código y no en buscar alternativas para mejorar los datos.
“Si el 80% del tiempo va dedicado al pre-procesado de los datos, entonces garantizar la calidad de los datos es la labor más importante para el equipo de desarrollo de machine learning.” Andrew Ng
2. POCOS DATOS Y MODELOS POTENTES
Uno de los principales problemas que muchas startups y empresas encaran cuando comienzan a desarrollar productos con inteligencia artificial es dar con los datos necesarios para entrenar sus modelos: recolectar datos de distintas fuentes, estandarizar al formato adecuado, buen etiquetado… son solo algunas de las dificultades a las que se enfrentan.
Debido a la carencia de procedimientos y herramientas que faciliten y sistematicen este proceso, se opta en la mayoría de los casos por mejorar el rendimiento del producto perfeccionando el código y reajustando parámetros del modelo
Es por este motivo que Andrew viene a revindicar que la comunidad debe volcarse en desarrollar metodologías y tecnologías que refuercen esta carencia de calidad y cantidad exponiendo casos de ejemplo que ha observado en los últimos proyectos en los que se ha visto involucrado:
Invirtiendo los esfuerzos en mejorar los datos se obtuvieron mejores resultados. Como bien dice el dicho garbage in, garbage out (basura que entra, basura que sale).
Es también aquí donde recalca el papel del ingeniero de machine learning, encargado de garantizar el correcto flujo de trabajo entre las distintas fases comprendidas entre el entrenamiento y el despliegue en producción del modelo y que debe optar por prácticas que se enfoquen en monitorizar y mejorar la calidad del dato.
3. PROPOSICIONES Y HERRAMIENTAS
Pese a ser todo esto un campo nuevo abierto a desarrollar nuevas prácticas y tecnologías que faciliten todo esto, Andrew presenta las siguientes ideas:
- Estandarizar los criterios de etiquetado de los datos. De esta manera garantizamos la consistencia de estos.
- Tomar una perspectiva data-céntrica cuando disponemos de pocos datos (<10000) y no centrarnos tanto en mejorar el código del modelo.
- Optar por herramientas para mejorar la calidad del dato cuando el dataset es pequeño
Por otro lado, os compartimos una lista de herramientas que hacemos uso en Nymiz para generar datos sintéticos y automatizar el etiquetado de los datos, esto es, a partir de las muestras de las que ya se dispone:
- Snorkel: Plataforma para automatizar el etiquetado de los datos.
- Top 63 data augmentation projects: Lista con amplia variedad de herramientas para distintos tipos de datos y casos de uso.
CONCLUSIÓN
Como hemos visto, evolucionar hacia una perspectiva data-céntrica resulta fundamental para mejorar el rendimiento de los productos con IA.
Sin duda en los próximos meses veremos como se irán presentando nuevas plataformas y recursos que mejorarán todo este procedimiento. Sin ir más lejos, Snorkel, la plataforma que hemos presentado en el apartado anterior, acaba de cerrar una ronda de financiación bastante importante y han prometido nuevas funcionalidades.
Os mantendremos al día de las novedades.