DATA SINTETICA : La democratización del aprendizaje profundo (Deep Learning)

La filosofía de trabajo “Work Anywhere Work Anytime”
24 julio, 2019
El concepto de SYNTHETIC DATA o DATA SINTETICA que ahora la Big Data y el Machine Learning impulsa como la revolución de los datos no es nuevo.  Ya en los años 80s por ejemplo, los sistemas de Comando y Control de Fragatas Misileras Europeas de tipo Lupo Italianas súper imponían data sintética a la data cruda (raw data) proveniente de los videos de radar.
Por otro lado por los años 80s,  en mi fascinación por los Hand Held Computers de HP , experimentaba como el poderoso y disruptivo computador de mano HP41CV de dicha época, impulsaba la revolución de la programación sintética o SYNTHETIC PROGRAMMING.
En este escenario disruptivo de Big Data y Machine Learning nuestras sociedades modernas experimentarán lo que ya experimentaban los sistemas avanzados de combate de los 80s,   una fusión de data sintética generada por computadora con data colectada en tiempo real por los sensores.
Los datos sintéticos son información fabricada artificialmente en lugar de ser generada por eventos del mundo real. Los datos sintéticos se crean de forma algorítmica y se utilizan como soporte para los conjuntos y pruebas y producción de datos , para validar modelos matemáticos y cada vez más, para entrenar modelos de aprendizaje automático.
Cuando una computadora fabrica artificialmente datos en lugar de medirlos y los recopila de situaciones del mundo real, se llama datos sintéticos. Los datos se anonimizan y se crean en función de los parámetros especificados por el usuario para que estén lo más cerca posible de las propiedades de los datos de los escenarios del mundo real.
Una forma de crear datos sintéticos es usar datos del mundo real, pero eliminar los aspectos de identificación como nombres, correos electrónicos, números de seguridad social y direcciones del conjunto de datos para que se anonimice.
Un modelo generativo, que puede aprender de datos reales, también puede crear un conjunto de datos que se asemeja mucho a las propiedades de los datos auténticos. A medida que la tecnología mejora, la brecha entre los datos sintéticos y los datos reales disminuye.
Los datos sintéticos son útiles en muchas situaciones. Similar a cómo un científico investigador podría usar material sintético para completar experimentos con bajo riesgo, los científicos de datos pueden aprovechar los datos sintéticos para minimizar el tiempo, el costo y el riesgo. En algunos casos, no hay un conjunto de datos lo suficientemente grande como para entrenar un algoritmo de aprendizaje automático de manera efectiva para cada escenario posible, por lo que la creación de un conjunto de datos puede garantizar una capacitación integral. En otros casos, los datos del mundo real no se pueden utilizar para fines de prueba, capacitación o garantía de calidad debido a problemas de privacidad, ya que los datos son confidenciales o son para una industria altamente regulada.
Los enormes conjuntos de datos son lo que potencia las máquinas de aprendizaje profundo y los algoritmos de inteligencia artificial que se espera que ayuden a resolver problemas muy difíciles.
Los datos sintéticos permiten a las organizaciones de todos los tamaños y niveles de recursos la posibilidad de capitalizar también el aprendizaje impulsado por conjuntos de datos profundos que, en última instancia, pueden democratizar el aprendizaje automático. La creación de datos sintéticos es más eficiente y rentable que la recopilación de datos del mundo real en muchos casos.
También se puede crear a pedido según las especificaciones, en lugar de tener que esperar para recopilar datos una vez que ocurren en la realidad. Los datos sintéticos también pueden complementar los datos del mundo real, de modo que pueden realizarse pruebas para cada variable imaginable, incluso si no hay un buen ejemplo en el conjunto de datos reales.
Esto permite a las organizaciones acelerar las pruebas de rendimiento del sistema y la capacitación de nuevos sistemas. Las limitaciones para usar datos reales para aprendizaje y pruebas se reducen cuando se usan conjuntos de datos fabricados. Investigaciones recientes sugieren que es posible obtener los mismos resultados utilizando datos sintéticos como lo haría con conjuntos de datos auténticos.
Puede ser difícil crear datos sintéticos de alta calidad, especialmente si el sistema es complejo. Es importante que el modelo generativo que crea los datos sintéticos sea excelente o los datos que genere se verán afectados. Si los datos sintéticos no son casi idénticos a un conjunto de datos del mundo real, puede comprometer la calidad de la toma de decisiones que se realiza en base a los datos. Incluso si los datos sintéticos son realmente buenos, sigue siendo una réplica de propiedades específicas de un conjunto de datos real. Un modelo busca tendencias para replicar, por lo que algunos de los comportamientos aleatorios pueden pasarse por alto.
Dos 02 casos de uso de datos sintéticos que están ganando una adopción generalizada en sus respectivas comunidades de aprendizaje automático son:
Simulaciones de auto conducción de vehículos:
Aprender con experimentos de la vida real es difícil en la vida y también para algoritmos. Es especialmente difícil para las personas que terminan siendo atropelladas por los autos que conducen en auto como en el accidente mortal de Uber en Arizona, USA. Mientras Uber reduce sus operaciones en Arizona, probablemente deberían aumentar sus simulaciones para entrenar a sus modelos.
Los líderes de la industria han confiado en las simulaciones para crear millones de horas de datos de conducción sintéticos para entrenar sus algoritmos.
Redes de Publicidad Generativa (GAN):
Estas redes, también llamadas GAN o redes neuronales adversas generativas (Generative Adversarial Networks (GANs) ), fueron introducidas por Ian Goodfellow en 2014. Estas redes son un avance reciente en el reconocimiento de imágenes. Están compuestas por un discriminador y una red generadora. Mientras que la red del generador genera imágenes sintéticas lo más cercanas a la realidad posible, la red discriminadora tiene como objetivo identificar imágenes reales de las sintéticas. Ambas redes construyen nuevos nodos y capas para aprender a ser mejores en sus tareas.
Si bien este método es popular en las redes neuronales utilizadas en el reconocimiento de imágenes, tiene usos más allá de estas. También se pueden aplicar a otros enfoques de aprendizaje automático. En general, se denomina aprendizaje de Turing como referencia a la prueba de Turing. En la prueba de Turing, un humano conversa con un interlocutor o speaker invisible que trata de entender si es una máquina o un humano.
Aplicaciones de datos sintéticos.
Cuando los problemas de privacidad son un problema, como en las industrias financiera y de salud, o se requiere un conjunto de datos enorme para entrenar algoritmos de aprendizaje automático, los conjuntos de datos sintéticos pueden impulsar el progreso.
Los datos sintéticos con datos a nivel de registro pueden ser utilizados por las organizaciones de atención médica para informar a los protocolos de atención mientras se protege la confidencialidad del paciente. Los rayos X simulados se combinan con los rayos X reales para entrenar los algoritmos de AI para identificar las condiciones.
En aplicaciones del sector financiero, los sistemas de detección de actividad fraudulenta se pueden probar y entrenar sin exponer registros financieros personales.
Los equipos de DevOps (software development (Dev) and information technology operations (Ops) ) utilizan datos sintéticos para probar el software y garantizar la calidad.
Los algoritmos de aprendizaje automático a menudo se entrenan con datos sintéticos.
Waymo, una empresa de desarrollo de tecnología autónoma, subsidiaria de Alphabet Inc. Waymo probó sus vehículos autónomos al conducir 8 millones de millas en carreteras reales más otros 5 mil millones en carreteras simuladas.
Otros fabricantes de automóviles están usando videojuegos para ayudar a su tecnología de auto conducción.
Escrito por:

PhD. Fernando Jimenez Motte

CEO/CFO Scientist 
NEUROMORPHIC TECHNOLOGIES NT
CHIEF SCIENTIST IoT APPLISYS CHAIR OF MANUFACTURING COMMITTEE
ASGARDIA AEROSPACE 

http://fernandojimenezmotte.com/

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Translate »
Ir a la barra de herramientas