Por qué no obtiene valor de su ciencia de datos
por Kalyan Veeramachaneni

Las empresas actuales generan enormes cantidades de datos constantemente, pero eso no siempre se traduce en información procesable. Durante los últimos años, mi grupo de investigación en el MIT y yo hemos buscado respuestas a una pregunta fundamental: ¿qué necesitarían las empresas para aprovechar todo el potencial de sus repositorios de datos con el aprendizaje automático?
Mientras trabajábamos para diseñar soluciones basadas en el aprendizaje automático con varios socios del sector, nos sorprendió descubrir que las respuestas existentes a esta pregunta a menudo no se aplicaban. ¿Por qué?
En primer lugar, cada vez que hablábamos con expertos en aprendizaje automático (científicos de datos que se centraban en entrenar y probar modelos predictivos) sobre la parte más difícil de su trabajo, nos decían una y otra vez: «Los datos son un desastre». Al principio, tomando esa declaración al pie de la letra, imaginamos que se refería a problemas bien conocidos con los datos: valores faltantes o falta de coherencia en las bases de datos. Pero a medida que profundizábamos, nos dimos cuenta de que el problema era ligeramente diferente. En su forma más cruda, incluso los datos limpios son demasiado abrumadores y complejos para que los entiendan a primera vista, incluso los expertos. Tiene demasiadas tablas y campos y, a menudo, se recopila con una granularidad muy alta (por ejemplo, las secuencias de clics en línea generan nuevos datos con cada clic y los datos de los sensores se recopilan a 125 observaciones por segundo). Los expertos en aprendizaje automático están acostumbrados a trabajar con datos que ya se han agregado en variables útiles, como el número de visitas al sitio web por parte de un usuario, en lugar de en una tabla con todas las acciones que el usuario ha realizado en el sitio.
Centro Insight
La próxima era de la analítica
Patrocinado por SAS
Aprovechar el poder del aprendizaje automático y otras tecnologías.
Al mismo tiempo, escuchábamos a menudo a los expertos empresariales quejarse de que «tenemos muchos datos y no hacemos nada con ellos». Una investigación más profunda reveló que esto tampoco era del todo correcto. En cambio, esta frustración se debe a dos problemas. Por un lado, debido al tiempo que se tarda en entender, formular y procesar los datos de un problema de aprendizaje automático, los expertos en aprendizaje automático suelen centrarse en las últimas partes del proceso: probar diferentes modelos o ajustar los hiperparámetros del modelo una vez formulado el problema, en lugar de formular preguntas predictivas más nuevas para diferentes problemas empresariales. Por lo tanto, si bien los expertos en negocios tienen problemas, los expertos en aprendizaje automático no siempre pueden mantenerse al día.
Por otro lado, los expertos en aprendizaje automático no solían basar su trabajo en torno al objetivo final: obtener valor empresarial. En la mayoría de los casos, los modelos predictivos tienen como objetivo mejorar la eficiencia, aumentar los ingresos o reducir los costes. Pero la gente que trabaja en los modelos rara vez se pregunta «¿qué valor ofrece este modelo predictivo y cómo podemos medirlo?» Hacer esta pregunta sobre la propuesta de valor suele provocar un cambio en la formulación original del problema, y hacer esas preguntas suele ser más útil que modificar las etapas posteriores del proceso. En un panel reciente repleto de entusiastas del aprendizaje automático, encuesté a una audiencia de unas 150 personas y les pregunté: «¿Cuántos de ustedes han creado un modelo de aprendizaje automático?» Aproximadamente un tercio levantó la mano. Luego, pregunté: «¿Cuántos de ustedes han desplegado o utilizado este modelo para generar valor y lo han evaluado?» Nadie tenía la mano en alto.
En otras palabras, los expertos en aprendizaje automático querían dedicar su tiempo a crear modelos, no a procesar conjuntos de datos masivos ni a convertir los problemas empresariales en problemas de predicción. Del mismo modo, el panorama tecnológico actual, tanto comercial como académico, se centra en permitir modelos más sofisticados (mediante modelos de variables latentes), escalar los algoritmos de aprendizaje de modelos (mediante computación distribuida) o ajustes (mediante la hiperoptimización bayesiana), básicamente en todas las etapas posteriores del proceso de la ciencia de datos. Sin embargo, según nuestra experiencia, nos pareció que este enfoque estaba fuera de lugar.
Si las empresas quieren sacar provecho de sus datos, tienen que centrarse en acelerar la comprensión humana de los datos, aumentar el número de preguntas de modelado que pueden hacer a esos datos en poco tiempo y evaluar sus implicaciones. En nuestro trabajo con las empresas, al final decidimos que crear un verdadero impacto a través del aprendizaje automático debía centrarse en cuatro principios:
Siga con los modelos simples: Decidimos que los modelos simples, como la regresión logística o los basados en bosques aleatorios o árboles de decisiones, son suficientes para los problemas en cuestión. En cambio, la atención debería centrarse en reducir el tiempo entre la adquisición de los datos y el desarrollo del primer modelo predictivo simple.
Explore más problemas: Los científicos de datos necesitan la capacidad de definir y explorar rápidamente varios problemas de predicción, de forma rápida y sencilla. En lugar de explorar un problema empresarial con un modelo de aprendizaje automático increíblemente sofisticado, las empresas deberían explorar docenas, crear un modelo predictivo sencillo para cada uno de ellos y evaluar su propuesta de valor.
Aprenda de una muestra de datos, no de todos los datos: En lugar de centrarse en cómo aplicar la computación distribuida para permitir que cualquier módulo de procesamiento individual gestione macrodatos, invierta en técnicas que permitan derivar conclusiones similares a partir de una submuestra de datos. Al evitar el uso de enormes recursos informáticos, permitirán explorar más hipótesis.
Centrarse en la automatización: Para lograr ambas cosas reducción del tiempo hasta el primer modelo y aumento de la tasa de exploración, las empresas deben automatizar los procesos que normalmente se realizan de forma manual. Una y otra vez, a través de diferentes problemas de datos, nos encontramos aplicando técnicas de procesamiento de datos similares, ya fuera para transformar los datos en agregados útiles o para preparar los datos para la modelización predictiva; es hora de simplificarlas y desarrollar algoritmos y crear sistemas de software que lo hagan automáticamente.
Este profundo conocimiento de cómo los científicos de datos interactúan con los datos y dónde se encuentran los cuellos de botella nos llevó a lanzar el «Proyecto de interacción entre humanos y datos» en el MIT, centrado en los objetivos enumerados anteriormente. Nuestro objetivo es explorar rápidamente los modelos predictivos y utilizarlos realmente para resolver problemas reales en organizaciones reales. Estos modelos serán sencillos y la automatización permitirá que incluso los usuarios más ingenuos desarrollen cientos, si no miles, de modelos predictivos en cuestión de horas, algo que, hoy en día, los expertos llevan meses enteros.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.