Por qué no obtiene valor de su ciencia de datos
![Por qué no obtiene valor de su ciencia de datos](/content/images/size/w1200/2024/12/dec16-07-674734177-6.jpg)
![](https://libros.astraed.co/content/images/2024/12/dec16-07-674734177-5.jpg)
Las empresas de hoy en día generan constantemente enormes cantidades de datos, pero eso no siempre se traduce en información procesable. En los últimos años, mi grupo de investigación del MIT y yo hemos buscado respuestas a una pregunta fundamental: ¿Qué se requeriría para que las empresas aprovecharan todo el potencial de sus repositorios de datos con el aprendizaje automático?
Mientras trabajábamos para diseñar soluciones basadas en aprendizaje automático con una variedad de socios de la industria, nos sorprendió ver que las respuestas existentes a esta pregunta a menudo no se aplicaban. ¿Por qué?
En primer lugar, cada vez que hablamos con expertos en aprendizaje automático (científicos de datos enfocados en entrenar y probar modelos predictivos) sobre la parte más difícil de su trabajo, decían una y otra vez, «los datos son un desastre». Inicialmente, tomando esa declaración literalmente, nos imaginamos que se refería a problemas conocidos con los datos: valores faltantes o falta de coherencia entre las bases de datos. Pero a medida que profundizamos, nos dimos cuenta de que el problema era ligeramente diferente. En su forma más rara, incluso los datos limpios son demasiado abrumadores y complejos para ser entendidos a primera vista, incluso por expertos. Tiene demasiadas tablas y campos y a menudo se recopila con una granularidad muy alta (por ejemplo, los flujos de clics en línea generan nuevos datos con cada clic, y los datos del sensor se recopilan a 125 observaciones por segundo). Los expertos en aprendizaje automático están acostumbrados a trabajar con datos que ya se han agregado en variables útiles, como el número de visitas al sitio web de un usuario, en lugar de una tabla de cada acción que el usuario haya realizado en el sitio.
Al mismo tiempo, a menudo escuchamos a los expertos empresariales quejarse de que «tenemos muchos datos y no estamos haciendo nada con ellos». Las investigaciones posteriores revelaron que esto tampoco era estrictamente correcto. En cambio, esta frustración se debe a dos problemas. Por un lado, debido al tiempo que se tarda en comprender, formular y procesar datos para un problema de aprendizaje automático, los expertos en aprendizaje automático a menudo se centran en las partes posteriores de la tubería, probando diferentes modelos o ajustando los hiperparámetros del modelo una vez formulado un problema, en lugar de formular preguntas predictivas más nuevas para diferentes problemas empresariales. Por lo tanto, mientras que los expertos empresariales están planteando problemas, los expertos en aprendizaje automático no siempre pueden mantenerse al día.
Por otro lado, los expertos en aprendizaje automático a menudo no construyeron su trabajo en torno al objetivo final: derivar valor para el negocio. En la mayoría de los casos, los modelos predictivos tienen por objeto mejorar la eficiencia, aumentar los ingresos o reducir costos. Pero la gente que realmente trabaja en los modelos rara vez se pregunta «¿qué valor proporciona este modelo predictivo, y cómo podemos medirlo?» Hacer esta pregunta sobre la propuesta de valor a menudo conduce a un cambio en la formulación original del problema, y hacer tales preguntas a menudo es más útil que ajustar las etapas posteriores del proceso. En un panel reciente lleno de entusiastas del aprendizaje automático, encuesté a la audiencia de unas 150 personas, preguntando «¿Cuántos de ustedes han construido un modelo de aprendizaje automático?» Aproximadamente un tercio levantó sus manos. A continuación, pregunté: «¿Cuántos de ustedes han implementado y/o usado este modelo para generar valor, y lo evaluaron?» Nadie tenía la mano en alto.
En otras palabras, los expertos en aprendizaje automático querían dedicar su tiempo a crear modelos, no procesar conjuntos de datos masivos ni traducir problemas empresariales en problemas de predicción. Asimismo, el panorama tecnológico actual, tanto comercial como académico, se centra en permitir modelos más sofisticados (a través de modelos variables latentes), algoritmos de aprendizaje de modelos de escalado (mediante computación distribuida) o afinación (mediante hiperoptimización bayesiana) —esencialmente todas las etapas posteriores de la ciencia de datos. oleoducto. Sin embargo, en nuestra experiencia, encontramos que este enfoque está fuera de lugar.
Si las empresas quieren obtener valor de sus datos, deben centrarse en acelerar la comprensión humana de los datos, escalar el número de preguntas de modelado que pueden hacer a esos datos en un corto período de tiempo y evaluar sus implicaciones. En nuestro trabajo con empresas, en última instancia decidimos que la creación de un verdadero impacto a través del aprendizaje automático provendrá de un enfoque en cuatro principios:
Se adhieren con modelos sencillos: Decidimos que los modelos simples, como la regresión logística o los basados en bosques aleatorios o árboles de decisión, son suficientes para los problemas que se plantean. En cambio, debería centrarse en reducir el tiempo transcurrido entre la adquisición de datos y el desarrollo del primer modelo predictivo simple.
Explore más problemas: Los científicos de datos necesitan la capacidad de definir y explorar rápidamente múltiples problemas de predicción, rápida y fácilmente. En lugar de explorar un problema empresarial con un modelo de aprendizaje automático increíblemente sofisticado, las empresas deberían estar explorando docenas, construyendo un modelo predictivo simple para cada uno y evaluando su propuesta de valor.
Aprenda de una muestra de datos, no de todos los datos: En lugar de centrarse en cómo aplicar la computación distribuida para permitir que cualquier módulo de procesamiento individual maneje big data, invierta en técnicas que permitan derivar conclusiones similares de una submuestra de datos. Al eludir el uso de recursos informáticos masivos, permitirán la exploración de más hipótesis.
Enfoque en la automatización: Para lograr tanto tiempo reducido para el primer modelo y aumento de la tasa de exploración, las empresas deben automatizar procesos que normalmente se realizan manualmente. Una y otra vez a través de diferentes problemas de datos, nos encontramos aplicando técnicas similares de procesamiento de datos, ya sea para transformar los datos en agregados útiles o para preparar datos para el modelado predictivo; es hora de racionalizarlos y desarrollar algoritmos y crear sistemas de software que los hagan. automáticamente.
Esta comprensión aguda de cómo los científicos de datos interactúan con los datos y dónde se encuentran los cuellos de botella nos llevó a lanzar «The Human-Data Interaction Project» en el MIT, centrándose en los objetivos enumerados anteriormente. Nuestro objetivo es la exploración rápida de modelos predictivos, y ponerlos realmente en uso resolviendo problemas reales en organizaciones reales. Estos modelos serán sencillos, y la automatización permitirá incluso a los usuarios ingenuos desarrollar cientos, si no miles de modelos predictivos en cuestión de horas, algo que, hoy, lleva a los expertos meses enteros.
— Escrito por Kalyan Veeramachaneni