Lo que realmente hacen los científicos de datos, según 35 científicos de datos

¿Qué hacen los científicos de datos? Según entrevistas con más de 30 científicos de datos, la ciencia de datos tiene que ver con la infraestructura, las pruebas, el uso del aprendizaje automático para la toma de decisiones y los productos de datos. La ciencia de datos se utiliza en numerosos campos, pero no todo tiene que ver con el aprendizaje profundo o la búsqueda de inteligencia artificial general. De hecho, las habilidades necesarias incluyen la comunicación y la narración de historias. Pero la ciencia de datos se está especializando cada vez más y, con ello, las habilidades que necesitan los científicos de datos están evolucionando. Además, la ética se está convirtiendo en un desafío cada vez mayor.

••• La ciencia de datos moderna surgió en la tecnología, desde la optimización de las clasificaciones de búsqueda de Google y las recomendaciones de LinkedIn hasta influir en los titulares que publican los editores de Buzzfeed. Pero está a punto de transformar todos los sectores, desde el comercio minorista, las telecomunicaciones y la agricultura hasta la salud, los camiones y el sistema penal. Sin embargo, los términos «ciencia de datos» y «científico de datos» no siempre se entienden fácilmente y se utilizan para describir una amplia gama de trabajos relacionados con los datos. ¿Qué es exactamente lo que hacen los científicos de datos? Como presentador del [Podcast DataCamp _Marco de datos_](https://www.datacamp.com/community/podcast), he tenido el placer de hablar con más de 30 científicos de datos de una amplia gama de sectores y disciplinas académicas. Entre otras cosas, les he preguntado qué implica su trabajo. Es cierto que la ciencia de datos es un campo variado. Los científicos de datos que he entrevistado abordan nuestras conversaciones desde muchos ángulos. Describen una amplia gama de trabajos, incluidos los enormes marcos experimentales en línea para el desarrollo de productos en booking.com y Etsy, los métodos que utiliza Buzzfeed para implementar una solución de bandidos con varios brazos para optimizar los titulares y el impacto que el aprendizaje automático tiene en las decisiones empresariales de Airbnb. El último ejemplo apareció durante mi conversación con el científico de datos de Airbnb Robert Chang. Cuando Chang estaba en Twitter, la empresa se centraba en crecer. Ahora que está en Airbnb, Chang trabaja en modelos de aprendizaje automático puestos en producción. La ciencia de datos se puede utilizar de diferentes maneras, según no solo el sector, sino también la empresa y sus objetivos. Pero a pesar de toda la variedad, de estas conversaciones han surgido varios temas. Esto es lo que son: **Qué hacen los científicos de datos.** Ahora sabemos cómo funciona la ciencia de datos, al menos en la industria de la tecnología. En primer lugar, los científicos de datos sientan una base de datos sólida para realizar análisis sólidos. Luego utilizan experimentos en línea, entre otros métodos, para lograr un crecimiento sostenible. Por último, crean canales de aprendizaje automático y productos de datos personalizados para entender mejor su empresa y sus clientes y tomar mejores decisiones. En otras palabras, en tecnología, la ciencia de datos tiene que ver con la infraestructura, las pruebas, el aprendizaje automático para la toma de decisiones y los productos de datos. **Se están logrando grandes avances en industrias distintas de la tecnología.** Hablé con Ben Skrainka, científico de datos de Convoy, sobre cómo la empresa aprovecha la ciencia de datos para revolucionar la industria del transporte por carretera en Norteamérica. Sandy Griffith, de Flatiron Health, nos habló del impacto que la ciencia de datos ha empezado a tener en la investigación del cáncer. Drew Conway y yo hablamos sobre su empresa Alluvium, que «utiliza el aprendizaje automático y la inteligencia artificial para convertir los enormes flujos de datos producidos por las operaciones industriales en información». Mike Tamir, ahora director de conducción autónoma en Uber, habló sobre su trabajo con Takt para facilitar que las empresas de la lista Fortune 500 aprovechen la ciencia de datos, incluido su trabajo en los sistemas de recomendaciones de Starbucks. Esta lista no exhaustiva ilustra las revoluciones de la ciencia de datos en una multitud de sectores verticales. **No todo es solo la promesa de los coches autónomos y la inteligencia general artificial.** Muchos de mis invitados se muestran escépticos no solo ante la fetichización de la inteligencia artificial general por parte de los principales medios de comunicación (incluidos titulares como «Un dios de la IA surgirá en 2042 y escribirá su propia biblia») de VentureBeat. ¿Lo adorará?») , sino también del rumor en torno al aprendizaje automático y el aprendizaje profundo. Claro, el aprendizaje automático y el aprendizaje profundo son técnicas poderosas con aplicaciones importantes, pero, como ocurre con todos los términos de moda, es necesario un escepticismo saludable. Casi todos mis invitados entienden que los científicos de datos que trabajan se ganan el pan y la mantequilla de cada día mediante la recopilación y la limpieza de datos, la creación de paneles e informes, la visualización de datos, la inferencia estadística, la comunicación de los resultados a las principales partes interesadas y el convencimiento de los responsables de la toma de decisiones de sus resultados. **Las habilidades que necesitan los científicos de datos están evolucionando (y la experiencia con el aprendizaje profundo no es la más importante).** En una conversación con Jonathan Nolis, un líder en ciencia de datos del área de Seattle que ayuda a las empresas de Fortune 500, le hicimos la pregunta: «¿Qué habilidad es más importante para un científico de datos: la capacidad de utilizar los modelos de aprendizaje profundo más sofisticados o la habilidad de crear buenas diapositivas de PowerPoint?» Abogó por esto último, ya que la comunicación de los resultados sigue siendo una parte fundamental del trabajo de datos. Otro tema recurrente es que es probable que estas habilidades, tan necesarias hoy en día, cambien en un plazo relativamente corto. A medida que observamos una rápida evolución tanto en el ecosistema de herramientas de código abierto disponibles para la ciencia de datos como en las herramientas comerciales y productizadas de ciencia de datos, también estamos viendo una creciente automatización de muchos de los trabajos pesados de la ciencia de datos, como la limpieza y la preparación de los datos. Ha sido un tropo común que[El 80% del valioso tiempo de un científico de datos](https://www.ibm.com/blogs/bluemix/2017/08/ibm-data-catalog-data-scientists-productivity/) se dedica a buscar, limpiar y organizar los datos, lo que deja solo un 20% para realizar análisis reales. Pero es poco probable que esto dure. Hoy en día, incluso gran parte del aprendizaje automático y el aprendizaje profundo se automatizan, como aprendimos cuando dedicamos un episodio al aprendizaje automático y escuchamos a Randal Olson, científico de datos principal de Life Epigenetics. Uno de los resultados de este rápido cambio es que la gran mayoría de mis invitados nos dicen que las habilidades clave de los científicos de datos no son la capacidad de crear y utilizar infraestructuras de aprendizaje profundo. En cambio, son las habilidades de aprender sobre la marcha y de comunicarse bien para responder a las preguntas empresariales y explicar los resultados complejos a las partes interesadas no técnicas. Los aspirantes a científicos de datos, entonces, deberían centrarse menos en las técnicas que en las preguntas. Las nuevas técnicas van y vienen, pero el pensamiento crítico y las habilidades cuantitativas y específicas seguirán siendo demandadas. **La especialización es cada vez más importante.** Si bien no hay una trayectoria profesional bien definida para los científicos de datos y hay poco apoyo para los científicos de datos jóvenes, estamos empezando a ver algunas formas de especialización. Emily Robinson describió la diferencia entre los científicos de datos de tipo A y de tipo B: «El tipo A es el análisis, una especie de estadístico tradicional, y el tipo B consiste en crear modelos de aprendizaje automático». Jonathan Nolis divide la ciencia de datos en tres componentes: (1) la inteligencia empresarial, que consiste básicamente en «tomar los datos que tiene la empresa y ponerlos a disposición de las personas adecuadas» en forma de paneles, informes y correos electrónicos; (2) la ciencia de las decisiones, que consiste en «tomar los datos y usarlos para ayudar a la empresa a tomar una decisión»; y (3) el aprendizaje automático, que trata de «cómo podemos tomar los modelos de ciencia de datos y poner los ponen en producción de forma continua». Aunque muchos científicos de datos en activo son generalistas actualmente y hacen las tres cosas, estamos viendo cómo están surgiendo distintas trayectorias profesionales, como en el caso de los ingenieros de aprendizaje automático. **La ética es uno de los mayores desafíos del campo.** Se dará cuenta de que la profesión ofrece a sus profesionales una gran incertidumbre. Cuando le pregunté a Hilary Mason en nuestro primer episodio si la comunidad de la ciencia de datos se enfrentaba a otros desafíos importantes, me dijo: «¿Cree que una ética imprecisa, la falta de normas de práctica y la falta de un vocabulario coherente no son desafíos suficientes para nosotros hoy en día?» Los tres son puntos esenciales y los dos primeros en particular los tienen en cuenta casi todos _Marco de datos_ huésped. En un momento en que muchas de nuestras interacciones con el mundo las dictan algoritmos desarrollados por científicos de datos, ¿qué papel desempeña la ética? Como dijo Omoju Miller, científico sénior de datos de aprendizaje automático de GitHub, en nuestra entrevista: > Necesitamos tener esa comprensión ética, necesitamos esa formación y necesitamos algo parecido a un juramento hipocrático. Y necesitamos tener las licencias adecuadas para que si realmente hace algo poco ético, tal vez tenga algún tipo de penalización, inhabilitación o algún tipo de recurso, algo que diga que esto no es lo que queremos hacer como industria, y luego encontrar formas de remediar a las personas que se descarrilan y hacen cosas porque la gente simplemente no está capacitada y no lo sabe. Un tema recurrente son las consecuencias graves, perjudiciales y poco éticas que puede tener la ciencia de datos, como la puntuación de riesgo de reincidencia de COMPAS, que se ha «utilizado en todo el país para predecir futuros delincuentes» y tiene «un sesgo contra los negros», según ProPublica. Estamos llegando al consenso de que las normas éticas deben provenir de la propia ciencia de datos, así como de los legisladores, los movimientos populares y otras partes interesadas. Parte de este movimiento implica volver a hacer hincapié en la interpretabilidad de los modelos, a diferencia de los modelos de caja negra. Es decir, necesitamos crear modelos que puedan explicar por qué hacen las predicciones que hacen. Los modelos de aprendizaje profundo son excelentes en muchas cosas, pero son infames e ininterpretables. Muchos investigadores, desarrolladores y científicos de datos dedicados e inteligentes están avanzando en este sentido con trabajos como Lima, un proyecto destinado a explicar lo que hacen los modelos de aprendizaje automático. La revolución de la ciencia de datos en los sectores y la sociedad en general acaba de empezar. Si el título de científico de datos seguirá siendo el»[El trabajo más sexy del siglo XXI](/2012/10/data-scientist-the-sexiest-job-of-the-21st-century)», se especializará más o se convertirá en un conjunto de habilidades que la mayoría de los profesionales en activo simplemente deben tener, no está claro. Como me dijo Hilary Mason: «¿Tendremos ciencia de datos dentro de 10 años? Recuerdo un mundo en el que no lo hacíamos y no me sorprendería que el título dijera «webmaster».