¿Sigue siendo científico de datos el trabajo más sexy del siglo XXI?
por Thomas H. Davenport y DJ Patil
Resumen Una década después, ¿se sostiene la afirmación? El trabajo ha ganado popularidad y, por lo general, está bien remunerado, y se prevé que el campo experimente un mayor crecimiento que casi cualquier otro para 2029. Pero el trabajo ha cambiado, tanto a lo grande como a lo pequeño. Se ha institucionalizado mejor, se ha redefinido el ámbito del trabajo, la tecnología en la que se basa ha dado grandes pasos y ha crecido la importancia de la experiencia no técnica, como la ética y la gestión del cambio.+ La forma en que opera en las empresas, y la forma en que los ejecutivos deben pensar en la gestión de los esfuerzos de ciencia de datos, también ha cambiado, ya que las empresas ahora necesitan crear y supervisar diversos equipos de ciencia de datos en lugar de buscar unicornios científicos de datos. Por último, las empresas tienen que pensar en lo que viene después y cómo pueden empezar a pensar en la democratización de la ciencia de datos.
• • •
Hace diez años publicamos el artículo» Científico de datos: El trabajo más sexy de los 21 st Siglo.» La mayoría de los lectores ocasionales probablemente recuerden solo el modificador «más sexy»: un comentario sobre su demanda en el mercado. El papel era relativamente nuevo en ese momento, pero a medida que más empresas intentaban encontrar sentido a los macrodatos, se dieron cuenta de que necesitaban personas que pudieran combinar habilidades de programación, análisis y experimentación. En ese momento, esa demanda se limitaba en gran medida al área de la bahía de San Francisco y a algunas otras ciudades costeras. Las Startups y las empresas tecnológicas de esas áreas parecían querer a todos los científicos de datos que pudieran contratar. Pensamos que la necesidad aumentaría a medida que las principales empresas adoptaran tanto el análisis empresarial como las nuevas formas y volúmenes de datos. En ese momento, definimos al científico de datos como «un profesional de alto rango con la formación y la curiosidad para hacer descubrimientos en el mundo de los grandes datos». Las empresas comenzaban a analizar datos voluminosos y menos estructurados, como secuencias de clics en línea, redes sociales e imágenes y voz. Como aún no había una trayectoria profesional bien definida para las personas que podían programar con esos datos y analizarlos, los científicos de datos tenían diversos antecedentes educativos. La calificación más común en nuestra encuesta informal a 35 científicos de datos en ese momento era un doctorado en física experimental, pero también encontramos astrónomos, psicólogos y meteorólogos. La mayoría tenía doctorados en algún campo científico, eran excepcionales en matemáticas y sabía codificar. Dada la ausencia de herramientas y procesos en el momento para desempeñar sus funciones, también eran buenos en la experimentación y la invención. No es que se necesitara un doctorado en ciencias para hacer el trabajo, sino que estas personas tenían la rara habilidad de crear nuevos algoritmos y manipular datos en formatos poco habituales. Una década después, el trabajo tiene más demanda que nunca entre los empleadores y los reclutadores. La IA es cada vez más popular en los negocios y las empresas de todos los tamaños y ubicaciones sienten que necesitan científicos de datos para desarrollar modelos de IA. Para 2019, las publicaciones para científicos de datos en Indeed tenían aumentado un 256%, y la Oficina de Estadísticas Laborales de los Estados Unidos, predice que la ciencia de datos experimentará un mayor crecimientoque casi cualquier otro campo entre ahora y 2029. El trabajo buscado generalmente se paga bastante bien; el salario medio para un científico de datos experimentado en California se acerca a los 200 000 dólares. También persisten algunos de los mismos dolores de cabeza. En nuestra investigación para el artículo original, muchos científicos de datos señalaron que dedican gran parte de su tiempo a limpiar y organizar los datos, y eso sigue siendo así a pesar de algunos avances en el uso de la propia IA para mejorar la gestión de datos. Además, muchas organizaciones no tienen culturas impulsadas por datos y no aproveche la información proporcionada por los científicos de datos. Que les contraten y les paguen bien no significa que los científicos de datos marquen la diferencia en sus empleadores. Aun así, el trabajo ha cambiado, tanto a lo grande como a lo pequeño. Se ha institucionalizado mejor, se ha redefinido su alcance, la tecnología en la que se basa ha dado grandes pasos y ha crecido la importancia de la experiencia no técnica, como la ética y la gestión del cambio. Los muchos ejecutivos que reconocen que la ciencia de datos es importante para sus empresas ahora necesitan crear y supervisar diversos equipos de ciencia de datos en lugar de buscar unicornios científicos de datos. También pueden empezar a pensar en democratizar la ciencia de datos, pero aún con la ayuda de los científicos de datos.
Mejor institucionalizado
En 2012, la ciencia de datos era una función incipiente incluso en las Startups orientadas a la IA. Hoy en día está bastante consolidado, al menos en las empresas con un gran compromiso con los datos y la IA. Los bancos, las compañías de seguros, los minoristas e incluso los proveedores de atención médica tienen grupos sustanciales de ciencia de datos; las grandes empresas de servicios financieros pueden tener cientos de científicos de datos. La ciencia de datos también ha sido eficaz para hacer frente a las crisis sociales, contar y predecir los casos y las muertes por Covid-19, ayudar a abordar los desastres meteorológicos e incluso luchar contra la desinformación y los hackeos cibernéticos relacionados con la invasión de Ucrania. Un factor importante que facilita la institucionalización ha sido el aumento de la oferta educativa orientada a la ciencia de datos. En 2012, efectivamente no había programas de licenciatura en ciencia de datos; se contrataron científicos de datos de otros campos orientados a la cuantificación. Ahora hay cientos de programas de licenciatura en ciencia de datos o en los campos relacionados de la analítica y la IA. La mayoría son maestría programas, pero también hay especializaciones de pregrado y programas de doctorado en ciencia de datos. También hay una enorme cantidad de certificados, ofertas de cursos en línea y campamentos de entrenamiento en campos relacionados con la ciencia de datos. Incluso hay escuela secundaria Cursos y planes de estudios de ciencia de datos. Está claro que cualquiera que desee formarse en capacidades de ciencia de datos tendrá muchas opciones para hacerlo. Sin embargo, es poco probable que un solo programa pueda inculcar todas las habilidades necesarias para concebir, crear e implementar modelos de ciencia de datos efectivos y éticos. De hecho, dar sentido a las diversas opciones educativas, incluso en una sola institución, es un desafío para los posibles científicos de datos y para las empresas que desean contratarlos.
Los científicos de datos en relación con otras funciones
La función de la ciencia de datos ahora también se complementa con una variedad de otros trabajos. La suposición en 2012 fue que los científicos de datos podían realizar todas las tareas necesarias en una aplicación de ciencia de datos, desde conceptualizar el caso de uso hasta interactuar con las partes interesadas de la empresa y la tecnología, hasta desarrollar el algoritmo e implementarlo en producción. Ahora, sin embargo, ha habido una proliferación de trabajos relacionados para gestionar muchas de esas tareas, incluidos el de ingeniero de aprendizaje automático, ingeniero de datos, especialista en IA, traductores de análisis e IA y gerentes de productos. LinkedIn informó que algunos de estos trabajos eran más populares que los científicos de datos en su» Empleos en aumento» informes de 2021 y 2022 para EE. UU. Parte de la proliferación se debe al hecho de que ningún titular del puesto puede poseer todas las habilidades necesarias para implementar con éxito un complejo sistema de IA o análisis. Cada vez se reconoce más que muchos algoritmos son nunca desplegado, lo que ha llevado a muchas organizaciones a intentar mejorar las tasas de despliegue. Además, existe una superposición considerable entre las aplicaciones y habilidades de inteligencia empresarial, análisis e IA (una empresa consultora recientemente anunció un «científico de datos de análisis e inteligencia empresarial»). Ha habido algunos intentos de certificaciónde científicos de datos y trabajos relacionados, pero aún no son muy buscados ni reconocidos. Algunas empresas, como Banco TD, han desarrollado estructuras de clasificación para las muchas carreras y habilidades relacionadas con la ciencia de datos, pero no son lo suficientemente comunes en las organizaciones. Como resultado de esta proliferación de habilidades, las empresas deben identificar todas las diferentes funciones necesarias para implementar de manera efectiva los modelos de ciencia de datos en sus negocios y asegurarse de que están presentes y colaboran en los equipos.
Cambios en la tecnología
Una de las razones por las que el trabajo de científico de datos sigue cambiando es porque las tecnologías que utilizan los científicos de datos están cambiando. Algunas tendencias tecnológicas son continuaciones de direcciones presentes en 2012, como el uso de herramientas de código abierto y el paso al procesamiento y el almacenamiento de datos basados en la nube. Pero algunos afectan al núcleo del trabajo de ciencia de datos. Por ejemplo, algunos aspectos de la ciencia de datos están cada vez más automatizados (mediante el aprendizaje automático automatizado o AutoML), lo que puede mejorar la productividad de los profesionales de la ciencia de datos y abrir la posibilidad de «científicos de datos ciudadanos» con solo un poco de formación cuantitativa. Estas herramientas automatizadas aún no han atenuado el atractivo de los científicos de datos profesionales, pero es posible que lo hagan en el futuro. Las empresas deberían empezar a democratizar el análisis avanzado y la IA dentro de sus organizaciones, confiando en los científicos de datos para garantizar que los modelos desarrollados por los ciudadanos sean precisos y que se empleen todos los datos relevantes. Los científicos de datos se han dado cuenta de que sus modelos pueden «derivar» en entornos empresariales turbulentos como la pandemia de Covid-19, por lo que se hace un nuevo hincapié en la supervisión de su precisión tras la implementación. Las herramientas de operaciones de aprendizaje automático, o «MLOP», proporcionan una supervisión continua de los modelos; el reentrenamiento automático de modelos a la deriva apenas comienza a emplearse. Algo de AutoML y MLOPherramientas incluso probar el sesgo algorítmico. Estos avances significan que la codificación, que quizás era el requisito laboral más común cuando escribimos hace una década, es algo menos esencial en la ciencia de datos. Se ha migrado a otros trabajos o se automatiza cada vez más. El enfoque clave del trabajo ahora es el modelado predictivo y la capacidad de traducir los problemas y requisitos empresariales en modelos. Se trata de actividades de colaboración, pero desafortunadamente todavía no hay grandes herramientas para estructurar y apoyar las actividades colaborativas de ciencia de datos.
La ética de la ciencia de datos
Un cambio importante en la ciencia de datos durante la última década es que la necesidad de un dimensión ética al campo es ahora ampliamente reconocido, aunque el tema rara vez se mencionó en 2012. El punto de inflexión para la ética de la ciencia de datos fue probablemente las elecciones presidenciales de los EE. UU. Cambridge Analytica y Facebook en particular) intentó influir en los votantes y polarizó aún más la política electoral. Desde entonces, se ha prestado mucha atención a las cuestiones de sesgo algorítmico, transparencia y uso responsable de la analítica y la IA. Algunas empresas ya han establecido grupos y procesos de IA responsables. Una función clave de ellos es educar a los científicos de datos sobre las cuestiones implicadas en la IA ética. Con el tiempo, los científicos de datos pueden ser evaluados en parte en función de su conocimiento y cumplimiento de las cuestiones éticas. Algunos pueden participar en los procesos de gobernanza de la IA y el análisis de toda la organización.
. . .
Hemos visto tanto la continuidad como el cambio en el papel de la ciencia de datos. Ha tenido un éxito notable en muchos sentidos, y algunos de sus desafíos (la proliferación de roles relacionados, la necesidad de una perspectiva ética) se deben en parte a la adopción generalizada de la ciencia de datos. Parece poco probable que disminuya la cantidad de datos, análisis e IA en los negocios y la sociedad, por lo que el trabajo de científico de datos seguirá creciendo en importancia en el panorama empresarial. Sin embargo, también seguirá cambiando. Esperamos ver una diferenciación continua de responsabilidades y funciones que alguna vez entraron en la categoría de científicos de datos. Las empresas necesitarán procesos detallados de clasificación de habilidades y certificación para estos diversos puestos de trabajo y deberán asegurarse de que todas las funciones necesarias estén presentes en los proyectos de ciencia de datos a gran escala. Los propios científicos de datos profesionales se centrarán en la innovación algorítmica, pero también deberán ser responsables de garantizar que los aficionados no se pierdan de la cabeza. Lo más importante es que los científicos de datos deben contribuir a lograr modelos completamente implementados y resultados empresariales exitosos.