Por qué los equipos de ciencia de datos necesitan generalistas, no especialistas

La mayoría de las empresas se organizan para lograr una productividad eficiente. Lo hacen mediante la especialización. Los trabajadores altamente cualificados en tareas limitadas pueden perfeccionar sus habilidades y, cuando los colocan en una línea de montaje, producir bienes con gran eficiencia. Los equipos de ciencia de datos también se han creado de esta manera, con tareas altamente especializadas asignadas a personas que trabajan juntas para crear nuevas capacidades empresariales. Pero esta es la manera equivocada de organizar un equipo de ciencia de datos, porque los científicos de datos a menudo no saben lo que están produciendo hasta que lo encuentran. Su objetivo debe ser aprender, no ser eficientes. Para maximizar el aprendizaje, los equipos deberían reorganizarse en grupos de generalistas que puedan realizar muchas tareas de ciencia de datos. Esto reducirá muchos de los cuellos de botella clásicos de la ciencia de datos que se traducen en malos resultados. El equipo de generalistas aprenderá más y contribuirá más al negocio.

••• En _La riqueza de las naciones_, Adam Smith demuestra cómo la división del trabajo es la principal fuente de aumento de la productividad con el vívido ejemplo de una línea de montaje de una fábrica de alfileres: «Una [persona] estira el cable, otra lo endereza, un tercero lo corta, un cuarto lo apunta y una quinta lo tritura». Con la especialización orientada en torno a la función, cada trabajador adquiere altas habilidades en una tarea limitada, lo que conduce a la eficiencia de los procesos. La producción por trabajador aumenta muchas veces; la fábrica pasa a ser extremadamente eficiente en la producción de alfileres. Esta división del trabajo por funciones está tan arraigada en nosotros incluso hoy en día que organizamos rápidamente nuestros equipos en consecuencia. La ciencia de datos no es la excepción. Una capacidad empresarial algorítmica integral requiere muchas funciones, por lo que las empresas suelen crear equipos de especialistas: científicos investigadores, ingenieros de datos, ingenieros de aprendizaje automático, científicos de inferencia causal, etc. El trabajo de los especialistas lo coordina un director de producto, con transferencias entre las funciones de una manera parecida a la fábrica de alfileres: «una persona obtiene los datos, otra los modela, una tercera los implementa, una cuarta los mide» y así sucesivamente. Por desgracia, no deberíamos optimizar nuestros equipos de ciencia de datos para aumentar la productividad; eso es lo que hace cuando sabe lo que está produciendo (alfileres o no) y simplemente busca aumentar la eficiencia. El objetivo de las líneas de montaje es la ejecución. Sabemos exactamente lo que queremos, siguiendo el ejemplo de Smith, pero se puede pensar en cualquier producto o servicio en el que los requisitos describan con detalle todos los aspectos del producto y su comportamiento. La función de los trabajadores es, entonces, cumplir esos requisitos de la manera más eficiente posible. Pero el objetivo de la ciencia de datos no es ejecutar. Más bien, el objetivo es aprender y desarrollar nuevas y profundas capacidades empresariales. Productos y servicios algorítmicos como[sistemas de recomendaciones](https://multithreaded.stitchfix.com/blog/2015/07/14/glmms/), [bandidos de captación de clientes](https://multithreaded.stitchfix.com/blog/2018/11/08/bandits/), [clasificación de preferencias de estilo](https://multithreaded.stitchfix.com/blog/2018/06/28/latent-style/), [talla a juego](https://multithreaded.stitchfix.com/blog/2017/12/13/latentsize/), [sistemas de diseño de moda](https://multithreaded.stitchfix.com/blog/2016/07/14/data-driven-fashion-design/), [optimizadores logísticos](https://multithreaded.stitchfix.com/blog/2016/07/21/skynet-salesman/), [detección de tendencias estacionales](https://multithreaded.stitchfix.com/blog/2016/08/23/seasonal-trends/) y más **no se puede diseñar desde el principio**. Tienen que aprenderse. No hay planes que seguir; se trata de capacidades novedosas con una incertidumbre inherente. Coeficientes, modelos, tipos de modelos, hiperparámetros, todos los elementos que necesitará deben aprenderse mediante la experimentación, el ensayo y el error y la iteración. Con los alfileres, el aprendizaje y el diseño se hacen por adelantado, antes de que usted lo haga. **Con la ciencia de datos, se aprende sobre la marcha, no antes de ir.** En la fábrica de alfileres, cuando el aprendizaje es lo primero, no esperamos ni queremos que los trabajadores improvisen en ningún aspecto del producto, excepto para producirlo de manera más eficiente. Organizar por funciones tiene sentido, ya que la especialización de las tareas conduce a la eficiencia de los procesos y a la coherencia de la producción (sin variaciones en el producto final). Pero cuando el producto sigue evolucionando y el objetivo es aprender, la especialización dificulta nuestros objetivos de varias maneras: **1. Aumenta los costes de coordinación.** Esos son los costes que se acumulan con el tiempo dedicado a comunicar, debatir, justificar y priorizar el trabajo por realizar. Estos costes se escalan de forma superlineal según el número de personas implicadas. (Como J. Richard Hackman[nos enseñó](/product/leading-teams-setting-the-stage-for-great-performances/an/3332-HBK-ENG) , el número de relaciones (r) crece en función del número de miembros (n) según esta ecuación: r = (n^2-n)/2. Y cada relación conlleva una cierta cantidad de costes de coordinación). Cuando los científicos de datos se organizan por funciones, los numerosos especialistas que se necesitan en cada paso y con cada cambio, cada traspaso, etc., aumentan los costes de coordinación. Por ejemplo, los especialistas en modelos estadísticos que quieran experimentar con nuevas funciones tendrán que coordinarse con los ingenieros de datos que aumenten los conjuntos de datos _cada vez_ quieren probar algo nuevo. Del mismo modo, cada nuevo modelo entrenado significa que el modelador necesitará a alguien con quien coordinar el despliegue. Los costes de coordinación actúan como un impuesto sobre la iteración, lo que la hace más difícil y cara, y es más probable que disuada la exploración. Eso puede dificultar el aprendizaje. **2. Exacerba el tiempo de espera.** Aún más nefasto que los costes de coordinación es el tiempo que transcurre entre trabajos. Si bien los costes de coordinación normalmente se miden en horas (el tiempo que se tarda en celebrar reuniones, debates o revisiones de diseño), los tiempos de espera suelen medirse en días, semanas o incluso meses. Los horarios de los especialistas funcionales son difíciles de alinear, ya que es probable que cada especialista se dedique a varias iniciativas. Una reunión de una hora para analizar los cambios puede tardar semanas en programarse. Y, una vez alineados con los cambios, el trabajo en sí también debe programarse en el contexto de muchos otros proyectos que compiten por el tiempo de los especialistas. Trabajos como cambios de código o investigaciones que solo requieren unas horas o días para completarse, pueden quedarse sin hacer durante mucho más tiempo antes de que los recursos estén disponibles. Hasta entonces, la iteración y el aprendizaje languidecen. **3. Reduce el contexto.** La división del trabajo puede limitar artificialmente el aprendizaje al recompensar a las personas por mantenerse en su carril. Por ejemplo, la investigadora que quede relegada a permanecer dentro de su función centrará sus energías en experimentar con diferentes tipos de algoritmos: regresión, redes neuronales, bosques aleatorios, etc. Sin duda, una buena elección de algoritmos podría conducir a mejoras graduales. Pero normalmente hay mucho más que ganar con otras actividades, como la integración de nuevas fuentes de datos. Del mismo modo, podría desarrollar un modelo que agote todo el poder explicativo inherente a los datos. Sin embargo, su mayor oportunidad puede consistir en cambiar la función objetivo o relajar ciertas restricciones. Esto es difícil de ver o hacer cuando su función laboral es limitada. Dado que la científica investigadora está especializada en la optimización de algoritmos, es mucho menos probable que se dedique a otra cosa, incluso cuando conlleve enormes beneficios. Los síntomas pueden aparecer cuando los equipos de ciencia de datos funcionan como fábricas de alfileres, por ejemplo, en simples actualizaciones de estado: «esperar a que cambien la canalización de datos» y «esperar a que los recursos de ingeniería de aprendizaje automático» son bloqueadores comunes. Sin embargo, creo que el impacto más insidioso está en lo que no escucha, porque no puede lamentarse por lo que aún no ha aprendido. La ejecución perfecta de los requisitos y la autocomplacencia que supone lograr la eficiencia de los procesos pueden ocultar la difícil verdad de que la organización desconoce felizmente el valioso aprendizaje que se está perdiendo. La solución a este problema es, por supuesto, eliminar la fábrica de alfileres. Para fomentar el aprendizaje y la iteración, es necesario generalizar las funciones de la ciencia de datos, con amplias responsabilidades independientes de la función técnica. Es decir, organizar a los científicos de datos de manera que estén optimizados para aprender. Esto significa contratar a «científicos de datos completos» (generalistas) que puedan desempeñar diversas funciones: desde[concepción](/2018/11/curiosity-driven-data-science) desde el modelado hasta la implementación y la medición. Es importante tener en cuenta que no estoy sugiriendo que la contratación de científicos de datos completos dé como resultado menos personas en general. Más bien, simplemente sugiero que, cuando se organizan de manera diferente, sus incentivos estén mejor alineados con el aprendizaje que con el aumento de la eficiencia. Por ejemplo, supongamos que tiene un equipo de tres personas que crea tres capacidades empresariales. En la fábrica de alfileres, cada especialista dedicará un tercio a cada capacidad, ya que nadie más puede hacer su trabajo. En general, cada generalista se dedica por completo a una capacidad empresarial, aumentando la escala y el aprendizaje. Con menos personas a las que mantener informadas, los costes de coordinación se desploman. El generalista se mueve con fluidez entre las funciones, amplía la canalización de datos para añadir más datos, prueba nuevas funciones del modelo, despliega nuevas versiones en la producción para la medición causal y repite los pasos tan rápido como se le ocurren nuevas ideas. Por supuesto, el generalista desempeña las diferentes funciones de forma secuencial y no en paralelo; al fin y al cabo, solo es una persona. Sin embargo, hacer el trabajo normalmente solo requiere una fracción del tiempo de espera que tardaría en estar disponible otro recurso especializado. Así que, el tiempo de iteración disminuye. Puede que nuestro generalista no sea tan experto como un especialista en ninguna función. Pero no buscamos la excelencia funcional ni pequeñas mejoras graduales. Más bien, buscamos aprender y descubrir capacidades empresariales completamente nuevas con un impacto radical. Con todo el contexto de la solución integral, ve oportunidades que un especialista limitado no vería. Tiene más ideas e intenta más cosas. Ella también fracasa más. Sin embargo, el coste del fracaso es bajo y los beneficios del aprendizaje son altos. Esta asimetría favorece la iteración rápida y recompensa el aprendizaje. Es importante señalar que esta cantidad de autonomía y diversidad de habilidades que se otorgan a los científicos de datos completos depende en gran medida de la suposición de una plataforma de datos sólida en la que trabajar. Una plataforma de datos bien construida aísla a los científicos de datos de las complejidades de[contenerización](https://multithreaded.stitchfix.com/blog/2018/02/22/flotilla/), [procesamiento distribuido, conmutación por error automática](https://algorithms-tour.stitchfix.com/#data-platform) y otros conceptos avanzados de informática. Además de la abstracción, una plataforma de datos sólida puede proporcionar conexiones fluidas a una infraestructura de experimentación, automatizar la supervisión y las alertas, proporcionar un escalado automático y permitir la visualización de los resultados de la depuración y los resultados algorítmicos. Estos componentes los diseñan y fabrican ingenieros de plataformas de datos, pero que quede claro, el científico de datos no pasa a un equipo de plataformas de datos. Es el científico de datos el responsable de todo el código que se despliega para que se ejecute en la plataforma. A mí también me atrajo una vez una división del trabajo basada en funciones por la atracción de la eficiencia de los procesos. Sin embargo, mediante prueba y error (no hay mejor manera de aprender), he descubierto que las funciones más generalizadas facilitan mejor el aprendizaje y la innovación y proporcionan los tipos correctos de escalamiento: para descubrir y desarrollar muchas más capacidades empresariales que un enfoque especializado. (Una forma más eficaz de aprender sobre este enfoque de la organización en comparación con el ensayo y error por el que pasé es leer el libro de Amy C. Edmondson»[Trabajar en equipo: cómo las organizaciones aprenden, innovan y compiten en la economía del conocimiento](https://www.amazon.com/Teaming-Organizations-Innovate-Compete-Knowledge/dp/1511383674)”). Hay algunas consideraciones importantes que pueden hacer que este enfoque de la organización sea más o menos sostenible en algunas empresas. Este proceso de iteración supone un bajo coste de prueba y error. Si el coste del error es alto, tal vez quiera reconsiderarlo (es decir, no se recomienda para aplicaciones médicas o de fabricación). Además, si se trata de petabytes o exabytes de datos, puede que esté justificado especializarse en ingeniería de datos. Del mismo modo, si mantener una capacidad empresarial en línea y disponible es más importante que mejorarla, la excelencia funcional puede triunfar sobre el aprendizaje. Por último, el modelo completo de ciencia de datos se basa en la suposición de grandes personas. No son unicornios; se pueden encontrar y fabricar. Pero tienen una gran demanda y se necesitará una compensación competitiva, valores empresariales sólidos y un trabajo interesante para atraerlos y retenerlos. Asegúrese de que la cultura de su empresa lo respalde. A pesar de todo lo dicho, creo que el modelo de científico de datos completo ofrece un mejor punto de partida. Empiece con ellos y, a continuación, avance conscientemente (a regañadientes) hacia una división del trabajo basada en las funciones solo cuando sea claramente necesario. La especialización funcional tiene otras desventajas. Puede provocar la pérdida de responsabilidad y pasión por parte de los trabajadores. El propio Smith[critica la división del trabajo](https://www.amazon.com/Inquiry-Nature-Causes-Wealth-Nations-ebook/dp/B00847CE6O), sugiriendo que esto lleva a una disminución del talento, que los trabajadores se vuelven ignorantes e insulares, ya que sus funciones se limitan a unas cuantas tareas repetitivas. Si bien la especialización puede proporcionar eficiencia en los procesos, es menos probable que inspire a los trabajadores. Por el contrario, las funciones generalistas proporcionan todas las cosas que[impulsar la satisfacción laboral](https://www.amazon.com/Drive-Surprising-Truth-About-Motivates/dp/1594484805) : autonomía, dominio y propósito. Autonomía en el sentido de que no dependen de otra persona para tener éxito. Dominio en el sentido de que conocen la capacidad empresarial de principio a fin. Y, el propósito es que tienen una relación directa con el impacto en el negocio que están creando. Si logramos que las personas se apasionen por su trabajo y tengan un gran impacto en la empresa, el resto se hace realidad de forma natural.