PathMBA Vault

Analytics and data science

Mejores preguntas para hacer a sus científicos de datos

por Michael Li, Madina Kassengaliyeva, Raymond Perkins

Mejores preguntas para hacer a sus científicos de datos

nov16-25-hbr-juan-diaz-faes-decision

Juan Díaz-Faes para HBR

La intersección del big data y los negocios crece a diario. Aunque las empresas llevan décadas estudiando la analítica, la ciencia de datos es una capacidad relativamente nueva. E interactuar en una nueva cultura basada en los datos puede resultar difícil, especialmente para quienes no son expertos en datos.

Un desafío en particular al que se enfrentan muchas de estas personas es cómo solicitar nuevos datos o análisis a los científicos de datos. No saben las preguntas correctas, los términos correctos que deben usar ni la gama de factores a tener en cuenta para obtener la información que necesitan. Al final, los analistas no están seguros de cómo proceder y los directivos se sienten frustrados cuando la información que reciben no es la que pretendían.

En La incubadora de datos, trabajamos con cientos de empresas que quieren contratar científicos e ingenieros de datos o inscribir a sus empleados en nuestros programas de formación corporativa. A menudo respondemos a las preguntas de nuestros clientes de contratación y formación sobre cómo interactuar con sus expertos en datos. Si bien es imposible dar una explicación exhaustiva, hay algunos factores importantes en los que hay que tener en cuenta al comunicarse con los científicos de datos, especialmente al iniciar una búsqueda de datos.

¿Qué pregunta debemos hacer? Cuando empiece a trabajar con sus analistas de datos, deje claro lo que espera conseguir. Piense en el impacto empresarial que quiere que tengan los datos y en la capacidad de la empresa para actuar en función de esa información. Al escuchar lo que espera obtener de su ayuda, el científico de datos puede colaborar con usted para definir el conjunto correcto de preguntas a responder y entender mejor qué información buscar exactamente.

Incluso la ambigüedad más sutil puede tener implicaciones importantes. Por ejemplo, los directores de publicidad pueden preguntar a los analistas: «¿Cuál es la forma más eficaz de utilizar los anuncios para aumentar las ventas?» Aunque parezca razonable, puede que no sea la pregunta correcta, ya que el objetivo final de la mayoría de las empresas no es aumentar las ventas, sino maximizar los beneficios. Investigación del Instituto de Profesionales de la Publicidad muestra que utilizar los anuncios para reducir la sensibilidad a los precios suele ser el doble de rentable que intentar aumentar las ventas. El valor de la información obtenida dependerá en gran medida de la pregunta que se haga. Sea lo más específico y práctico posible.

¿Qué datos necesitamos? Al definir la pregunta y los objetivos correctos para el análisis, usted y su científico de datos deberían evaluar la disponibilidad de los datos. Pregunte si alguien ya ha recopilado los datos pertinentes y ha realizado los análisis. La creciente cantidad de datos públicos suele ofrecer respuestas de fácil acceso a las preguntas más comunes. Cerner, un proveedor de soluciones de TI para el cuidado de la salud, utiliza conjuntos de datos del Departamento de Salud y Servicios Humanos de los Estados Unidos para complementar sus propios datos. iMedicare utiliza la información de los Centros de Servicios de Medicare y Medicaid para seleccionar pólizas. Considere si los datos públicos también podrían utilizarse para solucionar su problema. También puede trabajar con otros analistas de la organización para determinar si otros analistas internos han analizado previamente los datos por motivos similares.

A continuación, evalúe si los datos disponibles son suficientes. Es posible que los datos no contengan toda la información pertinente necesaria para responder a sus preguntas. También puede estar influenciado por factores latentes que pueden resultar difíciles de reconocer. Considere el efecto vintage en los datos de préstamos privados: Incluso los préstamos aparentemente idénticos suelen tener un rendimiento muy diferente según el momento de su emisión, a pesar de que es posible que tuvieran datos idénticos en ese momento. El efecto se debe a las fluctuaciones en las normas de suscripción subyacentes en el momento de la emisión, información que no suele estar representada en los datos de los préstamos.

También debería preguntar si los datos son imparciales, ya que el tamaño de la muestra por sí solo no basta para garantizar su validez. Por último, pregunte si el científico de datos tiene datos suficientes para responder a la pregunta. Al identificar la información que se necesita, puede ayudar a los científicos de datos a planificar mejores análisis en el futuro.

¿Cómo obtenemos los datos? Si se necesita más información, los científicos de datos deberán decidir entre utilizar los datos recopilados por la empresa en el curso normal de los negocios, por ejemplo, mediante estudios de observación, o recopilar nuevos datos mediante experimentos. Como parte de su conversación con los analistas, pregunte por los costes y beneficios de estas opciones. Los estudios observacionales pueden ser más fáciles y económicos de organizar, ya que no requieren una interacción directa con los sujetos, por ejemplo, pero normalmente son mucho menos fiables que los experimentos, ya que solo pueden establecer la correlación, no la causalidad.

Extraído de

Los experimentos permiten un control considerablemente mayor y proporcionan información más fiable sobre la causalidad, pero suelen ser caros y difíciles de realizar. Incluso los experimentos aparentemente inofensivos pueden tener implicaciones éticas o sociales con consecuencias financieras reales. Facebook, por ejemplo, se enfrentó a la furia pública por la manipulación de su propia fuente de noticias para comprobar cómo se difunden las emociones en las redes sociales. Aunque los experimentos eran completamente legales, a muchos usuarios les molestaba participar involuntariamente en los experimentos de Facebook. Los directivos deben pensar más allá de los datos y tener en cuenta las mayores repercusiones de la recopilación de datos en la marca y trabajar con los científicos de datos para entender estas consecuencias.

Antes de invertir recursos en nuevos análisis, compruebe que la empresa puede utilizar la información que se obtiene de ellos de una manera productiva y significativa. Esto puede implicar la integración con los proyectos tecnológicos existentes, el suministro de nuevos datos a los sistemas automatizados y el establecimiento de nuevos procesos.

¿Los datos están limpios y son fáciles de analizar? En general, los datos vienen en dos formas: estructurados y no estructurados. Los datos estructurados están estructurados, como su nombre indica, y son fáciles de añadir a una base de datos. A la mayoría de los analistas les resulta más fácil y rápido manipular. Los datos no estructurados suelen estar en formato libre y no se pueden almacenar tan fácilmente en los tipos de bases de datos relacionales más utilizado en las empresas. Si bien se estima que los datos no estructurados representan el 95% de los datos del mundo, según un informe de los profesores Amir Gandomi y Murtaza Haider de la Universidad de Ryerson, para muchas grandes empresas, almacenar y manipular datos no estructurados puede requerir una inversión significativa de recursos para extraer la información necesaria. Trabaje con sus científicos de datos, evalúe los costes adicionales del uso de datos no estructurados a la hora de definir sus objetivos iniciales.

Incluso si los datos están estructurados, puede que sea necesario limpiarlos o comprobar que no estén completos o sean imprecisos. Cuando sea posible, anime a los analistas a utilizar primero datos limpios. De lo contrario, tendrán que perder tiempo y recursos valiosos identificando y corrigiendo registros inexactos. UN Encuesta de 2014 realizada por Ascend2, una empresa de estudios de marketing, descubrió que casi el 54% de los encuestados se quejaron de que su principal impedimento era la «falta de calidad o integridad de los datos». Si busca datos limpios, puede evitar problemas importantes y pérdidas de tiempo.

¿El modelo es demasiado complicado? Abundan las técnicas estadísticas y las herramientas de código abierto para analizar los datos, pero la sencillez suele ser la mejor opción. Las herramientas más complejas y flexibles se exponen a un sobreajuste y su desarrollo puede llevar más tiempo. Trabaje con sus científicos de datos para identificar las técnicas y herramientas más simples y pase a modelos más complejos solo si los más simples resultan insuficientes. Es importante observar el BESO regla: «¡Manténgalo simple, estúpido!»

Puede que no sea posible evitar todos los gastos y problemas relacionados con la recopilación y el análisis de datos. Pero puede tomar medidas para mitigar estos costes y riesgos. Si hace las preguntas correctas a sus analistas, puede garantizar una colaboración adecuada y obtener la información que necesita para avanzar con confianza.

Este post es una adaptación del Guía HBR sobre los conceptos básicos del análisis de datos para directivos.