PathMBA Vault

Analytics and data science

¿Se puede confiar en sus datos?

por Thomas C. Redman

oct15-29-160589297

Tiene una decisión importante que debe tomarse en un plazo de dos semanas y acaba de enterarse de algunos datos nuevos que, combinados con los datos existentes, podrían ofrecer información que podría cambiar las reglas del juego. Pero no hay ningún indicio claro de si se puede confiar en esta nueva información. ¿Cómo debe proceder?

Por supuesto, no hay una respuesta sencilla. Si bien muchos gerentes se muestran escépticos ante los nuevos datos y otros los aceptan de todo corazón, los gerentes más reflexivos adoptan un enfoque matizado. Saben que algunos datos (quizás incluso la mayoría) son malos y no se pueden usar, y otros son buenos y se debe confiar en ellos de manera implícita. Pero también se dan cuenta de que algunos datos son erróneos, pero se pueden usar con cautela. Estos datos les parecen interesantes y están ansiosos por llevarlos al límite, ya que saben que ahí pueden residir ideas que cambien las reglas del juego.

Afortunadamente, puede trabajar con sus científicos de datos para evaluar si los datos que está considerando son seguros de usar y hasta dónde puede llegar con datos defectuosos. De hecho, seguir algunos pasos básicos puede ayudarlo a proceder con más confianza (o cautela), según lo dicte la calidad de los datos.

Evalúe de dónde viene. Puede confiar en los datos cuando se crean de acuerdo con un programa de calidad de datos de primer nivel (describo estos programas con detalle en mi libro, Impulsado por datos). Incluyen responsabilidades claras para que los gerentes creen los datos correctamente, controles de entrada y esfuerzos por encontrar y eliminar las causas principales de los errores. No tendrá que opinar sobre si los datos son buenos, las estadísticas de calidad de los datos se lo dirán. Encontrará a un ser humano que estará encantado de explicarle lo que puede esperar y de responder a sus preguntas. Si las estadísticas de calidad de los datos son buenas y la conversación va bien, confíe en los datos. Tenga en cuenta que este es el «patrón oro» con el que deben calibrarse los demás pasos siguientes.

Usted y su equipo

Evalúe la calidad de los datos de forma independiente. Muchos datos, quizás la mayoría, no cumplen con el estándar de referencia, así que adopte una actitud cautelosa haciendo su propia evaluación de la calidad de los datos. Asegúrese de saber dónde se crearon los datos y cómo están definidos, no solo cómo accedió a ellos su científico de datos. Es fácil dejarse engañar por un casual: «Los cogimos de nuestro almacén de datos basado en la nube, que emplea la última tecnología», y pasar por alto por completo el hecho de que los datos se crearon en un dudoso foro público. Averigüe qué organización creó los datos. Luego, profundice: ¿Qué aconsejan sus colegas sobre esta organización y los datos? ¿Tiene buena o mala reputación en cuanto a calidad? ¿Qué dicen los demás en las redes sociales? Investigue un poco dentro y fuera de su organización.

Al mismo tiempo, desarrolle sus propias estadísticas de calidad de los datos, utilizando lo que yo llamo el «Medición del viernes por la tarde», hecho a medida para esta situación. En resumen, usted, el científico de datos que realiza el análisis, o ambos, deberían exponer 10 o 15 elementos de datos importantes para 100 registros de datos en una hoja de cálculo. Si los nuevos datos se refieren a las compras de los clientes, dichos elementos de datos pueden incluir «nombre del cliente», «artículo comprado» y «precio». Luego, trabaje registro por registro, analizando detenidamente cada elemento de datos. Los errores obvios le llamarán la atención: los nombres de los clientes estarán mal escritos, el artículo comprado será un artículo que no venda, puede que falte el precio. Marque estos errores obvios con un bolígrafo rojo. Entonces, simplemente cuente la fracción de registros sin errores. En muchos casos, verá mucho rojo. ¡No se fíe de estos datos! Si solo ve un poco de rojo, por ejemplo, menos del 5% de los registros con un error evidente, puede utilizar estos datos con cautela.

Mire también los patrones de los errores. Si, por ejemplo, hay 25 errores en total, 24 de los cuales se producen en el precio, elimine ese elemento de datos en el futuro. Pero si el resto de los datos son bastante buenos, utilícelos con cautela.

Limpiar los datos. Pienso en la limpieza de datos en tres niveles: enjuagar, lavar y fregar. «Enjuagar» sustituye los errores obvios por «falta un valor» o los corrige si es muy fácil; «fregar» implica un estudio profundo, incluso hacer las correcciones una a la vez, a mano, si es necesario; y «lavar» ocupa un punto medio.

Incluso si hay poco tiempo, limpie una muestra pequeña y aleatoria (por ejemplo, 1000 discos) para que quede lo más impecable posible. Su objetivo es obtener una muestra de datos en la que sepa que puede confiar. ¡Emplee todos los medios posibles para fregar y sea despiadado! Elimine los registros de datos y los elementos de datos erróneos que no pueda corregir y marque los datos como «inciertos» cuando proceda.

Cuando termine, analice detenidamente. Cuando la limpieza haya ido muy bien (y lo sabrá si lo hace), habrá creado un conjunto de datos que tiene una puntuación alta en la escala de confianza. Está bien seguir adelante con estos datos.

A veces, fregar es menos satisfactorio. Si lo ha hecho todo lo que ha podido, pero aún no está seguro, sitúe estos datos en la categoría «utilícelo con precaución». Si la limpieza va mal (por ejemplo, demasiados precios se ven mal y no puede hacer correcciones), debe calificar estos datos, y a todos les gusta, como poco fiables. La muestra sugiere claramente que ninguno de los datos debe utilizarse para tomar una decisión.

Tras la limpieza inicial, pase al segundo ejercicio de limpieza: lavar los datos restantes que no estaban en la muestra de limpieza. Este paso lo debe realizar un científico de datos verdaderamente competente. Como fregar puede ser un proceso manual que lleva mucho tiempo, el lavado le permite hacer correcciones mediante procesos más automáticos. Por ejemplo, una técnica de lavado implica «imputar» valores faltantes mediante medios estadísticos. O su científico de datos puede haber descubierto algoritmos durante la limpieza. Si la ropa va bien, coloque estos datos en la categoría «úselo con precaución».

El siguiente diagrama de flujo le ayudará a ver este proceso en acción. Una vez que haya identificado un conjunto de datos en los que pueda confiar o utilizar con cautela, pase al siguiente paso de la integración.

Garantice una integración de datos de alta calidad. Alinee los datos en los que puede confiar (o los datos con los que avanza con cautela) con sus datos actuales. Aquí hay mucho trabajo técnico, así que pregunte a su científico de datos para asegurarse de que tres cosas se hacen bien:

  • Identificación: compruebe que la Courtney Smith de un conjunto de datos es la misma Courtney Smith de otros.
  • Alineación de las unidades de medida y las definiciones de los datos: asegúrese de que las compras y los precios pagados de Courtney, expresados en «palés» y «dólares» en un conjunto, se alinean con «unidades» y «euros» en otro.
  • Deduplicación: compruebe que el disco de Courtney Smith no aparezca varias veces de diferentes maneras (por ejemplo, como C. Smith o Courtney E. Smith).

En este punto del proceso, está preparado para realizar cualquier análisis (desde simples resúmenes hasta análisis más complejos) que necesite para tomar una decisión. Preste especial atención cuando obtenga resultados diferentes según los datos «utilícelos con cautela» y los «confiables». Aquí están las grandes ideas y las grandes trampas. Cuando un resultado parezca interesante, aísle los datos y repita los pasos anteriores para realizar mediciones más detalladas, eliminar los datos y mejorar las rutinas de lavado. A medida que lo haga, desarrolle una idea de hasta qué punto debe confiar en estos datos.

Entender dónde puede confiar en los datos le permite llevarlos al límite. Los datos no tienen que ser perfectos para obtener nueva información, pero debe tener cuidado y entender dónde están los defectos, solucionar los errores, eliminarlos y dar marcha atrás cuando los datos simplemente no son lo suficientemente buenos.