¿Se puede confiar en sus datos?

¿Se puede confiar en sus datos?


Usted tiene una decisión importante que debe tomarse en un plazo de dos semanas, y acaba de enterarse de algunos datos nuevos que, cuando se combinan con los datos existentes, podrían ofrecer perspectivas potencialmente cambiantes del juego. Pero no hay una indicación clara de si se puede confiar en esta nueva información. ¿Cómo debe proceder?

Por supuesto, no hay una respuesta simple. Mientras que muchos gerentes son escépticos respecto a los nuevos datos y otros los aceptan de todo corazón, los gerentes más reflexivos adoptan un enfoque matizado. Saben que algunos datos (tal vez incluso la mayor parte) son malos y no se pueden usar, y algunos son buenos y deben confiarse implícitamente. Pero también se dan cuenta de que algunos datos son defectuosos pero se pueden utilizar con precaución. Ellos encuentran estos datos intrigante y están ansiosos por llevar los datos a sus límites, ya que saben que las perspectivas que cambian el juego pueden residir allí.

Afortunadamente, puede trabajar con sus científicos de datos para evaluar si los datos que está considerando son seguros de usar y hasta qué punto puede llegar con datos defectuosos. De hecho, seguir algunos pasos básicos puede ayudarle a proceder con mayor confianza (o precaución) según lo exija la calidad de los datos.

Evaluar de dónde vino. Puede confiar en los datos cuando se crean de acuerdo con un programa de calidad de datos de primera calidad (describo completamente estos programas en mi libro, Datos controlados). Presentan responsabilidades claras para que los administradores creen datos correctamente, controles de entrada y esfuerzos para encontrar y eliminar las causas raíz del error. No tendrá que opine si los datos son buenos: las estadísticas de calidad de los datos le indicarán. Encontrará un ser humano que estará encantado de explicar lo que puede esperar y responder a sus preguntas. Si las estadísticas de calidad de los datos se ven bien y la conversación va bien, confíe en los datos. Tenga en cuenta que este es el «estándar dorado» contra el cual se deben calibrar los otros pasos a continuación.

Evaluar la calidad de los datos independientemente. Mucho, tal vez la mayoría, los datos no cumplirán con el estándar de oro, así que adopte una actitud cautelosa haciendo su propia evaluación de la calidad de los datos. Asegúrese de saber dónde se crearon los datos y cómo se definen, no solo cómo accedió su científico de datos. Es fácil dejarse engañar por un casual, «Lo tomamos de nuestro almacén de datos basado en la nube, que emplea la última tecnología», y extrañamos por completo el hecho de que los datos fueron creados en un dudoso foro público. Averigüe qué organización creó los datos. Luego profundiza: ¿Qué aconsejan los colegas sobre esta organización y datos? ¿Tiene una buena o mala reputación de calidad? ¿Qué dicen los demás en las redes sociales? Realice un poco de investigación tanto dentro como fuera de su organización.

Al mismo tiempo, desarrolle sus propias estadísticas de calidad de datos, utilizando lo que yo llamo el «Medición del viernes por la tarde,» hecho a medida para esta situación. Brevemente, usted, el científico de datos que proporciona el análisis, o ambos deben presentar 10 o 15 elementos de datos importantes para 100 registros de datos en una hoja de cálculo. Si los nuevos datos implican compras de clientes, dichos elementos de datos pueden incluir «nombre del cliente», «artículo comprado» y «precio». Luego trabaje registro por registro, echando un vistazo a cada elemento de datos. Los errores obvios saltarán sobre ti: los nombres de los clientes estarán mal escritos, el artículo comprado será un artículo que no vendas, es posible que falte el precio. Marque estos errores obvios con un bolígrafo rojo. Luego simplemente cuente la fracción de registros sin errores. En muchos casos verá un montón de rojo, ¡no confíe en estos datos! Si ve solo un poco rojo, digamos menos del 5% de los registros con un error obvio, puede usar estos datos con precaución.

Mira, también, a los patrones de los errores. Si, por ejemplo, hay 25 errores totales, 24 de los cuales ocurren en el precio, elimine ese elemento de datos en el futuro. Pero si el resto de los datos se ve bastante bien, úselo con precaución.

Limpia los datos. Pienso en la limpieza de datos en tres niveles: enjuague, lavado y fregar. «Enjuague» reemplaza los errores obvios con «valor perdido» o los corrige si hacerlo es muy fácil; «frotar» implica un estudio profundo, incluso haciendo correcciones individuales, a mano, si es necesario; y «lavado» ocupa un término medio.

Incluso si el tiempo es corto, frote una pequeña muestra aleatoria (digamos 1.000 registros), haciéndolos lo más prístino posible. Su objetivo es llegar a una muestra de datos en los que sabe que puede confiar. ¡Emplee todos los medios posibles de fregar y ser despiadado! Elimine los registros de datos errados y los elementos de datos que no pueda corregir, y marque los datos como «inciertos» cuando corresponda.

Cuando haya terminado, eche un vistazo. Cuando el lavado ha ido muy bien (y lo sabrá si lo hace), ha creado un conjunto de datos que valora altas en la escala de confianza. Está bien seguir adelante usando estos datos.

A veces, el fregado es menos satisfactorio. Si has hecho lo mejor que has podido, pero aún te sientes incierto, coloca estos datos en la categoría «utilízalos con precaución». Si el lavado va mal —por ejemplo, demasiados precios parecen equivocados y no se puede hacer correcciones— debe calificar estos datos, y todos les gusta, como poco confiables. La muestra sugiere encarecidamente que ninguno de los datos deba utilizarse para informar su decisión.

Después del exfoliante inicial, pase al segundo ejercicio de limpieza: lavar los datos restantes que no estaban en la muestra de fregado. Este paso debe ser realizado por un científico de datos verdaderamente competente. Dado que el lavado puede ser un proceso manual que consume mucho tiempo, el lavado le permite hacer correcciones utilizando procesos más automáticos. Por ejemplo, una técnica de lavado implica «imputar» valores faltantes utilizando medios estadísticos. O su científico de datos puede haber descubierto algoritmos durante el lavado. Si el lavado va bien, coloque estos datos en la categoría «usar con precaución».

El siguiente diagrama de flujo le ayudará a ver este proceso en acción. Una vez que haya identificado un conjunto de datos en los que puede confiar o utilizar con precaución, pase al siguiente paso de integración.

Garantice la integración de datos de alta calidad Alinee los datos en los que puede confiar (o los datos con los que está avanzando con cautela) con los datos existentes. Hay mucho trabajo técnico aquí, así que sondear a su científico de datos para asegurarse de que tres cosas se hacen bien:

  • Identificación: Verifique que Courtney Smith de un conjunto de datos sea el mismo Courtney Smith en otros.
  • Alineación de unidades de medida y definiciones de datos: Asegúrese de que las compras y los precios pagados por Courtney, expresados en «palets» y «dólares» en un conjunto, estén alineados con «unidades» y «euros» en otro.
  • Desduplicación: compruebe que el registro de Courtney Smith no aparezca varias veces de diferentes maneras (digamos como C. Smith o Courtney E. Smith).

En este punto del proceso, está listo para realizar cualquier análisis (desde resúmenes simples hasta análisis más complejos) que necesite para guiar su decisión. Preste especial atención cuando obtenga resultados diferentes basados en datos «utilícelos con precaución» y «confiables». Tanto grandes perspectivas como grandes trampas yacen aquí. Cuando un resultado parezca intrigante, aísle los datos y repita los pasos anteriores, haciendo mediciones más detalladas, limpiando los datos y mejorando las rutinas de lavado. A medida que lo haga, desarrolle una idea de cuán profundamente debe confiar en estos datos.

Comprender dónde puede confiar en los datos le permite empujar los datos a sus límites. Los datos no tienen por qué ser perfectos para obtener nuevos conocimientos, pero debe tener precaución al comprender dónde se encuentran los defectos, solucionando errores, limpiándolos y haciendo copias de seguridad cuando los datos simplemente no son lo suficientemente buenos.

Escrito por Thomas C. Redman