Su conocimiento de los datos depende de entender los tipos de datos y la forma en que se capturan

Los conceptos relacionados con los datos que las personas no técnicas deben entender se dividen en cinco grupos: (i) generación, recopilación y almacenamiento de datos, (ii) qué aspecto tienen los científicos y analistas de datos, (iii) la intuición estadística y los errores estadísticos más comunes, (iv) la creación de modelos, el aprendizaje automático y la IA, y (v) la ética de los datos, grandes y pequeños. Las dos primeras se pasan por alto fácilmente. La captura de datos depende del caso de uso. Los científicos de datos encuentran los datos principalmente de tres formas: (i) datos tabulares (es decir, datos de una tabla, como una hoja de cálculo), (ii) datos de imagen o (iii) datos no estructurados, como texto en lenguaje natural o código HTML, que constituyen la mayoría de los datos del mundo.

••• La capacidad de entender los datos y comunicarse sobre ellos es una habilidad cada vez más importante para el ciudadano del siglo XXI, por tres razones. En primer lugar, la ciencia de datos y la IA están afectando a muchos sectores del mundo, desde la sanidad y el gobierno hasta la agricultura y las finanzas. En segundo lugar, gran parte de las noticias se publican a través de la lente de los datos y los modelos predictivos. Y en tercer lugar, gran parte de nuestros datos personales se utilizan para definir la forma en que interactuamos con el mundo. Cuando tantos datos informan las decisiones en tantos sectores, necesita tener un conocimiento básico del ecosistema de datos para poder formar parte de la conversación. Además de eso, la industria que _usted_ trabajar tendrá más probabilidades que no de ver el impacto del análisis de datos. Incluso si usted mismo no trabaja directamente con los datos, tener esta forma de alfabetización le permitirá hacer las preguntas correctas y formar parte de la conversación en el trabajo. Por poner solo un ejemplo llamativo, imagine que se hubiera debatido sobre cómo interpretar los modelos probabilísticos en el período previo a las elecciones presidenciales estadounidenses de 2016. FiveThirtyEight, la publicación de periodismo de datos, le dio a Clinton un 71,4% de probabilidades de ganar y a Trump un 28,6% de probabilidades. Como Allen Downey, profesor de Ciencias de la Computación en el Olin College, [señala](http://allendowney.blogspot.com/2016/11/why-are-we-so-surprised.html), el resultado habría sorprendido a menos personas si se les hubiera recordado que Trump ganara, según el modelo de FiveThirtyEight, era un poco más probable que lanzar dos monedas y conseguir dos caras, algo que no sea imposible de imaginar. ### **De qué hablamos cuando hablamos de datos** Los conceptos relacionados con los datos que las personas no técnicas deben entender se dividen en cinco grupos: (i) generación, recopilación y almacenamiento de datos, (ii) qué aspecto tienen los científicos y analistas de datos, (iii) la intuición estadística y los errores estadísticos más comunes, (iv) la creación de modelos, el aprendizaje automático y la IA, y (v) la ética de los datos, grandes y pequeños. Los cuatro primeros grupos corresponden aproximadamente a los pasos clave de la jerarquía de necesidades de la ciencia de datos, como[propuesto recientemente por Monica Rogati](https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007). Aunque aún no se ha incorporado formalmente a los flujos de trabajo de la ciencia de datos, he añadido la ética de los datos como el quinto concepto clave, ya que la ética debe formar parte de cualquier conversación sobre los datos. Al fin y al cabo, la vida de muchas personas se ve cada vez más afectada por los datos que producen y los algoritmos que los utilizan. Este artículo se centrará en las dos primeras; dejaré las otras tres para un artículo futuro. ### **Cómo se generan, recopilan y almacenan los datos** Cada vez que utiliza Internet, ya sea a través de un navegador web o una aplicación móvil, su actividad se detecta y, en la mayoría de los casos, se almacena. Para hacerse una idea de lo que su navegador web básico puede detectar, consulte Haga clic, haga clic, haga clic., un proyecto que abre una ventana al alcance de la recopilación pasiva de datos en línea. Si es más aventurero, puede instalar selfie de datos, que «recopila la misma información que usted proporciona a Facebook y, al mismo tiempo, respeta su privacidad». La recopilación de datos no queda relegada únicamente al mundo de las interacciones entre ordenadores portátiles, teléfonos inteligentes y tabletas, sino al Internet de las cosas (IoT), un comodín para objetos tradicionalmente tontos, como radios y luces, que se pueden hacer inteligentes conectándolos a Internet, junto con cualquier otro dispositivo de recopilación de datos, como rastreadores de actividad física, Amazon Echo y coches autónomos. Todos los datos recopilados se almacenan en lo que coloquialmente denominamos «la nube» y es importante que aclare qué se entiende por este término. En primer lugar, los datos del almacenamiento en la nube existen en el espacio físico, igual que en un ordenador o un disco duro externo. La diferencia para el usuario es que el espacio en el que existe está en otro lugar, generalmente en granjas de servidores y centros de datos que son propiedad de multinacionales y están gestionados por ellas, y normalmente se accede a él a través de Internet. Los proveedores de almacenamiento en la nube existen de dos tipos, públicos y privados. Los servicios de nube pública, como Amazon, Microsoft y Google, son responsables de la gestión y el mantenimiento de los datos, mientras que la responsabilidad de los datos en las nubes privadas sigue siendo de la empresa. Facebook, por ejemplo, tiene su propia nube privada. Es fundamental reconocer que los servicios en la nube almacenan los datos en el espacio físico y que los datos pueden estar sujetos a las leyes del país en el que se encuentran los datos. El Reglamento General de Protección de Datos (GDPR) de la UE de este año afecta a la privacidad de los datos de los usuarios y al consentimiento en relación con los datos personales. Otra pregunta apremiante es la seguridad y necesitamos mantener una conversación más pública y comprensible sobre la seguridad de los datos en la nube. ### **La sensación de los datos** Los científicos de datos encuentran los datos principalmente de tres formas: (i) datos tabulares (es decir, datos de una tabla, como una hoja de cálculo), (ii) datos de imagen o (iii) datos no estructurados, como texto en lenguaje natural o código HTML, que constituyen la mayoría de los datos del mundo. **Datos tabulares.** El tipo más común que utiliza un científico de datos son los datos tabulares, que son análogos a una hoja de cálculo. En la de Robert Chang artículo sobre «Uso del aprendizaje automático para predecir el valor de las viviendas en Airbnb», muestra un ejemplo de los datos, que aparecen en una tabla en la que cada fila es una propiedad en particular y cada columna una característica particular de las propiedades, como la ciudad anfitriona, el precio medio por noche y los ingresos de un año. (Tenga en cuenta que los datos rara vez se envían directamente del usuario a los datos tabulares; la ingeniería de datos es un paso esencial para preparar los datos para este tipo de análisis). Estos datos se utilizan para entrenar o enseñar modelos de aprendizaje automático para predecir los valores de por vida (LTV) de las propiedades, es decir, los ingresos que generarán a lo largo de la relación. **Datos de imagen.** Los datos de imagen son datos que se componen de, bueno, imágenes. Muchos de los éxitos del aprendizaje profundo se han producido en el ámbito de la clasificación de imágenes. La capacidad de diagnosticar enfermedades a partir de datos de imágenes, como el diagnóstico de tejido canceroso mediante una combinación de tomografías por emisión de positrones y tomografías computarizadas, y la capacidad de los coches autónomos para detectar y clasificar los objetos en su campo de visión son dos de los muchos casos de uso de los datos de imagen. Para trabajar con los datos de las imágenes, un científico de datos convertirá una imagen en una cuadrícula (o matriz) de valores o números de píxeles rojos, verdes y azules y utilizará estas matrices como entradas para sus modelos predictivos. **Datos no estructurados.** Los datos no estructurados son, como se puede suponer, datos que no están organizados de ninguna de las formas anteriores. Parte del trabajo del científico de datos consiste en estructurar esos datos no estructurados para que puedan analizarse. El lenguaje natural, o texto, es el ejemplo más claro. Un método común para convertir los datos textuales en datos estructurados consiste en representarlos como recuentos de palabras, de modo que «el gato persiguió al ratón» pase a ser «(cat,1), (perseguido,1), (ratón,1), (el,2)». Esto se denomina modelo de bolsa de palabras y nos permite comparar textos, calcular las distancias entre ellos y combinarlos en grupos. La bolsa de palabras funciona sorprendentemente bien para muchas aplicaciones prácticas, especialmente teniendo en cuenta que no distingue «construir puentes, no muros» de «construir muros, no puentes». Parte del juego aquí consiste en convertir los datos textuales en números que podamos utilizar en modelos predictivos, y el principio es muy similar entre una bolsa de palabras y los métodos más sofisticados. Estos métodos permiten analizar las opiniones («¿un texto es positivo, negativo o neutro?») y clasificación de textos («¿un artículo determinado es noticia, entretenimiento o deporte?») , entre muchos otros. Para ver un ejemplo reciente de clasificación de textos, consulte el prototipo de Cloudera Fast Forward Labs Newsie. Estos son solo dos de los cinco pasos para trabajar con datos, pero son puntos de partida esenciales para la alfabetización de datos. Cuando se ocupe de los datos, piense en cómo se recopilaron los datos y qué tipo de datos son. Eso le ayudará a entender su significado, cuánto hay que confiar en él y cuánto trabajo hay que hacer para convertirlo en una forma útil.