La ética de los dispositivos inteligentes que analizan nuestra forma de hablar
A medida que los asistentes inteligentes y las interfaces de voz se hacen más comunes, regalamos una nueva forma de datos personales: nuestra voz. Esto va mucho más allá de las palabras que decimos en voz alta. El discurso está en el centro de nuestras interacciones sociales y, sin saberlo, revelamos mucho sobre nosotros mismos cuando hablamos. Cuando alguien escucha una voz, inmediatamente empieza a captar el acento y la entonación y hace suposiciones sobre la edad, la educación, la personalidad, etc. Pero, ¿qué pasa cuando las máquinas comienzan a analizar nuestra forma de hablar? Las grandes firmas de tecnología son tímidas en cuanto a lo que piensan detectar exactamente en nuestras voces y por qué, pero Amazon tiene una patente que enumera una serie de rasgos que podrían recopilar, incluida la identidad ( «género, edad, origen étnico, etc.»), salud («dolor de garganta, náuseas, etc.»), y sentimientos, («feliz, triste, cansado, somnoliento, emocionado, etc.»). Esto es preocupante, porque los algoritmos son imperfectos. Y la voz es particularmente difícil de analizar porque las señales que emitimos son inconsistentes y ambiguas. Es más, las inferencias que hacen incluso los humanos están distorsionadas por los estereotipos. En los negocios, nos hemos acostumbrado a tener cuidado con lo que escribimos en los correos electrónicos, en caso de que la información se pierda. Tenemos que desarrollar una actitud de cautela similar a la de mantener conversaciones delicadas cerca de los dispositivos conectados. El único dispositivo realmente seguro para hablar delante es uno que esté apagado.
••• A medida que los asistentes inteligentes y las interfaces de voz se hacen más comunes, regalamos una nueva forma de datos personales: nuestra voz. Esto va mucho más allá de las palabras que decimos en voz alta. El discurso está en el centro de nuestras interacciones sociales y, sin saberlo, revelamos mucho sobre nosotros mismos cuando hablamos. Cuando alguien escucha una voz, inmediatamente empieza a captar el acento y la entonación y hace suposiciones sobre la edad, la educación, la personalidad, etc. Los humanos lo hacen para que podamos adivinar la mejor manera de responder a la persona que habla. Pero, ¿qué pasa cuando las máquinas comienzan a analizar nuestra forma de hablar? Las grandes firmas de tecnología son tímidas en cuanto a lo que planean detectar exactamente en nuestras voces y por qué, pero[Amazon tiene una patente](https://this.just.in/amazon-issued-patent-for-alexa-technology-to-determine-demographics-emotional-status-and-health-conditions-from-a-users-voice-and-offer-targeted-ads/) que enumera una serie de rasgos que pueden recopilar, incluida la identidad ( _«género, edad, origen étnico, etc.»),_ salud _(«dolor de garganta, náuseas, etc.»),_ y sentimientos, _(«feliz, triste, cansado, somnoliento, emocionado, etc.»)._ Esto me preocupa —y debería preocuparle a usted también— porque los algoritmos son imperfectos. Y la voz es particularmente difícil de analizar porque las señales que emitimos son inconsistentes y ambiguas. Es más, las inferencias que hacen incluso los humanos están distorsionadas por los estereotipos. Usemos el ejemplo del intento de identificar la orientación sexual. Hay un estilo de hablar con un tono elevado y entonaciones en picado que algunas personas suponen que indica a un hombre gay. Pero a menudo surge confusión porque algunos heterosexuales hablan así y muchos homosexuales no.[Los experimentos científicos muestran](https://link.springer.com/article/10.1007/s10508-016-0779-2) ese «gaydar» auditivo humano solo tiene razón alrededor del 60% de las veces.[Estudios de máquinas que intentan detectar la orientación sexual](https://arxiv.org/pdf/1902.10739.pdf) de las imágenes faciales muestran una tasa de éxito de alrededor del 70%. ¿Suena impresionante? Para mí no, porque eso significa que esas máquinas se equivocan el 30% de las veces. Y yo anticipo que las tasas de éxito serían aún más bajas para las voces, ya que la forma en que hablamos cambia según la persona con la que hablemos. Nuestra anatomía vocal es muy flexible, lo que nos permite ser camaleones orales y cambiar nuestras voces de forma subconsciente para que se adapten mejor a la persona con la que hablamos. También nos debería preocupar que las empresas recopilen información imperfecta sobre las demás características mencionadas en la patente de Amazon, como el género y el origen étnico. Los ejemplos de discursos que se utilizan para entrenar las aplicaciones de aprendizaje automático van a aprender los sesgos sociales. Ya se ha visto en otras tecnologías similares. Escriba «O bir hemşire» en turco. Información sobre un «doctor»[Traductor de Google](https://translate.google.com/) y encontrará «Es enfermera» y «Él es médico». A pesar de que la «o» es un pronombre en tercera persona neutro en cuanto al género en turco, la presunción de que un médico es un hombre y una enfermera es una mujer se debe a que los datos utilizados para entrenar el algoritmo de traducción están sesgados por el sesgo de género en los trabajos de la medicina. Estos problemas también se extienden a la raza,[con un estudio](https://www.bath.ac.uk/announcements/biased-bots-human-prejudices-sneak-into-ai-systems/) mostrando que en los datos típicos que se utilizan para el aprendizaje automático, los nombres afroamericanos se utilizan con más frecuencia junto a palabras desagradables como «odio», «pobreza», «feo» que los nombres euroamericanos, que solían usarse más a menudo con palabras agradables como «amor», «suerte», «feliz». Las grandes firmas de tecnología quieren que los dispositivos de voz funcionen mejor, y esto significa entender _cómo_ se están diciendo cosas. Después de todo, el significado de una frase sencilla como «Estoy bien» cambia por completo si cambia la voz de neutra a enfadada. Pero, ¿dónde trazarán la línea? Por ejemplo, un asistente inteligente que detecte la ira podría empezar a entender mucho sobre cómo se lleva con su cónyuge escuchando el tono de su voz. ¿Empezará Google entonces a mostrar anuncios de consejería matrimonial cuando detecte una relación problemática? No estoy sugiriendo que alguien vaya a hacer esto deliberadamente. Lo que pasa con estos complejos sistemas de aprendizaje automático es que este tipo de problemas suelen surgir de formas imprevistas e imprevistas. Otros errores que podría cometer la IA incluyen detectar un acento fuerte y deducir que esto significa que el hablante tiene menos formación, ya que los datos de formación están sesgados por los estereotipos sociales. Esto podría llevar a un altavoz inteligente a reducir las respuestas a las personas con acentos fuertes. Las firmas de tecnología tienen que ser más inteligentes con[cómo evitar esos prejuicios en sus sistemas](https://www.nature.com/articles/d41586-018-05707-8). Ya hay ejemplos preocupantes de [el análisis de voz se utiliza en las líneas telefónicas para los solicitantes de prestaciones](https://theconversation.com/sounding-like-a-liar-doesnt-make-you-a-benefits-cheat-24310) para detectar posibles afirmaciones falsas. El[El gobierno del Reino Unido desperdició 2,4 millones de libras en un sistema de detección de mentiras por voz que era científicamente incapaz de funcionar](https://www.theguardian.com/news/datablog/2009/mar/19/dwp-voice-risk-analysis-statistics). Un último problema es que mucha gente parece ser más descuidada cerca de estos dispositivos.[Amazon ya ha notado que muchas personas mantienen conversaciones reales con Alexa](https://www.geekwire.com/2015/one-year-after-amazon-introduced-echo-half-a-million-people-have-told-alexa-i-love-you/), y a menudo le dicen al dispositivo lo que siente, incluso llegando a profesar su amor por la tecnología: «Alexa, te quiero». Añadir voz a un dispositivo sugiere agencia, lo que aumenta las probabilidades de que antropomorfiquemos la tecnología y nos sintamos seguros al revelar información confidencial. Probablemente solo sea cuestión de tiempo que se produzca una violación importante de la seguridad de los datos de voz. Por esa razón, [los investigadores acaban de empezar a desarrollar algoritmos para tratar de filtrar la información confidencial](https://arxiv.org/pdf/1901.04879.pdf). Por ejemplo, puede configurar el dispositivo para que silencie el micrófono del altavoz inteligente cuando mencione el nombre de su banco para evitar que revele accidentalmente sus datos de acceso, o si menciona palabras de naturaleza sexual. ¿Cuáles son las actitudes de los consumidores con respecto a la privacidad en lo que respecta a los asistentes inteligentes? El único [estudio publicado](https://www.si.umich.edu/hey-alexa-stop-listening-everything-i-say) Podría enterarme de que esto es de la Universidad de Michigan. Demostró que a los propietarios de la tecnología no les preocupa mucho dar más datos a guardianes como Google y Amazon. «Eso me parece muy preocupante», explicó uno de los autores del estudio,[Florian Schaub](https://www.si.umich.edu/people/florian-schaub). «Estas tecnologías están reduciendo poco a poco las expectativas de privacidad de las personas. Los controles de privacidad actuales simplemente no satisfacen las necesidades de las personas». La mayoría de las personas del estudio ni siquiera se dieron cuenta de que se estaban analizando los datos para mostrarles anuncios segmentados y, cuando se enteraron, no les gustó que se utilizaran sus comandos de voz de esa manera. Pero los consumidores también pueden subvertir la tecnología para sus propios objetivos. En el estudio de la Universidad de Michigan, una persona revisó los registros de audio de su Amazon Echo para comprobar lo que hacían los cuidadores de casas con la tecnología. Estos dispositivos también pueden abrir nuevos canales de persuasión en el futuro. Si cree que hay que cambiar su lavadora, pero su pareja no está de acuerdo, busque por voz posibles modelos cerca del altavoz inteligente y su cónyuge podría verse bombardeado con un sinfín de anuncios de otros nuevos. En los negocios, nos hemos acostumbrado a tener cuidado con lo que escribimos en los correos electrónicos, en caso de que la información se pierda. Tenemos que desarrollar una actitud de cautela similar a la de mantener conversaciones delicadas cerca de los dispositivos conectados. El único dispositivo realmente seguro para hablar delante es uno que esté apagado.