La eliminación de los sesgos en los algoritmos

Eliminar el sesgo de los datos que se utilizan para entrenar algoritmos es un desafío clave para el futuro del machine learning.

La Comisión Electrotécnica Internacional, IEC, publica cada dos meses la revista e-tech. Aquí se reproducen algunos de sus contenidos, traducidos por la Asociación Española de Normalización, UNE. e-tech incluye reportajes que muestran los beneficios de la aplicación de las normas electrotécnicas internacionales.

La revista íntegra puede descargarse en etech.iec.ch

Mike Mullane

Wael Diab, quien lidera los esfuerzos internacionales en la actividad de normalización de la inteligencia artificial (AI), ha identificado que la reducción del sesgo de los datos es un desafío prioritario para que las normas funcionen en un futuro. Diab dijo recientemente en la Asamblea General de IEC, en Busan, Corea del Sur, que es necesario un enfoque amplio de la normalización.

White Paper de IEC: Inteligencia artificial en las industrias

IEC e ISO crearon el Comité Conjunto que Diab preside desde hace poco más de seis meses. Ya ha formado un grupo de trabajo que analiza una amplia gama de temas relacionados con la credibilidad y áreas relacionadas, como la solidez, la resiliencia, la fiabilidad, la precisión, la seguridad y la privacidad en el contexto de la IA.

Los principales expertos de la industria creen que uno de los aspectos esenciales que conducirá a la adopción generalizada de la IA es garantizar la credibilidad desde el principio. Los productos y servicios conectados, ya sea en un vehículo, teléfono inteligente, dispositivo médico o sistema de seguridad del edificio deben ser seguros, de lo contrario nadie querrá usarlos. Lo mismo ocurre con infraestructuras críticas, tales como centrales eléctricas o fábricas.

“Lo singular de lo que están haciendo IEC e ISO es que analizan el ecosistema en su conjunto y no solo un aspecto técnico”, explica Diab. Combinado con la amplitud de las áreas de aplicación que abarcan los comités técnicos de IEC e ISO, esto proporcionará un enfoque integral para la normalización de la IA con expertos en Tecnologías de la Información y del sector. “Los trabajos de normalización que se materialicen serán fundamentales no solo para los profesionales, sino también para todos los interesados en la implementación de la IA”, concluye Diab.

White paper

En la reunión en Busan, el IEC lanzó oficialmente un nuevo white paper para inteligencia artificial. El objetivo de los autores es ayudar a aclarar el estado actual de la IA y sus perspectivas de desarrollo dentro de los próximos cinco a diez años. El documento describe los principales sistemas, técnicas y algoritmos que se utilizan en la actualidad e indica qué tipo de problemas suelen ayudar a resolver. Proporciona una descripción detallada de cuatro áreas que probablemente se desarrollarán significativamente al implementar tecnologías de IA: viviendas, fabricación, transporte y energía.

Sobre el asunto del sesgo de datos, señala que aunque se eliminen los atributos propensos al sesgo de los datos de entrenamiento (como raza, género, orientación sexual o religión) es posible que no sea suficiente, ya que existen otras variables en el modelo que pueden servir como representantes del sesgo. Los autores piden un mayor trabajo interdisciplinar para desarrollar enfoques más precisos que permitan controlar el sesgo.

Reducir el sesgo

Como E.B White nos recuerda, el sesgo es difícil de evitar. Hoy en día quizás es más conocido como autor de libros infantiles, incluidos “Stuart Little” y “La telaraña de Carlota”, pero también es colaborador habitual de la revista The New Yorker y coautor de una de las guías de estilo más conocidas y prestigiosas. En el contexto del sesgo, White afirmó que no existe la objetividad: “nunca he visto un escrito, político o no político, que sea imparcial. Todo escrito sigue la tendencia que tiene el escritor, nadie es totalmente objetivo”.

El sesgo es una realidad en el aprendizaje automático. En la ciencia de los datos se refiere por lo general a una desviación de la expectativa o a un error en los datos; pero el sesgo es más que eso. Todos estamos condicionados por nuestros entornos y experiencias, “nadie es totalmente imparcial”, y llevamos con nosotros diferentes tipos de bagaje social, político o basado en valores. A veces nuestros horizontes no son tan amplios como nos gustaría creer y, como resultado, los grandes volúmenes de datos que se utilizan para entrenar los algoritmos no siempre son lo suficientemente diversos o variados. Es frecuente que en los datos o algoritmos haya un sesgo humano real.

La buena noticia es que el sesgo en el aprendizaje automático se puede detectar y disminuir con bastante facilidad. La mala noticia es que puede ser difícil llegar al fondo de cómo los algoritmos toman decisiones para resolver los problemas, ya que la mayoría de las veces los algoritmos operan dentro de una “caja negra“.

Hay cuatro tipos comunes de sesgos relacionados con el aprendizaje automático.

Sesgo estereotipado

Los algoritmos solo son tan buenos como sus desarrolladores. Tal como indica The New Scientist, el aprendizaje automático tiende a amplificar el sesgo sexista y racista del mundo real. Lo vemos, por ejemplo, en el software de reconocimiento de imágenes que no identifica correctamente las caras que no son blancas. De forma parecida, las muestras de datos sesgadas pueden enseñar a las máquinas que las mujeres compran y cocinan, mientras que los hombres trabajan en oficinas y fábricas. Este tipo de problema suele ocurrir cuando los científicos que entrenan los datos introducen involuntariamente sus propios prejuicios en el trabajo que realizan.

Sesgo de muestreo

Los sesgos también pueden ocurrir cuando una muestra se obtiene de tal manera que algunos miembros de la población estadística prevista tienen menos probabilidades de ser incluidos que otros. En otras palabras, los datos utilizados para entrenar un modelo no reflejan con precisión el entorno en el que operará.

Se podría introducir un sesgo de muestreo, por ejemplo, si un algoritmo utilizado para el diagnóstico médico se entrena solo con los datos de una población. Del mismo modo, si un algoritmo destinado a operar vehículos sin conductor durante todo el año se entrena solo a partir de los datos recopilados durante los meses de verano, una nevada podría confundir el sistema.

Distorsión del valor sistemático

La distorsión del valor sistemático se produce cuando el verdadero valor de una medición se sobrestima o subestima sistemáticamente. Este tipo de error generalmente ocurre cuando hay un problema con el dispositivo o proceso utilizado para realizar las mediciones.

En un nivel relativamente simple, pueden producirse errores de medición si los datos de entrenamiento se capturan en una cámara que filtra algunos colores. A menudo el problema es más complejo.

En la atención sanitaria, por ejemplo, es difícil implementar un proceso uniforme para medir los datos de los pacientes a partir de registros electrónicos. Incluso los registros superficialmente similares pueden ser difíciles de comparar. El motivo es que un diagnóstico generalmente requiere interpretar los resultados de las pruebas y hacer varios juicios en diferentes etapas de la evolución de una enfermedad, y el momento de la decisión inicial depende de cuándo el paciente se sintió lo suficientemente mal como para acudir al médico. Un algoritmo debe ser capaz de tener en cuenta todas las variables para hacer un pronóstico preciso.

Sesgo algorítmico

El sesgo algorítmico es lo que sucede cuando un sistema de aprendizaje automático refleja los valores de las personas que lo desarrollaron o entrenaron. Por ejemplo, el sesgo de confirmación se puede convertir en un algoritmo si el objetivo, ya sea intencional o no intencional, es demostrar una suposición u opinión. Esto podría suceder en un entorno empresarial, periodístico o político, por ejemplo.

Ha habido varios casos notorios de sesgo algorítmico relacionados con redes sociales y motores de búsqueda e incluso en el ámbito de la contratación corporativa.

OCEANIS

Además del comité conjunto con ISO sobre IA, IEC es uno de los miembros fundadores de Open Community for Ethics in Autonomous and Intelligent Systems (OCEANIS). Reúne a organizaciones de normalización de todo el mundo con el objetivo de aumentar la conciencia sobre el papel de las normas a la hora de facilitar la innovación y abordar cuestiones relacionadas con la ética y los valores.

Es esencial que las máquinas continúen siguiendo la lógica y los valores humanos y, al mismo tiempo, eviten el sesgo humano, ya que reemplazan a las personas en algunos procesos de la toma de decisiones. Las normas internacionales ofrecen una respuesta a muchas de las preocupaciones. Crear normas basadas en el consenso implica proporcionar la transparencia necesaria que garantice la calidad de los datos utilizados. El proceso de normalización también requerirá la comprensión y la adopción de medidas que reduzcan el impacto de los posibles sesgos resultantes de los algoritmos. Por encima de todo, la normalización aumentará el conocimiento sobre la forma en que se construyen y operan los algoritmos, y facilitará que las víctimas del sesgo cuestionen las decisiones basadas en datos.

Números anteriores

Consulta números anteriores en esta sección, los números a partir de marzo de 2018 están disponibles en versión Online y todos están disponibles para descarga en PDF. Utiliza los cursores o desplace las revistas para acceder a los contenidos.

Ver todos los números