¿Qué tipos de sesgos pueden identificarse en los algoritmos?
Me voy a referir a los sesgos que identificamos en los algoritmos cuyas reglas son definidas “de antemano” por los desarrolladores y son respetadas de manera exacta al ser ejecutadas (a diferencia de los más recientes algoritmos que “aprenden” autónomamente).
Cuando trabajamos la idea de sesgo, se tiende a tratar de identificarlos como si fuesen propios del algoritmo. Y nuestra hipótesis de trabajo es que, en realidad, en el propio algoritmo están reflejados sesgos que provienen de otros elementos de la unidad de análisis con la que trabajamos, en este caso, la Teoría de la Actividad, que es nuestro enfoque teórico. En esta teoría, lo que se utiliza es una unidad de análisis que se juzga suficiente y pertinente en donde un sujeto aprende o conoce sobre un objeto o trata de dominar una situación problemática con la mediación instrumental y, con la mediación de otros sujetos, de la comunidad; todo esto, asentado en una base que considera la división del trabajo y las reglas que allí funcionan. Al ser lo suficientemente amplia esta unidad de análisis, se hace posible el estudio de los algoritmos no de manera aislada, sino en su relación con los otros elementos de la unidad de análisis. Animados por esta unidad de análisis, más allá del instrumento mediador, intentamos determinar los loci donde poder identificar las fuentes de sesgos que terminan reflejados en el algoritmo, pero que provienen de otros lugares. Lo que tratamos de verificar allí es la idea de “cognición distribuida”. La cognición se distribuye en cada uno de los elementos de la unidad de análisis, que es una idea clásica para el enfoque sociocultural. Movidos por este interés –donde no queremos hacer un análisis aislado sobre el algoritmo propiamente dicho, sino ver cómo impactan los otros elementos y las relaciones en el propio algoritmo–, lo que podemos identificar son ciertos tipos o clases de sesgos, que incluyen: sesgos teóricos, sesgos metodológicos, sesgos por interpretación errónea de los datos, sesgos por descontextualización de los sistemas y sesgos por entrenamiento del algoritmo.
Los sesgos teóricos están implícitos en el proceso de modelización de un fenómeno. Allí, el sujeto que se encarga de programar, desarrollar o evaluar, toma decisiones para modelizar el fenómeno sobre el cual está trabajando. Esas decisiones implican ciertas prioridades, ciertos enfoques donde algunas dimensiones tienen más peso que otras. Todas esas decisiones que, en el mejor de lo casos, son explícitas y, en el peor, quedan implícitas y están funcionando a pesar de que los propios diseñadores no se anotician de ello. Un sesgo teórico frecuente es el uso privilegiado de lo que es fácilmente medible antes de lo que es realmente importante de ser considerado. Nos hace pensar que las cuestiones teóricas en la educación ayudarían a evitar estos sesgos teóricos que simplifican fenómenos que, sabemos, tienen una complejidad muy grande, tal como ocurre con la enseñanza y el aprendizaje.
Los sesgos metodológicos son los vinculados a las decisiones que toman los diseñadores de los sistemas, influenciados por sus saberes particulares en el campo de la estadística, la inteligencia artificial, la minería de datos; hay ciertas métricas y ciertas técnicas que requieren determinadas condiciones para elegir si usarlas o no. Todos esos saberes, que son muy específicos del campo de la estadística y de la programación, si no se consideran pueden producir sesgos al elegirse técnicas que, tal vez, no son adecuadas para tratar ese conjunto de datos, etc.