Mitigar el sesgo en los LLM mediante el ajuste fino

Un examen crítico de una solución de investigación sugerida para reducir el sesgo en los LLM

Enigmática imagen de monedas con una resaltada que representa la justicia
Foto de Casa de la Moneda de Scottsdale de Unsplash

En Procesamiento del lenguaje natural (PLN), la adopción generalizada de modelos de aprendizaje profundo se ha convertido en una práctica habitual, debido a su notable capacidad para comprender el contexto y sus vastos conocimientos.

Entre estos modelos, un tipo particular de red llamada Grandes modelos lingüísticos (LLM) ha ganado una gran popularidad gracias a aplicaciones como ChatGPT [1], LLaMA [2], y Bard [3]. Este aumento de popularidad ha atraído la atención del público en general, de los inversores y de grandes empresas tecnológicas como Google, Meta, OpenAI, etc.

Gráfico de Google Trends que muestra el repentino interés por ChatGPT
Interés a lo largo del tiempo de la palabra clave “ChatGPT” en Búsquedas en Google – 100 es el pico de interés para el término

Sin embargo, este crecimiento exponencial también ha arrojado luz sobre ciertas deficiencias en el comportamiento de estos algoritmos, en particular su inclinación a perpetuar estereotipos occidentales comunes inducidos por los datos de entrenamiento [4]. Detectar y cuantificar estos sesgos es crucial para desarrollar estrategias que mitiguen sus efectos nocivos.

Después de leer este artículo, usted :

  • Comprenderá qué es un sesgo y por qué existe.
  • Conozca distintas formas de medirlo en el contexto de los grandes modelos lingüísticos.
  • Darse cuenta de los esfuerzos realizados por los investigadores para mitigar el sesgo mediante el ajuste fino.

Este primer artículo cubre la parte teórica de la mitigación del sesgo en los LLM mediante el ajuste fino. En un segundo artículo, más práctico, pondré a prueba estas soluciones evaluando su escalabilidad.

Advertencia: Este artículo contiene ejemplos de puntos de referencia ofensivos.

Definición

La parcialidad se encuentra en todas partes en la sociedad humana. Según el Diccionario de Cambridge, el sesgo se refiere a

“la acción de apoyar u oponerse a una persona o cosa en particular de forma injusta, por permitir opiniones personales…