Inteligencia artificial: el lenguaje de las IA y el riesgo del “anglocentrismo”

Inteligencia artificial: el lenguaje de las IA y el riesgo del “anglocentrismo”

Inteligencia artificial: el lenguaje de las IA y el riesgo del “anglocentrismo”

Un estudio realizado por investigadores del Instituto Federal Suizo de Tecnología en Lausana, según la revista www.newscientist.com, ha revelado un fenómeno a tener en cuenta en el funcionamiento interno de los grandes modelos de lenguajes denominados por sus siglas en ingles LLM “Large Language Model” , en español “Modelo de Lenguaje Grande”. Estos son la tecnología clave detrás de muchos chatbots modernos de inteligencia artificial, que permiten a los mismos comprender y responder al lenguaje humano de manera conversacional.

Los LLM impulsan las capacidades de los chatbots para realizar tareas como responder preguntas, brindar información, completar solicitudes y participar en conversaciones. La combinación de LLM y chatbots tiene el potencial de transformar la forma en que interactuamos con las computadoras, entre otras acciones.

La técnica de IA empleada en la mayoría de los casos son por medio de redes neuronales profundas dentro de la disciplina del procesamiento del lenguaje natural, imagina que los modelos de lenguaje grande (LLM) son como supercerebros artificiales que han aprendido a comprender y hablar como humanos.

A partir de su estreno en el 2022 con modelos como ChatGPT y luego Gemini Advance entre otros, los Modelos de Lenguaje Grande (LLM) se han popularizado rápidamente. Meta, propietaria de Facebook, es creadora del modelo Llama 2. Para entender qué idioma utilizaban realmente los LLMs al responder preguntas, Chris Wendler, Veniamin Veselovsky y otros investigadores del Instituto Federal Suizo de Tecnología analizaron tres versiones del modelo Llama 2. “Abrimos estos modelos y miramos cada una de las capas” segun Veselovsky.

En el corazón de los Modelos de Lenguaje Grande (LLM), se encuentran múltiples estratos de procesamiento que transforman las instrucciones escritas en tokens, elementos que pueden ser palabras o fragmentos de palabras. El objetivo es contextualizar cada token para generar una respuesta coherente.

“Cada una de estas capas hace algo con la entrada, el aviso original que le das”, señala Veselovsky. El propósito de estos investigadores era analizar y mostrar si estos estratos internos procesan la información en inglés, sin perjuicio de que las interrogaciones se formulen en otros idiomas.

Este enfoque revelador subraya una exploración profunda dentro de la mecánica interna de los LLM, ofreciendo una ventana hacia cómo la IA podría estar manejando las barreras lingüísticas en sus procesos fundamentales.

A pesar de ser capaces de comunicarse en múltiples idiomas, estos sistemas parecen procesar todas las consultas internamente en inglés. Este hallazgo sugiere que la diversidad cultural y lingüística podría estar siendo inadvertidamente socavada por la predominancia del inglés en los datos utilizados para entrenar estos modelos.

El equipo de investigación terminó descifrando que las capas internas del modelo transforman y procesan las preguntas de otros idiomas a través de un “subespacio inglés”. Esto implica que, incluso al formular preguntas en diferentes idiomas como ser alemán o ruso entre otros, el modelo primero traduce estas interrogantes al inglés antes de producir una respuesta en el idioma solicitado.

Según la investigación Llama 2 se seleccionó por su accesibilidad pública, ya que su código fuente abierto permite la “transparencia” en cada paso del procesamiento, a diferencia de otros LLM, como los que sustentan a Chat GPT.

Aquí es donde está la pregunta fundamental en este tipos de modelos, si son verdaderamente una caja negra (el término “caja negra” se refiere a las redes neuronales artificiales que simulan las redes biológicas de nuestro cerebro que no tendría explicabilidad ni trazabilidad su procesamiento) o es propia decisión de las grandes empresas tecnológicas también denominadas Big Tech que no permiten su apertura y conocimiento de procesamiento.

¿Por qué ocurriría esto? La respuesta se encontraría en los datos de entrenamiento. Los grandes modelos de lenguaje, como Llama 2, se entrenan predominantemente con datos en inglés, que son más abundantes y accesibles que los datos en otros idiomas. Esto lleva a que el inglés se convierta en el lenguaje “base” para la interpretación de consultas, lo que podría resultar en respuestas que no capturan completamente los matices y contextos específicos de otros idiomas.

Aliya Bhatia, del Centro para la Democracia y la Tecnología en Washington DC, explica: “Pero usar el inglés como intermediario a través del cual enseñar a un modelo cómo analizar el idioma corre el riesgo de superponer una visión limitada del mundo a otras regiones lingüística y culturalmente distintas, esto es especialmente problemático en aplicaciones globales donde la precisión cultural y lingüística es crucial, como en la toma de decisiones legales o en la interpretación de contextos culturales específicos”.

Carissa Véliz, de la Universidad de Oxford, en “El dominio del inglés reduce la diversidad”, sostiene que si los sistemas de IA no están entrenados para apreciar y entender los conceptos únicos a cada idioma, no están en condiciones de agregar valor al modelo y entramos en posibles sesgos culturales.

Este estudio no solo ilumina un problema técnico dentro de la IA, sino que también plantea preguntas éticas y culturales significativas. Sería fundamental que los desarrolladores de las Big Tech de IA trabajen hacia una mayor diversificación en los datos de entrenamiento y adopten técnicas que permitan a los modelos entender y responder en múltiples idiomas sin depender del inglés como puente. Esta adaptación no solo mejoraría la funcionalidad de los chatbots en un contexto global, sino que también respetaría y preservará la riqueza de la diversidad lingüística y cultural del mundo.

Tamaño texto
Comentarios
Comentarios