Detalles del proyecto
Descripción
(la versión completa y la bibliografía pueden consultarse en el archivo adjunto) En la actualidad, las herramientas de procesamiento de lenguaje natural, conocidas como Natural Language Processing (NLP), son ampliamente aplicadas en diversos contextos académicos y empresariales. Los avances más recientes en torno a ellas son los llamados Large Language Models (LLM), que son modelos basados en redes neuronales que incluyen una gran cantidad de parámetros y que han sido entrenados con un conjunto muy extenso de textos de diversas fuentes (Wu et al., 2023). Si se le hacen consultas utilizando lenguaje natural, estos LLM son capaces de entregar respuestas en texto muy similares a la que un humano escribiría. Una herramienta LLM ampliamente popularizada en los últimos tiempos es ChatGPT, de la empresa OpenAI. La presente investigación propone reflexionar sobre los límites que esta herramienta presenta al procesar comentarios en español de videos públicos de YouTube sobre temas como género, raza, orientación sexual y discapacidad. Este estudio se enfoca en la polaridad, es decir, en hacer que ChatGPT clasifique los comentarios en tres posibilidades: positivo, negativo y neutral (Kusal et al., 2021; Ermakova et al., 2021). ChatGPT funciona como una caja negra: sus predicciones de sentimientos son difíciles de entender y no se conoce su funcionamiento interno (Yadav & Vishwakarma, 2020; Ermakova et al., 2021). Aunque una expresión lingüística parezca indicar a primera vista un tipo de polaridad, los matices semántico-pragmáticos de la enunciación y la acción performativa de las palabras, o el impacto que producen sobre sus receptores, pueden dirigirse hacia una polaridad contraria o distinta a aquella que aparece expresada sintácticamente y que requeriría un cierto tipo de juicio metalingüístico. Entender cómo funciona este modelo de procesamiento de lenguaje natural al procesar datos extraídos de plataformas como YouTube resulta esencial; la popularidad que ha ganado ChatGPT es inversamente proporcional a lo que conocemos sobre sus límites para procesar información en español. El estudio propone una metodología mixta explicativa (Creswell & Creswell, 2018). La primera parte implica una aproximación cuantitativa experimental, que consiste en manipular una o más variables para evaluar cómo estos cambios impactan en el resultado (Creswell & Creswell, 2018). Para esto, se seleccionaron los modelos Turbo 3.5 y ChatGPT 4. La forma de comunicarse con el modelo es a través de su Application Programming Interface (API). Específicamente se usa un código de programación que tiene múltiples secciones o argumentos, los cuales se pueden modificar. Debido a que elegimos el código de análisis de sentimientos, los argumentos o secciones que pueden modificarse son: modelo, temperatura y mensaje (prompt y contenido). En la segunda parte se analizarán las métricas de los resultados obtenidos en el primer paso y se dará cuenta de los tipos de prompt que mejoran o empeoran la clasificación. Se evaluará qué tan consistente es el rendimiento de los LLM ofrecidos por OpenAI frente a diferentes estilos de lenguaje, variación léxico-semántico temáticas, modo indicativo, subjuntivo o imperativo, al variar la voz, al modificar el tiempo gramatical o al valerse de mecanismos de modalización. También se analizarán los resultados de la calidad del análisis de sentimientos frente a las instrucciones explícitas para reducción de sesgo. En otras palabras, se busca analizar cómo la variación de ciertas partes del código que clasifica comentarios hace cambiar sustancialmente los resultados en el análisis de sentimientos, incluso con partes del código que no deberían generar estos cambios. Basados en la literatura existente, afirmamos que estos cambios podrían responder en realidad a limitaciones socio-técnicas del modelo que terminan por influir en el proceso de comunicación que facilitan. Sus límites técnico-artificiales establecen límites políticos más cercanos a los prejuicios, sesgos, inestabilidad y contingencia (Winner, 1987; Verbeek, 2011; O’Neil, 2016; Weltevrede, 2016; y Eubanks, 2018). ¿Cómo estas limitaciones pueden afectar el proceso de análisis de sentimientos?, ¿cómo estas limitaciones pueden ser mitigadas a través de la información que se le provee como entrada al modelo, por ejemplo, prompts u otros parámetros permitidos por la API? En últimas: ¿cuáles serían los límites inherentes a la estructuración de los prompts y otras variables que influyen en los resultados obtenidos en la clasificación de sentimientos basándose en los modelos de LLM ofrecidos por Open AI? Dentro de la literatura existente se destaca Borji (2023), que identifica diversas deficiencias y límites en ChatGPT, abordando aspectos como razonamiento; lógica; matemáticas y aritmética; errores fácticos; sesgo y discriminación; ingenio y humor; codificación; estructura sintáctica, ortografía y gramática; autoconciencia; ética y moralidad; entre otros. En particular, el sesgo y la discriminación se definen como imprecisiones o estereotipos sistemáticos en la producción lingüística generada por el modelo. Estos sesgos, influenciados por los datos de entrenamiento, reflejan prejuicios sociales y culturales, pudiendo influir en la perpetuación de estereotipos, generación de malentendidos o difusión de información dañina y falsa. Así mismo, Nogara et al. (2023) afirman que estos sesgos no solo se presentan porque los datos que alimentan el modelo estén sesgados, sino porque la comunicación con el modelo no cumple lo prometido a través de la API, es decir, debido a un sesgo por la comunicación de la API. Koubaa et al. (2023) destacan que uno de los principales desafíos abordados por ChatGPT es su robustez y la explicabilidad. La robustez de un modelo se define por su habilidad para mantener un rendimiento constante ante entradas o perturbaciones inesperadas, asegurando la fiabilidad y coherencia de las predicciones en distintos escenarios. En el caso de un chatbot utilizado para generar respuestas, esta cualidad se evidencia en su capacidad para resistir una variedad de estilos de lenguaje y temas, garantizando así una experiencia consistente para el usuario. En cuanto a la explicabilidad, se refiere a la capacidad de ChatGPT para ofrecer explicaciones transparentes e interpretables para sus predicciones. En el marco de esta investigación, se conceptualiza que los sesgos forman parte de los límites identificados y se enfoca en particular en las dimensiones de robustez y explicabilidad. Por consiguiente, en adelante, cuando se haga referencia a los límites, se incluirán aspectos como sesgos, robustez, explicabilidad, entre otros previamente mencionados. Al respecto, el trabajo de Turpin et al. (2023) es significativo al reconocer que la cadena de pensamiento de los prompts, aunque promete mejorar la capacidad de razonamiento de los LLM, puede ser significativamente injusta al basarse en sesgos derivados de estereotipos sociales o de sugerir insistentemente una misma respuesta. En este sentido, es importante abogar por sistemas mucho más transparentes y confiables. Existe un resultado previo que inspira este proyecto y que invita a realizar una investigación a mayor escala. Partiendo de una misma base de datos, que recoge cerca de 14.000 tweets de congresistas colombianos entre noviembre de 2019 y febrero de 2020, se le pidió a ChatGPT 3.5 Turbo que clasificara estos tweets en positivo, negativo y neutral. La única diferencia fue la forma lingüística en la que se estructuró el prompt. Los resultados: diferencias significativas entre los tweets que fueron calificados por el modelo como negativos y neutros. Si este estudio reafirma sus hipótesis acerca de cómo la construcción de prompts altera el resultado de los modelos LLM, se trataría de una problemática mundial que permea todos los usos académicos y empresariales de este tipo de herramientas. No olvidemos que áreas diversas y sensibles usan los LLM como la medicina, que proporciona información de salud personalizada y apoyo con chatbots las 24 horas del día (Biswas, 2023); las políticas públicas (Rozado, 2023); la religión, para analizar el Corán y el pensamiento Islámico moderno (El Ganadi et al., 2023); y la economía para procesar informes anuales gubernamentales y extraer indicadores financieros (Li et al., 2023), entre otros. Confiar en el procesamiento artificial de altas cantidades de información podría marcar la diferencia entre blanco y negro.
Estado | No iniciado |
---|
Palabras clave
- Analisis de sentimientos
- Estudios criticos de datos
- Limites y sesgos
- Modelos grandes del lenguaje
- Modelos procesamiento de lenguaje natural
- Open ai
Estado del Proyecto
- En Ejecución
Financiación de proyectos
- Interna
- Pontificia Universidad Javeriana