BLEU: una métrica incomprendida de otra época

Reeditado por Platón

seguidores: 0

Pero todavía se utiliza hoy en día en la investigación de la IA.

GPT-3, Susurro, Palmera, NLLB, FLANy muchos otros modelos han sido evaluados con la métrica BLEU para afirmar su superioridad en algunas tareas.

Pero ¿qué es BLEU exactamente? ¿Como funciona?

En este artículo nos remontaremos 20 años atrás para exponer las principales razones que dieron origen a BLEU y la convirtieron en una métrica de gran éxito. Veremos cómo funciona BLEU con algunos ejemplos. También destacaré los principales límites de la métrica y brindaré recomendaciones sobre cómo usarla.

Este artículo está pensado como una introducción a BLEU, pero también puede ser un gran recordatorio para los profesionales experimentados de PNL/IA que utilizan BLEU por hábitos en lugar de por necesidad.

BLEU se describió por primera vez en un informe de investigación de IBM del que fueron coautores Kishore Papineni, Salim Roukos, Todd Ward y Wei-Jing Zhu, en 2001. Publicaron un artículo científico que lo describe un año después en ACL 2002, que es mucho más citado y fácil de encontrar.

BLEU se propuso originalmente como una métrica automática para evaluar la traducción automática (TA).

En 2001, los sistemas de traducción automática todavía se evaluaban principalmente de forma manual o utilizando métricas automáticas más antiguas como WER (tasa de error de palabra). WER es una métrica inspirada en la distancia de Levenshtein y todavía se utiliza hoy en día para la evaluación de sistemas de reconocimiento de voz. Para la evaluación de traducción automática, WER puede verse como un antepasado de BLEU. Los autores de BLEU lo expresan de la siguiente manera:

Creamos nuestra métrica de cercanía a partir de la exitosa métrica de tasa de error de palabras utilizada por la comunidad de reconocimiento de voz.

Al igual que WER, BLEU es una métrica que mide qué tan cerca está un texto de los textos de referencia producidos por humanos, por ejemplo, traducciones de referencia.

Como la traducción es una tarea con múltiples soluciones correctas, los autores de BLEU diseñaron su métrica para que pueda manejar múltiples traducciones de referencia. Esto no era nuevo en ese momento ya que WER ya se estaba transformando en un “mWER” para manejar también múltiples referencias. Hasta donde yo sé, ha sido propuesto por primera vez por Alshawi et al. (1998) de los laboratorios AT&T.

Es importante señalar que, en todo el artículo que presenta BLEU, los autores siempre asumen el uso de múltiples traducciones de referencia para su métrica. Analizan brevemente el uso de una traducción de referencia única para que sea correcta solo en algunas circunstancias:

Podemos utilizar un corpus de prueba grande con una única traducción de referencia, siempre que las traducciones no sean todas del mismo traductor.

Por el contrario, hoy en día, la mayoría de los trabajos de investigación utilizan BLEU con un referencia única, a menudo de un origen desconocido, Y para varias tareas, es decir, no sólo traducción.

Desde 2001, BLEU ha sido una métrica muy exitosa, por decir lo menos. Esto se debió en parte a su costo computacional barato y del reproducibilidad de las puntuaciones BLEU, a diferencia de la evaluación humana, cuyos resultados pueden variar mucho dependiendo de los evaluadores y del marco de evaluación.

BLEU es ahora utilizado en casi el 100% de los trabajos de investigación de traducción automática y se ha extendido en gran medida a otras tareas de generación de lenguaje natural.

Más precisamente, BLEU evalúa qué tan bien están los n-gramas de una traducción. haciendo coincidir los n-gramas de un conjunto de traducciones de referencia, mientras penalizar la traducción automática si es más corta o más larga que las traducciones de referencia.

Algunas definiciones:

An n-gramo es una secuencia de fichas. Definamos también aquí que un ficha es una secuencia de caracteres delimitados arbitrariamente por espacios. Por ejemplo, la frase "una ficha no es una palabra". a menudo se tokenizará como "un token no es una palabra". Discutiremos más sobre el papel extremadamente importante de la tokenización más adelante en este artículo.

Para ver BLEU en acción, tomé prestado un ejemplo del artículo de BLEU de una oración en chino (no proporcionada por los autores) traducida al inglés. Tenemos estas 2 siguientes traducciones generadas por traducción automática:

Y las siguientes 3 traducciones de referencia proporcionadas por humanos:

La pregunta que queremos responder con BLEU es:

¿Qué traducción es la más cercana a las traducciones de referencia dadas?

Resalté todos los n-gramas que están cubiertos por las traducciones de referencia en ambas traducciones candidatas.

El candidato 1 cubre muchos más n-gramas de las traducciones de referencia y, dado que su longitud (número de tokens) también coincide razonablemente con la longitud de las traducciones de referencia, obtendrá una puntuación BLEU más alta que el candidato 2. Aquí BLEU es correcto ya que el candidato 1 Es de hecho mejor que el candidato 2.

Con este ejemplo, podemos ver algunos límites obvios de BLEU. No se considera el significado de la traducción evaluada. BLEU solo buscó coincidencias exactas con los tokens de las traducciones de referencia.

Por ejemplo, "garantizar" en el Candidato 2 no está en las traducciones de referencia, sino "asegura" es. Desde "garantizar"no es exactamente lo mismo que"asegura”, BLEU no lo premia a pesar de tener un significado cercano.

Puede ser incluso peor cuando miramos de cerca los signos de puntuación. Por ejemplo, el candidato 2 termina con un ".” pero este período está adjunto a “dirigir.”para formar una sola ficha. “dirigir.”no es una muestra de las traducciones de referencia. El candidato 2 no recibe recompensa por contener correctamente este período.

Es por eso que BLEU generalmente se calcula en traducciones tokenizadas para dividir tokens que contienen signos de puntuación. Lo discutiremos más a fondo en la siguiente sección.

Para hacerlo simple, no discutiré las ecuaciones detrás de BLEU. Si está interesado en calcular BLEU usted mismo, lo invito a leer el artículo de BLEU donde todas las ecuaciones están bien motivadas y explicadas.

Vimos que BLEU es muy estricto ya que un token debe ser idéntico a un token en las traducciones de referencia para que cuente como una coincidencia. Aquí es donde la tokenización juega un papel muy importante, pero a menudo mal entendido papel.

La tokenización da algo flexibilidad a BLEU.

Por ejemplo, miremos nuevamente al Candidato 2:

Es para garantizar que las tropas escuchen siempre la guía de actividades que dirige el partido.

Pero esta vez, aplicamos reglas simples de tokenización para separar los signos de puntuación de las palabras. Obtenemos:

Es para garantizar que las tropas escuchen siempre la guía de actividades que dirige el partido.

Tenga en cuenta que "."ha sido separado de"de reservas”por un espacio. Esta es la única diferencia. El candidato 2 ahora coincide con una ficha más de las traducciones de referencia. Esta ficha es “.”. No parece importante ya que es sólo una ficha más, pero es muy frecuente. Esta tokenización tendrá un impacto en casi todas las oraciones y, por lo tanto, conducirá a puntuaciones BLEU significativamente mejores.

Hay una cantidad infinita de tokenizaciones posibles. Por ejemplo, las siguientes oraciones en francés son traducciones del inglés a las que aplico 5 tokenizadores diferentes. Nota: usé Moisés (código abierto, licencia LGPL) y SacreBLEU (código abierto, licencia Apache 2.0).

Estas son las mismas oraciones, pero como están tokenizadas de manera diferente, coincidirán con diferentes tokens de las traducciones de referencia. Todas estas tokenizaciones producirán diferentes puntuaciones BLEU mientras las traducciones sigan siendo las mismas.

Esta es la razón por la que no se pueden comparar dos puntuaciones BLEU calculadas en traducciones cuya tokenización es diferente o desconocida.

Es a menudo pasado por alto en artículos científicos hoy en día.

Puedes ver la tokenización como un parámetro de BLEU. Si cambias los parámetros cambias la métrica. Las puntuaciones de dos métricas diferentes no se pueden comparar.

Cuando se propuso BLEU en 2001, la calidad de la traducción automática era muy diferente.

Para darle una idea de esta diferencia, intenté recrear un sistema de traducción automática del francés al inglés de la década de 2000. Para ello, entrené un sistema de traducción automática estadística basado en palabras. lo hice con Moisés. Denotaré este sistema como “MT estadístico (2001)”.

Luego, entrené un sistema de traducción automática neuronal utilizando un modelo Transformer básico. lo hice con Marian (código abierto, licencia MIT). Denotaré este sistema como “MT neuronal (2022)”.

Las traducciones que generan son las siguientes. Nota: resalté los n-gramas que coinciden con la traducción de referencia.

Como era de esperar, la traducción generada por la MT estadística no tiene mucho sentido, especialmente hacia el final de la oración. Cubre menos n-gramas de la traducción de referencia que la MT neuronal. Por otro lado, la traducción generada por MT neuronal parece perfecta (sin contexto), pero no es exactamente igual que la traducción de referencia por lo que será penalizada por BLEU.

En 2001, los sistemas de traducción automática generaron traducciones que a menudo carecían de sentido y con errores sintácticos evidentes. Fueron penalizados con razón por no coincidir con traducciones de referencia particulares. Hoy en día, la traducción automática neuronal suele generar traducciones muy fluidas, especialmente para pares de idiomas "fáciles" como el francés-inglés. A menudo encontrarán la traducción correcta, pero dado que hay muchas traducciones correctas posibles, encontrar la traducción exacta utilizada como referencia sólo puede ocurrir por casualidad.

Aquí es donde alcanzamos los límites de BLEU que recompensará solo coincidencias exactas incluso cuando la traducción sea correcta.

BLEU ha guiado el progreso de la investigación en traducción automática durante muchos años. En NAACL 2018, los autores de BLEU recibieron un premio de prueba del tiempo.

BLEU todavía se utiliza en muchas áreas de la IA, pero sólo por hábitos. Ahora es ampliamente superado por muchas otras métricas de evaluación para tareas de generación de lenguaje natural, incluida la traducción automática, como chrF, BLEURTo COMET.

No obstante, BLEU sigue siendo un Muy buena herramienta para fines de diagnóstico..

Dado que BLEU tiene un comportamiento bien conocido, es decir, sabemos qué nivel de BLEU esperar para tareas de traducción particulares, se puede utilizar para detectar rápidamente errores y otros problemas en el proceso de capacitación de un sistema de traducción automática o en su procesamiento de datos.

En cualquier caso, BLEU no debe usarse en textos cortos. En la práctica, los profesionales de la traducción automática siempre ejecutan BLEU en textos que contienen más de 1,000 frases. BLEU está destinado a evaluar la traducción de documentos. No debe usarse para evaluar la traducción de oraciones.

En cuanto a las implementaciones de BLEU, muchas están disponibles públicamente. Hugging Face tiene su propia implementación en el Evaluar biblioteca. NLTK también implementa BLEU. También está el multi-bleu.perl guión en el proyecto Moisés. Tenga en cuenta que todas estas implementaciones de BLEU son diferentes y no producirán resultados comparables. Mi recomendación personal es utilizar la implementación original de SacreBLEU ya que esta herramienta estaba destinada a garantizar la reproducibilidad y comparabilidad de las puntuaciones BLEU.

Y si planea utilizar BLEU en su próximo trabajo, no pase por alto la necesidad de probar la significancia estadística de sus resultados.

La mejor manera de apoyar mi trabajo es convertirse en miembro de Medium usando mi enlace:

Si ya eres miembro y quieres apoyar este trabajo, simplemente sígueme en Medium.

BLEU: Una métrica incomprendida de otra época Publicado nuevamente desde la fuente https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 vía https://towardsdatascience. es/alimentar

<!–

Sello de tiempo: 4 de noviembre.6 de noviembre.