Resumen - Informe del Sistema para la Tarea 10 de Evaluación de CCL25: SRAG-MAV para el Reconocimiento de Habla Odiosa China de Textura Finamente Granular

Título
Informe del Sistema para la Tarea 10 de Evaluación de CCL25: SRAG-MAV para el Reconocimiento de Habla Odiosa China de Textura Finamente Granular

Tiempo
2025-07-24 16:56:38

Autor
{"Jiahao Wang","Ramen Liu","Longhui Zhang","Jing Li"}

Categoría
{cs.CL}

Enlace
http://arxiv.org/abs/2507.18580v1

PDF Enlace
http://arxiv.org/pdf/2507.18580v1

Resumen

Este documento presenta un nuevo marco SRAG-MAV para el reconocimiento de lenguaje de odio a nivel fino en chino (FGCHSR) en la tarea 10 de CCL25-Eval. El marco integra la reformulación de tareas (TR), la generación aumentada por recuperación autónoma (SRAG) y la votación acumulativa en múltiples rondas (MAV) para abordar los desafíos del FGCHSR, como la naturaleza sutil y dependiente del contexto del lenguaje de odio chino y la disponibilidad limitada de datos annotados de alta calidad. El marco SRAG-MAV simplifica la tarea de extracción de cuádruplos en la extracción de tríos, mejorando la comprensión contextual a través de la recuperación dinámica inspirada en la generación aumentada por recuperación (RAG), y asegurando salidas estables mediante inferencias en múltiples rondas basadas en los principios de la ley de escalado paralelo (PARSCALE). El marco propuesto alcanza una Puntuación Dura de 26.66, una Puntuación Suave de 48.35 y una Puntuación Promedio de 37.505 en el conjunto de datos STATE ToxiCN, superando significativamente los puntos de referencia como GPT-4o (Puntuación Promedio de 15.63) y el Qwen2.5-7B ajustado fino (Puntuación Promedio de 35.365). Componentes clave del marco SRAG-MAV incluyen: 1. Reformulación de Tareas (TR): El marco reformula la tarea de extracción de cuádruplos en la extracción de tríos, reduciendo la complejidad de la generación estructurada y mejorando la eficiencia y precisión de los grandes modelos de lenguaje (LLM). 2. Generación Aumentada por Recuperación Autónoma (SRAG): El marco utiliza el conjunto de entrenamiento en sí mismo como corpus de recuperación, aprovechando ejemplos annotados semánticamente similares para guiar la generación de tríos y asegurar salidas contextualmente relevantes sin requerir recursos externos. 3. Votación Acumulativa en Múltiples Rondas (MAV): El marco genera varios prompts con ejemplos recuperados por SRAG y selecciona la salida tríada óptima a través de un mecanismo de votación, asegurando resultados estables y precisos. Las experimentos demuestran la efectividad y robustez del marco propuesto, con mejoras significativas en el rendimiento en comparación con los puntos de referencia. La implementación de código abierto del marco fomenta la reproducibilidad y facilita la investigación futura en detección de lenguaje de odio y otros dominios relacionados con el procesamiento del lenguaje natural (PLN). Las limitaciones del marco propuesto incluyen el rendimiento específico del dominio del modelo, la dependencia de datos de texto únicamente y los elevados umbrales de votación de MAV, lo que aumenta los costos computacionales. El trabajo futuro explorará el aprendizaje transferente cross-domain, enfoques multimodales y la optimización de la eficiencia computacional de MAV para ampliar la aplicabilidad del marco.


Artículos Recomendados

Aprender ecuaciones de campo de fase coupled Allen-Cahn y Cahn-Hilliard utilizando el operador de red informado por la física (PINO)

Las estrellas de referencia de alta velocidad radial de Gaia RVS. III. Estrellas de alta velocidad radial confirmadas y nuevas de Gaia DR3.

Asignación de pilotos asistida por una Red Neuronal Convolucional Cuántica Híbrida en Sistemas de MIMO Masivo sin Célula

GENIAL: Exploración del Espacio de Diseño de Diseño Genérico mediante Inversión de Red para Unidades de Lógica Algorítmica de Baja Potencia

Trampa Magneto-Óptica de Banda Única en espejos piramidales y cónicos en posición back-to-back

Teoría de Hida superior para las curvas modulares de Drinfeld

Simulación de movimiento humano de alta fidelidad impulsada por IA generativa

Manifestación de las Fuerzas Cuánticas en el Espacio-Tiempo: Hacia una Teoría General de las Fuerzas Cuánticas

Distancia de Gromov-Hausdorff entre pares métricos cromáticos y estabilidad del six-pack

Baryonificación: Una alternativa a las simulaciones hidrodinámicas para estudios cosmológicos