Resumen - La difusión vence a la autoregresión en configuraciones limitadas por datos

Título
La difusión vence a la autoregresión en configuraciones limitadas por datos

Tiempo
2025-07-21 17:59:57

Autor
{"Mihir Prabhudesai","Menging Wu","Amir Zadeh","Katerina Fragkiadaki","Deepak Pathak"}

Categoría
{cs.LG,cs.AI,cs.CV,cs.RO}

Enlace
http://arxiv.org/abs/2507.15857v1

PDF Enlace
http://arxiv.org/pdf/2507.15857v1

Resumen

El documento "Diffusion Beats Autoregressive in Data-Constrained Settings" investiga el rendimiento de los modelos de difusión máscara en comparación con los modelos autoregresivos (AR) en entornos con restricciones de datos, donde se utiliza repetidamente una cantidad limitada de datos para el entrenamiento. Aquí está un resumen: **Encontrados Clave**: * **Los modelos de difusión superan a los modelos AR cuando hay abundancia de cómputo pero poca data**: Este beneficio se atribuye a la capacidad de los modelos de difusión para aprovechar mejor los datos repetidos, lo que resulta en una pérdida de validación más baja y un rendimiento superior en tareas downstream. * **Los modelos de difusión se benefician más de los datos repetidos**: Pueden entrenarse en datos repetidos hasta por 100 épocas, mientras que los datos repetidos son casi tan efectivos como los nuevos, a diferencia de los modelos AR que requieren nuevos datos hasta por 4 épocas. * **Los modelos de difusión tienen una mayor cuenta de épocas efectivas**: Pueden beneficiarse de los datos repetidos durante más épocas sin una degradación mayor, con una tasa de decadencia efectiva de aproximadamente 500 épocas en comparación con 15 para los modelos AR. * **El punto crítico de cómputo para que los modelos de difusión superen a los modelos AR sigue una ley de potencia con el tamaño del conjunto de datos**: Esto permite una expresión cerrada para predecir cuándo la difusión se convierte en la opción de modelado preferida para cualquier tamaño de conjunto de datos dado. * **Los modelos de difusión ofrecen un mejor rendimiento downstream**: Los mejores modelos de difusión entrenados en entornos con restricciones de datos superan consistentemente a los mejores modelos AR en una variedad de tareas de lenguaje downstream. **Explicación**: * **Máscara aleatoria en los modelos de difusión**: La ventaja clave de los modelos de difusión radica en su uso de máscara aleatoria durante el entrenamiento, que actúa como una forma de augmentación de datos. Esto permite que el modelo se exponga a una diversidad de ordenamientos de tokens y tareas de predicción, lo que lleva a una mejor generalización y un uso más efectivo de cada ejemplo de entrenamiento. * **Eficiencia de cómputo de los modelos AR**: Los modelos AR son más eficientes en términos de cómputo debido a su factorización fija de izquierda a derecha y una supervisión más fuerte por actualización. Sin embargo, esto tiene el costo de ser menos eficiente en datos. **Conclusión**: El documento desafía la creencia convencional de que los modelos AR son universalmente superiores y destaca a los modelos de difusión como una alternativa atractiva cuando los datos, en lugar del cómputo, son el cuello de botella. Este hallazgo tiene importantes implicaciones para el desarrollo de grandes modelos de lenguaje y otras aplicaciones de modelado de secuencia donde los datos son escasos. **Puntos Adicionales**: * El documento se centra en los modelos de difusión máscara y los modelos AR, pero los hallazgos son probablemente aplicables a otros modelos basados en difusión también. * El documento subraya la importancia de la eficiencia en datos al escalar modelos de aprendizaje profundo, especialmente a medida que los datos de alta calidad se vuelven cada vez más escasos. * El documento proporciona insigths valiosos para los profesionales, sugiriendo que los modelos de difusión deben preferirse sobre los modelos AR en entornos con restricciones de datos.


Artículos Recomendados

Ultra3D: Generación de 3D Eficiente y de Alta Fidelidad con Atención a las Partes

Fundamentación del sujeto para reducir la interferencia electromagnética en escáneres de RMN operando en entornos no blindados

Baryonificación II: Limitando el retroalimentamiento con observaciones de rayos X y kinematic Sunyaev-Zel'dovich

Aplanamiento $L^2$ de Medidas Auto-similares en Curvas No-degeneradas

Aportes no holomórficos en GMSB con mensajeros adjuntos

Planetas más grandes que Neptuno tienen elevadas excentricidades

La conjetura geométrica P=W y la compactificación de Thurston

Un acelerador de planificación autónoma de rutas con conciencia de sparsity y co-diseño HW/SW y optimización de flujo de datos multi-nivel

Observación del hueco en la punta de la conducción superconductora inducida en películas finas de $\mathrm{La}_{3}\mathrm{Ni}_{2}\mathrm{O}_{7}$ dopadas con $\mathrm{Sr}$

Inferencia Informada en Física de Procesos Gaussianos para la Estructura de Líquidos a partir de Datos de Difracción