El modelo DeepSeek-V3.2-Exp ha sido lanzado oficialmente y es de código abierto.
ChainCatcher informa que el modelo DeepSeek-V3.2-Exp fue lanzado oficialmente y su código ha sido abierto hoy. El modelo introduce una arquitectura de Attention dispersa, la cual puede reducir eficazmente el consumo de recursos computacionales y mejorar la eficiencia de inferencia del modelo. Actualmente, este modelo ya está disponible en la plataforma MaaS (Model as a Service) de Huawei Cloud. Para el modelo DeepSeek-V3.2-Exp, Huawei Cloud sigue utilizando la solución de paralelismo EP a gran escala, implementando una estrategia de paralelismo contextual afinada para secuencias largas basada en la estructura de Attention dispersa, equilibrando tanto la latencia del modelo como el rendimiento de procesamiento.
Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.
También te puede gustar
Edgen anuncia una actualización importante: arquitectura de agentes múltiples y modelo de pensamiento distribuido
En tendencia
MásPrecios de las criptos
Más








