Huawei, del que siempre se ha dicho que se queda atrás en la competencia de modelos a gran escala, finalmente llegó con sus muchachos esta vez.
No, en la Huawei Developer Conference 2023 de ayer, Huawei se lució.
La conferencia de prensa de casi tres horas aún heredó el estilo de mezcolanza del pasado de Huawei, que deslumbró a Shichao.
Sin embargo, en resumen, en realidad destaca un tema: Pangu Large Model 3.0.
De hecho, hace solo unos días, cuando otros grandes modelos aún comparaban varias calificaciones, Pangu entró en el campo de visión de todos de una manera única al confiar en el letrero dorado certificado por la revista más importante del mundo, Nature.
Se dice que con la adición del modelo grande de Pangea, la velocidad de predicción meteorológica se ha incrementado en más de 10.000 veces, y los resultados se pueden obtener en unos pocos segundos. Dónde vendrá el tifón, cuándo llegará y cuándo se irá, puede darte una predicción clara.
Lo más importante es que su precisión de predicción supera incluso al sistema IFS del Centro Meteorológico Europeo, que es conocido como el más fuerte del mundo.Es el primer producto de predicción de IA que ha ganado la predicción numérica tradicional.
Ya sabes, la mayoría de los pronósticos meteorológicos de IA anteriores se desarrollaron en base a redes neuronales 2D, pero el clima es demasiado complicado y 2D es realmente demasiado.
Además, el modelo de IA anterior seguirá acumulando errores de iteración durante el proceso de predicción, lo que afectará fácilmente a la precisión de los resultados.
Por lo tanto, los métodos de predicción de IA no han sido populares.
El modelo meteorológico a gran escala de Pangu es increíble. Usaron una red neuronal tridimensional llamada 3DEST para procesar datos meteorológicos. Si 2D no puede hacerlo, pueden usar 3D.
Estrategia de formación e inferencia de redes de 3DEST
Apuntando al problema del error de iteración, el modelo también utiliza una "estrategia de agregación jerárquica en el dominio del tiempo" para reducir el error de iteración y mejorar la precisión del pronóstico.
Aunque esta palabra suena fácil de engañar, en realidad es muy fácil de entender.
Por ejemplo, el anterior modelo de pronóstico del tiempo de IA FourCastNet, antes de que llegue el tifón, hará un pronóstico con 6 horas de anticipación, y durante estas 6 horas, el modelo calculará repetidamente cuándo llegará el tifón.
Puede calcularse para 5 horas por un tiempo y 4 horas y media por un tiempo, y el error será grande si se suman estos resultados.
Pero Pangu Meteorological Large Model pensó en una forma de entrenar 4 modelos con diferentes intervalos de pronóstico, una iteración por 1 hora y una iteración por 3 horas, 6 horas y 24 horas.
Luego, de acuerdo con los requisitos específicos del pronóstico del tiempo, seleccione el modelo correspondiente para la iteración.
Por ejemplo, si queremos predecir el clima en los próximos 7 días, dejemos que el modelo de 24 horas se itere 7 veces; predecir 20 horas significa 3 iteraciones del modelo de 6 horas + 2 iteraciones del modelo de 1 hora.
**Cuantas menos iteraciones, menor es el error. **
Esta ola de operaciones ha llevado el pronóstico del tiempo a un nuevo nivel.
Sin embargo, algunos amigos pueden haber comenzado a murmurar: los modelos grandes de las personas son imágenes y textos generados ¿Cómo se convirtió Huawei en un pronóstico del tiempo?
Una cosa que decir, este modelo de Pangu es de hecho diferente de ChatGPT y Midjourney con los que hemos estado en contacto antes, están haciendo negocios en la industria.
Para entenderlo simplemente, significa que personalmente no usamos el modelo Pangu.
No es el "némesis" de ChatGPT que todos esperan, pero está dirigido al mercado To B que no suele ser accesible. **
No mencionemos la dificultad o no, al menos los recursos de clientes empresariales que Huawei ha acumulado a lo largo de los años son realmente fáciles de cobrar.
Además, la conferencia de prensa de Huawei esta vez no solo trajo el papel despiadado del modelo de pronóstico del tiempo.
No se han descubierto nuevos antibióticos durante más de 40 años, y el fármaco súper antibacteriano Droga X se encontró tan pronto como apareció el modelo molecular del fármaco Pangea, y el ciclo de desarrollo del fármaco se acortó de varios años a varios meses, y la investigación y el desarrollo los costos se redujeron en un 70%.
El modelo grande de la mina Pangu también puede profundizar en más de 1000 procesos de extracción de carbón, y la selección de carbón limpio por sí sola puede aumentar la tasa de recuperación de carbón limpio entre un 0,1 % y un 0,2 %.
Ya sabe, para una planta de preparación de carbón con una producción anual de 10 millones de toneladas de carbón coquizable, cada aumento del 0,1 % en la tasa de producción de carbón limpio puede aumentar la ganancia anual en 10 millones.
** Todo esto es dinero blanco. . . **
De hecho, además del pronóstico del tiempo, el desarrollo de fármacos y la preparación del carbón mencionados anteriormente, el modelo Pangea se ha utilizado en muchas industrias.
En la conferencia de prensa, Tian Qi, científico jefe de HUAWEI CLOUD AI, dijo que los proyectos de HUAWEI CLOUD AI se han aplicado a más de 1000 proyectos, el 30 % de los cuales se utilizan en el sistema de producción central del cliente, lo que aumenta la rentabilidad del cliente en un promedio de 18%. % .
Huawei puede producir en masa estos grandes modelos de varias industrias, gracias a la arquitectura de tres capas 5+N+X de Huawei Pangu Model 3.0.
Es esta estructura la que le permite a Pangu aterrizar rápidamente en varias industrias.
¿Por qué dices eso?
Debido a que la IA está aterrizando en la industria, los datos son una gran dificultad.
Zhang Pingan dijo en la conferencia de prensa: "Debido a la dificultad de obtener datos de la industria y la dificultad de combinar la tecnología con la industria, la implementación de modelos grandes en la industria ha sido lenta".
**Pangu es muy ingenioso, a través de la estructura de tres niveles de 5+N+X, divide directamente este gran problema en 3 pequeños problemas para resolver. **
En primer lugar, los cinco grandes modelos de la capa L0 de Pangu aprendieron cientos de terabytes de datos de texto, como conocimientos de enciclopedia, obras literarias, códigos de programa y miles de millones de imágenes de Internet con etiquetas de texto.
Podemos entender que primero permitamos que los modelos grandes L0 de primer nivel (los cinco modelos grandes básicos del modelo grande de lenguaje natural, el modelo grande visual, el modelo grande multimodal, el modelo grande de predicción y el modelo grande de computación científica) establezcan el reconocimiento básico. es un poco como la etapa de educación de calidad antes de nuestra universidad.
Luego, el modelo en la segunda capa L1 se forma aprendiendo los datos de N industrias relacionadas a partir de cierto modelo grande básico en L0. Esto es como la etapa de pregrado de una universidad, donde debes elegir una variedad de especializaciones para estudiar.
Por ejemplo, la inspección de imagen de TC en el hospital y la inspección de calidad de imagen en la fábrica utilizan modelos visuales grandes.
Pero después de todo, uno es un hospital y el otro es una fábrica, y los escenarios de uso son completamente diferentes. Definitivamente no funcionará confiar solo en el modelo grande básico, pero si se agregan los datos de la industria, puede haber sorpresas.
La última L2 es similar a la de los estudiantes de posgrado y se refinará a una determinada escena sobre la base de industrias específicas. Por ejemplo, en la industria del almacenamiento y la logística, es posible que se requieran diferentes modelos de implementación para el transporte, el almacenamiento y la salida de mercancías.
Al mismo tiempo, Huawei también agregó un enlace de comentarios, que es un poco como una pasantía en la empresa.
Según ellos, en el pasado, por lo general, tomaba 5 meses desarrollar un modelo de industria a escala GPT-3; con este conjunto de herramientas, el ciclo de desarrollo se puede acortar a 1/5 del original.
Al mismo tiempo, también se pueden resolver las limitaciones de los pequeños conjuntos de datos en muchas industrias. Por ejemplo, una industria muy detallada como la fabricación de grandes aviones también puede tener modelos grandes.
Además de este conjunto de modelos grandes, Huawei también propuso algo muy interesante, esta localización temporal de la potencia informática.
Como todos sabemos, estamos realmente avergonzados en términos del poder de cómputo de la IA.
En primer lugar, no podemos comprar el H100/A100 de Nvidia, el equipo central de la industria de la IA. En segundo lugar, incluso si Nvidia lanzó "íntimamente" un reemplazo para el H800, todavía tenemos reservas. Por ejemplo, la tasa de transmisión se ha reducido mucho.
En el contexto de un modelo grande que toma varios meses para entrenar, es fácil ser superado por contrapartes extranjeras con mayor poder de cómputo.
Y esta vez, para resolver este problema, Huawei aún eliminó a algunos tipos reales.
Por ejemplo, en términos de rendimiento sobre el papel, el procesador Ascend 910 de Huawei ya es mejor que el A100 de Nvidia.
Sin embargo, en la práctica, todavía hay algunas lagunas. Y el A100 tampoco es el arma definitiva de Nvidia.
Sin embargo, Shengteng ha sido reconocido por muchos amigos. Huawei incluso declaró directamente en la conferencia de prensa que "ellos proporcionan la potencia informática de la mitad de los modelos grandes de China".
Por supuesto, es más probable que los puntos brillantes de Huawei en el poder de cómputo en este momento sean provocados por todo el ecosistema de software.
Por ejemplo, según la conferencia de prensa, cuente la Base de poder de computación en la nube AI Ascend y el marco informático CANN. . . En otros aspectos, la eficiencia de Huawei en el entrenamiento de modelos grandes es 1,1 veces superior a la de las principales GPU de la industria.
Además, han desarrollado un conjunto completo de paquetes de aplicaciones para los usuarios.
Por ejemplo, Meitu migró 70 modelos a Huawei Ecosystem en solo 30 días. Al mismo tiempo, Huawei también afirmó que ** con los esfuerzos de ambas partes, el rendimiento de la IA ha mejorado en un 30 % en comparación con la solución original. **
Todavía bastante impresionante.
Además, Huawei también dijo que ahora tiene casi 4 millones de desarrolladores, un número que está alineado con el ecosistema NVIDIA CUDA.
Esta serie de acciones puede considerarse como una compensación de parte de las deficiencias. **
En términos generales, después de ver una conferencia de prensa de Huawei, los malos revisores sienten que el diseño de Huawei en AI es muy profundo, y ya han comenzado a pensar en la pregunta de "qué AI realmente puede traernos".
En los últimos seis meses, aunque la industria de la IA ha recibido un estruendoso aplauso, es algo vergonzoso cuando realmente cae al nivel de la industria.
Y esta acción de Huawei acaba de confirmar lo dicho por Ren Zhengfei:
** "En el futuro, habrá un aumento en los modelos grandes de IA, no solo Microsoft. La contribución directa de las empresas de plataformas de software de inteligencia artificial a la sociedad humana puede ser inferior al 2%, y el 98% es la promoción de la sociedad industrial y sociedad agrícola ". * *
En el campo de la IA, la verdadera gran era aún está por llegar.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El modelo grande de Huawei finalmente está aquí, mi evaluación es: bastante impactante
Fuente original: Mala crítica
Huawei, del que siempre se ha dicho que se queda atrás en la competencia de modelos a gran escala, finalmente llegó con sus muchachos esta vez.
No, en la Huawei Developer Conference 2023 de ayer, Huawei se lució.
La conferencia de prensa de casi tres horas aún heredó el estilo de mezcolanza del pasado de Huawei, que deslumbró a Shichao.
Sin embargo, en resumen, en realidad destaca un tema: Pangu Large Model 3.0.
Lo más importante es que su precisión de predicción supera incluso al sistema IFS del Centro Meteorológico Europeo, que es conocido como el más fuerte del mundo.Es el primer producto de predicción de IA que ha ganado la predicción numérica tradicional.
Además, el modelo de IA anterior seguirá acumulando errores de iteración durante el proceso de predicción, lo que afectará fácilmente a la precisión de los resultados.
Por lo tanto, los métodos de predicción de IA no han sido populares.
El modelo meteorológico a gran escala de Pangu es increíble. Usaron una red neuronal tridimensional llamada 3DEST para procesar datos meteorológicos. Si 2D no puede hacerlo, pueden usar 3D.
Estrategia de formación e inferencia de redes de 3DEST
Aunque esta palabra suena fácil de engañar, en realidad es muy fácil de entender.
Por ejemplo, el anterior modelo de pronóstico del tiempo de IA FourCastNet, antes de que llegue el tifón, hará un pronóstico con 6 horas de anticipación, y durante estas 6 horas, el modelo calculará repetidamente cuándo llegará el tifón.
Puede calcularse para 5 horas por un tiempo y 4 horas y media por un tiempo, y el error será grande si se suman estos resultados.
Pero Pangu Meteorological Large Model pensó en una forma de entrenar 4 modelos con diferentes intervalos de pronóstico, una iteración por 1 hora y una iteración por 3 horas, 6 horas y 24 horas.
Luego, de acuerdo con los requisitos específicos del pronóstico del tiempo, seleccione el modelo correspondiente para la iteración.
**Cuantas menos iteraciones, menor es el error. **
Esta ola de operaciones ha llevado el pronóstico del tiempo a un nuevo nivel.
Sin embargo, algunos amigos pueden haber comenzado a murmurar: los modelos grandes de las personas son imágenes y textos generados ¿Cómo se convirtió Huawei en un pronóstico del tiempo?
Una cosa que decir, este modelo de Pangu es de hecho diferente de ChatGPT y Midjourney con los que hemos estado en contacto antes, están haciendo negocios en la industria.
No es el "némesis" de ChatGPT que todos esperan, pero está dirigido al mercado To B que no suele ser accesible. **
No mencionemos la dificultad o no, al menos los recursos de clientes empresariales que Huawei ha acumulado a lo largo de los años son realmente fáciles de cobrar.
Además, la conferencia de prensa de Huawei esta vez no solo trajo el papel despiadado del modelo de pronóstico del tiempo.
No se han descubierto nuevos antibióticos durante más de 40 años, y el fármaco súper antibacteriano Droga X se encontró tan pronto como apareció el modelo molecular del fármaco Pangea, y el ciclo de desarrollo del fármaco se acortó de varios años a varios meses, y la investigación y el desarrollo los costos se redujeron en un 70%.
Ya sabe, para una planta de preparación de carbón con una producción anual de 10 millones de toneladas de carbón coquizable, cada aumento del 0,1 % en la tasa de producción de carbón limpio puede aumentar la ganancia anual en 10 millones.
** Todo esto es dinero blanco. . . **
De hecho, además del pronóstico del tiempo, el desarrollo de fármacos y la preparación del carbón mencionados anteriormente, el modelo Pangea se ha utilizado en muchas industrias.
Huawei puede producir en masa estos grandes modelos de varias industrias, gracias a la arquitectura de tres capas 5+N+X de Huawei Pangu Model 3.0.
¿Por qué dices eso?
Debido a que la IA está aterrizando en la industria, los datos son una gran dificultad.
Zhang Pingan dijo en la conferencia de prensa: "Debido a la dificultad de obtener datos de la industria y la dificultad de combinar la tecnología con la industria, la implementación de modelos grandes en la industria ha sido lenta".
**Pangu es muy ingenioso, a través de la estructura de tres niveles de 5+N+X, divide directamente este gran problema en 3 pequeños problemas para resolver. **
En primer lugar, los cinco grandes modelos de la capa L0 de Pangu aprendieron cientos de terabytes de datos de texto, como conocimientos de enciclopedia, obras literarias, códigos de programa y miles de millones de imágenes de Internet con etiquetas de texto.
Luego, el modelo en la segunda capa L1 se forma aprendiendo los datos de N industrias relacionadas a partir de cierto modelo grande básico en L0. Esto es como la etapa de pregrado de una universidad, donde debes elegir una variedad de especializaciones para estudiar.
Pero después de todo, uno es un hospital y el otro es una fábrica, y los escenarios de uso son completamente diferentes. Definitivamente no funcionará confiar solo en el modelo grande básico, pero si se agregan los datos de la industria, puede haber sorpresas.
Al mismo tiempo, Huawei también agregó un enlace de comentarios, que es un poco como una pasantía en la empresa.
Según ellos, en el pasado, por lo general, tomaba 5 meses desarrollar un modelo de industria a escala GPT-3; con este conjunto de herramientas, el ciclo de desarrollo se puede acortar a 1/5 del original.
Al mismo tiempo, también se pueden resolver las limitaciones de los pequeños conjuntos de datos en muchas industrias. Por ejemplo, una industria muy detallada como la fabricación de grandes aviones también puede tener modelos grandes.
Como todos sabemos, estamos realmente avergonzados en términos del poder de cómputo de la IA.
En primer lugar, no podemos comprar el H100/A100 de Nvidia, el equipo central de la industria de la IA. En segundo lugar, incluso si Nvidia lanzó "íntimamente" un reemplazo para el H800, todavía tenemos reservas. Por ejemplo, la tasa de transmisión se ha reducido mucho.
En el contexto de un modelo grande que toma varios meses para entrenar, es fácil ser superado por contrapartes extranjeras con mayor poder de cómputo.
Y esta vez, para resolver este problema, Huawei aún eliminó a algunos tipos reales.
Sin embargo, en la práctica, todavía hay algunas lagunas. Y el A100 tampoco es el arma definitiva de Nvidia.
Por ejemplo, según la conferencia de prensa, cuente la Base de poder de computación en la nube AI Ascend y el marco informático CANN. . . En otros aspectos, la eficiencia de Huawei en el entrenamiento de modelos grandes es 1,1 veces superior a la de las principales GPU de la industria.
Todavía bastante impresionante.
Además, Huawei también dijo que ahora tiene casi 4 millones de desarrolladores, un número que está alineado con el ecosistema NVIDIA CUDA.
En términos generales, después de ver una conferencia de prensa de Huawei, los malos revisores sienten que el diseño de Huawei en AI es muy profundo, y ya han comenzado a pensar en la pregunta de "qué AI realmente puede traernos".
En los últimos seis meses, aunque la industria de la IA ha recibido un estruendoso aplauso, es algo vergonzoso cuando realmente cae al nivel de la industria.
Y esta acción de Huawei acaba de confirmar lo dicho por Ren Zhengfei:
** "En el futuro, habrá un aumento en los modelos grandes de IA, no solo Microsoft. La contribución directa de las empresas de plataformas de software de inteligencia artificial a la sociedad humana puede ser inferior al 2%, y el 98% es la promoción de la sociedad industrial y sociedad agrícola ". * *
En el campo de la IA, la verdadera gran era aún está por llegar.