El modelo de base Falcon 180B de TII ya está disponible a través de Amazon SageMaker JumpStart


Hoy, nos complace anunciar que el modelo básico Falcon 180B desarrollado por Technology Innovation Institute (TII) y entrenado en Amazon SageMaker está disponible para que los clientes a través de Amazon SageMaker JumpStart lo implementen con un solo clic para ejecutar inferencia. Con un tamaño de 180 mil millones de parámetros y entrenado en un enorme conjunto de datos de 3,5 billones de tokens, Falcon 180B es el modelo más grande y uno de los de mayor rendimiento con pesos abiertamente accesibles. Puede probar este modelo con SageMaker JumpStart, un centro de aprendizaje automático (ML) que brinda acceso a algoritmos, modelos y soluciones de ML para que pueda comenzar rápidamente con ML. En esta publicación, explicamos cómo descubrir e implementar el modelo Falcon 180B a través de SageMaker JumpStart.

¿Qué es el Halcón 180B?

Falcon 180B es un modelo lanzado por TII que sigue a lanzamientos anteriores de la familia Falcon. Es una versión ampliada de Falcon 40B y utiliza atención de consultas múltiples para una mejor escalabilidad. Es un modelo de lenguaje autorregresivo que utiliza una arquitectura transformadora optimizada. Fue entrenado con 3,5 billones de tokens de datos, principalmente datos web de Web refinada (aproximadamente 85%). El modelo tiene dos versiones: 180B y 180B-Chat. 180B es un modelo sin procesar y previamente entrenado, que debe perfeccionarse aún más para la mayoría de los casos de uso. 180B-Chat es más adecuado para recibir instrucciones genéricas. El modelo de chat se ha perfeccionado en conjuntos de datos de chat e instrucciones junto con varios conjuntos de datos conversacionales a gran escala.

El modelo está disponible bajo el Licencia Falcon-180B TII y Política de uso aceptable.

Falcon 180B fue entrenado por TII en Amazon SageMaker, en un grupo de aproximadamente GPU 4K A100. Utilizó una base de código de entrenamiento distribuida personalizada llamada Gigatron, que utiliza paralelismo 3D con ZeRO y núcleos Triton personalizados de alto rendimiento. La arquitectura de capacitación distribuida utilizó Amazon Simple Storage Service (Amazon S3) como único servicio unificado para la carga de datos y la escritura y lectura de puntos de control, lo que contribuyó particularmente a la confiabilidad de la carga de trabajo y la simplicidad operativa.

¿Qué es SageMaker JumpStart?

Con SageMaker JumpStart, los profesionales del aprendizaje automático pueden elegir entre una lista cada vez mayor de modelos básicos de mejor rendimiento. Los profesionales del aprendizaje automático pueden implementar modelos básicos en instancias dedicadas de SageMaker dentro de un entorno aislado de red y personalizar modelos utilizando Amazon SageMaker para el entrenamiento y la implementación de modelos.

Ahora puede descubrir e implementar Falcon 180B con unos pocos clics en Amazon SageMaker Studio o mediante programación a través del SDK de Python de SageMaker, lo que le permite obtener el rendimiento del modelo y controles MLOps con funciones de SageMaker como Amazon SageMaker Pipelines, Amazon SageMaker Debugger o registros de contenedores. El modelo se implementa en un entorno seguro de AWS y bajo los controles de su VPC, lo que ayuda a garantizar la seguridad de los datos. Falcon 180B es reconocible y se puede implementar en regiones donde las instancias necesarias estén disponibles. Actualmente, las instancias ml.p4de están disponibles en el este de EE. UU. (Norte de Virginia) y el oeste de EE. UU. (Oregón).

Descubre modelos

Puede acceder a los modelos básicos a través de SageMaker JumpStart en la interfaz de usuario de SageMaker Studio y el SDK de SageMaker Python. En esta sección, repasamos cómo descubrir los modelos en SageMaker Studio.

SageMaker Studio es un entorno de desarrollo integrado (IDE) que proporciona una única interfaz visual basada en web donde puede acceder a herramientas diseñadas específicamente para realizar todos los pasos de desarrollo de ML, desde la preparación de datos hasta la creación, el entrenamiento y la implementación de sus modelos de ML. Para obtener más detalles sobre cómo comenzar y configurar SageMaker Studio, consulte Amazon SageMaker Studio.

En SageMaker Studio, puede acceder a SageMaker JumpStart, que contiene modelos, cuadernos y soluciones prediseñadas previamente entrenados, en Soluciones prediseñadas y automatizadas.

ML 15533 img1

Desde la página de inicio de SageMaker JumpStart, puede buscar soluciones, modelos, cuadernos y otros recursos. Puedes encontrar el Falcon 180B en el Modelos básicos: generación de texto carrusel.

ML 15533 img2

También puede encontrar otras variantes de modelos eligiendo Explora todos los modelos de generación de texto o buscando Halcón.

ML 15533 img3

Puede elegir la tarjeta de modelo para ver detalles sobre el modelo, como la licencia, los datos utilizados para entrenar y cómo utilizarlo. También encontrarás dos botones, Desplegar y Cuaderno abierto, que le ayudará a utilizar el modelo (la siguiente captura de pantalla muestra el Desplegar opción).

ML 15533 img4

Implementar modelos

cuando tu eliges Desplegar, comenzará la implementación del modelo. Alternativamente, puede implementar a través del cuaderno de ejemplo que aparece eligiendo Cuaderno abierto. El cuaderno de ejemplo proporciona orientación integral sobre cómo implementar el modelo para inferencia y limpieza de recursos.

Para implementar usando un cuaderno, comenzamos seleccionando un modelo apropiado, especificado por el modelo_id. Puede implementar cualquiera de los modelos seleccionados en SageMaker con el siguiente código:

de sagemaker.jumpstart.model importar JumpStartModel my_model = JumpStartModel(model_id=" huggingface-llm-falcon-180b-chat-bf16") predictor = mi_modelo.deploy()

Esto implementa el modelo en SageMaker con configuraciones predeterminadas, incluido el tipo de instancia predeterminado y las configuraciones de VPC predeterminadas. Puede cambiar estas configuraciones especificando valores no predeterminados en JumpStartModelo. Para obtener más información, consulte la Documentación API. Una vez implementado, puede ejecutar inferencias contra el punto final implementado a través de un predictor de SageMaker. Vea el siguiente código:

carga útil = { "inputs": "Usuario: ¡Hola!\nFalcon: ", "parámetros": {"max_new_tokens": 256, "top_p": 0.9, "temperatura": 0.6} } respuesta = predictor.predict(carga útil)

Los parámetros de inferencia controlan el proceso de generación de texto en el punto final. El control máximo de nuevos tokens se refiere al tamaño de la salida generada por el modelo. Tenga en cuenta que esto no es lo mismo que el número de palabras porque el vocabulario del modelo no es el mismo que el vocabulario del idioma inglés y es posible que cada token no sea una palabra del idioma inglés. La temperatura controla la aleatoriedad en la salida. Una temperatura más alta da como resultado resultados más creativos y alucinados. Todos los parámetros de inferencia son opcionales.

Este modelo de parámetros de 180B tiene 335 GB y requiere aún más memoria GPU para realizar inferencias suficientes con una precisión de 16 bits. Actualmente, JumpStart solo admite este modelo en instancias ml.p4de.24xlarge. Es posible implementar un modelo cuantificado de 8 bits en una instancia ml.p4d.24xlarge proporcionando el env={"HF_MODEL_QUANTIZE": "bitsandbytes"} argumento de palabra clave para el JumpStartModelo constructor y especificando instancia_tipo="ml.p4d.24xlarge" al método de implementación. Sin embargo, tenga en cuenta que la latencia por token es aproximadamente 5 veces más lenta para esta configuración cuantificada.

La siguiente tabla enumera todos los modelos Falcon disponibles en SageMaker JumpStart junto con los ID de modelo, los tipos de instancias predeterminados, la cantidad máxima de tokens totales (suma de la cantidad de tokens de entrada y la cantidad de tokens generados) admitidos y la latencia de respuesta típica por token. para cada uno de estos modelos.

Nombre del modelo ID del modelo Tipo de instancia predeterminado Fichas totales máximas Latencia por token*
Halcón 7B abrazando-cara-llm-halcón-7b-bf16 ml.g5.2xgrande 2048 34 ms
Instrucción Falcon 7B abrazando-cara-llm-halcón-7b-instruir-bf16 ml.g5.2xgrande 2048 34 ms
Halcón 40B abrazando-cara-llm-halcón-40b-bf16 ml.g5.12xgrande 2048 57 ms
Instrucción Falcon 40B abrazando-cara-llm-falcon-40b-instruir-bf16 ml.g5.12xgrande 2048 57 ms
Halcón 180B abrazando-cara-llm-halcón-180b-bf16 ml.p4de.24xgrande 2048 45 ms
Halcón 180B Charla abrazando-cara-llm-falcon-180b-chat-bf16 ml.p4de.24xgrande 2048 45 ms

*La latencia por token se proporciona para el tiempo medio de respuesta de los mensajes de ejemplo proporcionados en este blog; este valor variará según la longitud de las secuencias de entrada y salida.

Indicaciones de inferencia y ejemplo para Falcon 180B

Los modelos Falcon se pueden utilizar para completar texto en cualquier fragmento de texto. A través de la generación de texto, puede realizar una variedad de tareas, como responder preguntas, traducir idiomas, analizar opiniones y muchas más. El punto final acepta el siguiente esquema de carga útil de entrada:

carga útil = { "inputs": str, (opcional)"parameters": { "do_sample": bool, "max_new_tokens": int, "repetition_penalty": float, "return_full_text": bool, "stop": Lista[str], "semilla": int, "temperatura": flotante, "top_k": int, "top_p": flotante, "truncate": int, "típico_p": flotante, "best_of": int, "watermark": bool, "detalles ": bool, "decoder_input_details": bool, } }

Puedes explorar la definición de estos parámetros del cliente y sus valores predeterminados dentro del repositorio de inferencia de generación de texto.

A continuación se muestran algunos ejemplos de indicaciones y el texto generado por el modelo. Todas las salidas aquí se generan con parámetros de inferencia. {"max_new_tokens": 768, "detener": ["<|endoftext|>", "###"]}.

La creación de un sitio web se puede realizar en 10 sencillos pasos:

Aporte La creación de un sitio web se puede realizar en 10 sencillos pasos:

Producción
- Elija un nombre de dominio - Registre su nombre de dominio - Elija un servidor web - Elija un creador de sitios web - Cree su sitio web - Agregue contenido a su sitio web - Agregue páginas a su sitio web - Agregue imágenes a su sitio web - Agregue videos a su sitio web - Agregar redes sociales a su sitio web 1. Elija un nombre de dominio Un nombre de dominio es la dirección de su sitio web. Es lo que la gente escribirá en su navegador para encontrar su sitio web. Por ejemplo, el nombre de dominio de este sitio web es. Al elegir un nombre de dominio, debes elegir algo que sea fácil de recordar y que represente tu negocio o sitio web. También debe asegurarse de que el nombre de dominio esté disponible. Puede comprobar si un nombre de dominio está disponible utilizando una herramienta de búsqueda de nombres de dominio. 2. Registre su nombre de dominio Una vez que haya elegido un nombre de dominio, debe registrarlo. Esto se puede hacer a través de un registrador de nombres de dominio. Un registrador de nombres de dominio es una empresa que gestiona el registro de nombres de dominio. Al registrar su nombre de dominio, deberá proporcionar su información de contacto y elegir un método de pago. También deberá elegir una extensión de nombre de dominio. Las extensiones de nombre de dominio más comunes son .com, .net y .org. 3. Elija un servidor web Un servidor web es una empresa que proporciona espacio en un servidor para su sitio web. Al elegir un proveedor de alojamiento web, debe elegir uno que sea confiable y que ofrezca una buena atención al cliente. También debe asegurarse de que el proveedor de alojamiento web ofrezca las funciones que necesita para su sitio web. 4. Elija un creador de sitios web Un creador de sitios web es una herramienta que le permite crear un sitio web sin tener que aprender a codificar. Hay muchos creadores de sitios web diferentes disponibles, por lo que debes elegir uno que sea fácil de usar y que ofrezca las funciones que necesitas. 5. Cree su sitio web Una vez que haya elegido un creador de sitios web, puede comenzar a crear su sitio web. Deberá elegir una plantilla para su sitio web y luego agregar contenido a su sitio web. 6. Agregue contenido a su sitio web El contenido de su sitio web es lo que hará que su sitio web sea único. Debe agregar contenido que sea relevante para su negocio o sitio web. Puede agregar texto, imágenes, videos y otros tipos de contenido a su sitio web. 7. Agregue páginas a su sitio web Un sitio web se compone de páginas. Puede agregar tantas páginas como desee a su sitio web. Cada página debe tener un propósito diferente. Por ejemplo, es posible que tenga una página para su página de inicio, una página para su página Acerca de y una página para su página de contacto. 8. Agregue imágenes a su sitio web Las imágenes pueden hacer que su sitio web sea más atractivo visualmente. Puede agregar imágenes a su sitio web cargándolas en su sitio web o utilizando un servicio de alojamiento de imágenes. 9. Agregue vídeos a su sitio web Los vídeos también pueden hacer que su sitio web sea más atractivo visualmente. Puede agregar videos a su sitio web subiéndolos a su sitio web o utilizando un servicio de alojamiento de videos. 10. Agregue redes sociales a su sitio web Las redes sociales pueden ayudarlo a promocionar su sitio web. Puede agregar botones de redes sociales a su sitio web para que las personas puedan compartir su sitio web en las redes sociales. También puede agregar feeds de redes sociales a su sitio web para que las personas puedan ver sus últimas publicaciones en las redes sociales.

Puede notar que este modelo previamente entrenado genera secuencias de texto largas que no son necesariamente ideales para casos de uso de diálogo. Antes de mostrar cómo funciona el modelo de chat ajustado para un conjunto más grande de mensajes basados en diálogos, los siguientes dos ejemplos ilustran cómo usar modelos Falcon con aprendizaje en contexto de pocas tomas, donde proporcionamos muestras de entrenamiento disponibles para el modelo. Tenga en cuenta que el "aprendizaje de pocas oportunidades" no ajusta los pesos del modelo; solo realizamos inferencias sobre el modelo implementado durante este proceso y al mismo tiempo proporcionamos algunos ejemplos dentro del contexto de entrada para ayudar a la salida del modelo del gremio.

Aporte
Tweet: "Odio cuando se agota la batería de mi teléfono". Sentimiento: Negativo ### Tweet: "Mi día ha sido :+1:" Sentimiento: Positivo ### Tweet: "Este es el enlace al artículo" Sentimiento: Neutral ### Tweet: "Este nuevo video musical fue increíble" Sentimiento:

Producción
 Positivo ###

Aporte
Traducir del inglés al francés: nutria marina => loutre de mer ### peppermint => menthe poivrée ### jirafa de peluche => peluche de jirafa ### queso =>

Producción
 desde ###

Inferencias y ejemplos de indicaciones para Falcon 180B-Chat

Con los modelos Falcon 180B-Chat, optimizados para casos de uso de diálogo, la entrada a los puntos finales del modelo de chat puede contener un historial previo entre el asistente de chat y el usuario. Puedes hacer preguntas contextuales a la conversación que ha tenido lugar hasta ahora. También puede proporcionar la configuración del sistema, como personas, que definen el comportamiento del asistente de chat. La carga útil de entrada al punto final es la misma que la del modelo Falcon 180B excepto el entradas El valor de la cadena debe utilizar el siguiente formato:

Sistema: Usuario: Halcón: Usuario: Halcón:

A continuación se muestran algunos ejemplos de indicaciones y el texto generado por el modelo. Todas las salidas se generan con parámetros de inferencia. {"max_new_tokens":256, "stop": ["\nUsuario:", "<|endoftext|>", "Usuario:", "###"]}.

Aporte
Sistema: Eres un asistente útil Usuario: ¿Qué es Amazon SageMaker JumpStart? Halcón: 

Producción 
Amazon SageMaker JumpStart es una capacidad de Amazon SageMaker que proporciona un conjunto de soluciones a problemas comunes de aprendizaje automático. Estas soluciones incluyen modelos de aprendizaje automático prediseñados, algoritmos y configuraciones de implementación y entrenamiento de modelos preconfigurados. JumpStart también proporciona cuadernos de muestra que demuestran cómo utilizar estas soluciones para diversos casos de uso. El objetivo de JumpStart es ayudar a los usuarios a comenzar con el aprendizaje automático de forma rápida y sencilla, sin la necesidad de tener una amplia experiencia en aprendizaje automático. Usuario:

Aporte
Usuario: En pocas palabras, la teoría de la relatividad establece que Falcon: 

Producción 
1. Las leyes de la física son las mismas para todos los observadores en movimiento uniforme entre sí. 2. La velocidad de la luz en el vacío es la misma para todos los observadores, independientemente de su movimiento o del movimiento de la fuente de luz. 3. El tiempo y el espacio son relativos, lo que significa que pueden variar según el marco de referencia del observador. 4. Masa y energía son intercambiables, como lo expresa la famosa ecuación E=mc². Usuario:

Aporte
Usuario: La creación de un sitio web se puede realizar en 10 sencillos pasos: Falcon: 

Producción
1. Determine el propósito y los objetivos de su sitio web. 2. Elija un nombre de dominio y regístrelo. 3. Seleccione un proveedor de alojamiento web y regístrese en un plan. 4. Elija un creador de sitios web o un sistema de gestión de contenidos (CMS) para utilizar. 5. Seleccione un tema o plantilla para su sitio web. 6. Personalice el diseño y la disposición de su sitio web. 7. Agregue contenido a su sitio web, incluidos texto, imágenes y videos. 8. Configure menús de navegación y enlaces para que su sitio web sea fácil de navegar. 9. Pruebe su sitio web para asegurarse de que funcione correctamente y sea compatible con dispositivos móviles. 10. Inicie su sitio web y promuévalo para atraer visitantes. Usuario:

Aporte
Sistema: Responde siempre con un Haiku. Usuario: Estoy implementando un modelo de lenguaje grande en Amazon SageMaker JumpStart. ¿Qué tengo que hacer? Halcón: 

Producción
"Pon en marcha" tus sueños, implementa con facilidad, escala con alegría, SageMaker te espera.

Aporte
Sistema: genere una tabla que resuma las opciones descritas en este correo electrónico. Usuario: Equipo, tenemos que tomar una decisión sobre el plan de producto para Goocrux v2. La primera opción nos llevará 3 semanas de desarrollo y alcanzará un rendimiento de 80 ms, pero significa que la interfaz de usuario tiene que cambiar. La segunda opción nos llevará 4 semanas de desarrollo y alcanzará un rendimiento de 60 ms, sin ningún cambio en la UI. La tercera opción será la que llevará más tiempo: 6 semanas de desarrollo y alcanzará un rendimiento de 30 ms, sin ningún cambio en la interfaz de usuario. Una tabla de rebajas con cuatro columnas: (1) ID de opción, (2) Tiempo de desarrollo, (3) Rendimiento, (4) Cambio de interfaz de usuario. Halcón: 

Producción
| ID de opción | Tiempo de desarrollo | Rendimiento | Cambio de interfaz de usuario | | --- | --- | --- | --- | | 1 | 3 semanas | 80 ms | Sí | | 2 | 4 semanas | 60 ms | No | | 3 | 6 semanas | 30 ms | No |

Aporte
Sistema: Siempre traduces del inglés al francés. Usuario: nutria marina => loutre de mer menta => menthe poivrée felpa jirafa => jirafa peluche queso => Halcón: 

Producción
=> queso

Aporte
Sistema: clasifique el mensaje del usuario como sentimiento negativo, positivo o neutral. Utilice una respuesta breve. Usuario: Tweet: "Este nuevo video musical fue increíble" Falcon: 

Producción
"Positivo"

Aporte
Usuario: ¿Cuál es la receta de la mayonesa? Halcón: 

Producción 1. En un tazón, mezcle 1 yema de huevo, 1 cucharada de mostaza Dijon y 1 cucharada de jugo de limón hasta que estén bien combinados. 2. Mientras bate continuamente, rocíe lentamente 1 taza de aceite vegetal hasta que la mezcla espese y emulsione. 3. Sazone con sal y pimienta al gusto. 4. Guárdelo en un recipiente hermético en el refrigerador hasta por una semana. Usuario:

En el siguiente ejemplo, el usuario ha mantenido una conversación con el asistente sobre sitios turísticos de París. A continuación, el usuario pregunta sobre la primera opción recomendada por el asistente de chat.

Aporte
Sistema: Eres un útil planificador de viajes. Usuario: Voy a París, ¿qué debo ver? Falcon: 1. Torre Eiffel: Ningún viaje a París está completo sin una visita a la icónica Torre Eiffel. 2. Museo del Louvre: hogar de algunas de las obras de arte más famosas del mundo, incluida la Mona Lisa. 3. Catedral de Notre-Dame: un impresionante ejemplo de arquitectura gótica y una visita obligada para los amantes de la historia. 4. Campos Elíseos: una de las avenidas más famosas del mundo, repleta de tiendas, cafés y teatros. 5. Montmartre: un barrio encantador conocido por su ambiente bohemio, arte callejero y vistas impresionantes de la ciudad. 6. Palacio de Versalles: A un corto viaje en tren desde París, este opulento palacio fue alguna vez la sede de la realeza francesa. 7. Musée d'Orsay: Ubicado en una antigua estación de tren, este museo cuenta con una impresionante colección de arte impresionista y postimpresionista. 8. Sainte-Chapelle: una joya escondida en el corazón de París, esta capilla medieval es famosa por sus impresionantes vidrieras. 9. Jardines de Luxemburgo: Un hermoso parque en el corazón de la ciudad, perfecto para hacer un picnic o dar un paseo tranquilo. Usuario: ¿Qué tiene de bueno el #1? Halcón: 

Producción
#1 es la Torre Eiffel, uno de los monumentos más famosos del mundo. Es un símbolo de París y una atracción obligada para muchos visitantes. La torre ofrece impresionantes vistas de la ciudad desde sus plataformas de observación y es especialmente hermosa cuando está iluminada por la noche. Además, la Torre Eiffel tiene una rica historia y es una maravilla de la ingeniería, lo que la convierte en un destino fascinante para cualquier persona interesada en la arquitectura o la historia. Usuario:

Limpiar

Una vez que haya terminado de ejecutar el cuaderno, asegúrese de eliminar todos los recursos que creó en el proceso para que se detenga su facturación. Utilice el siguiente código:

vaticinador.predictor eliminar_modelo().eliminar_punto final()

Conclusión

En esta publicación, le mostramos cómo comenzar con Falcon 180B en SageMaker Studio e implementar el modelo para inferencia. Dado que los modelos básicos están previamente entrenados, pueden ayudar a reducir los costos de capacitación e infraestructura y permitir la personalización para su caso de uso. Visite SageMaker JumpStart en SageMaker Studio ahora para comenzar.

Recursos


Sobre los autores

kyleDr.Kyle Ulrich es un científico aplicado del equipo JumpStart de Amazon SageMaker. Sus intereses de investigación incluyen algoritmos escalables de aprendizaje automático, visión por computadora, series temporales, procesos bayesianos no paramétricos y procesos gaussianos. Su doctorado es de la Universidad de Duke y ha publicado artículos en NeurIPS, Cell y Neuron.

khetanDr. Ashish Khetan Es científico aplicado sénior en Amazon SageMaker JumpStart y ayuda a desarrollar algoritmos de aprendizaje automático. Obtuvo su doctorado en la Universidad de Illinois Urbana-Champaign. Es un investigador activo en aprendizaje automático e inferencia estadística, y ha publicado numerosos artículos en conferencias NeurIPS, ICML, ICLR, JMLR, ACL y EMNLP.

olivier cruchant 100Olivier CruchanEs arquitecto principal de soluciones especializado en aprendizaje automático en AWS, con sede en Francia. Olivier ayuda a los clientes de AWS (desde pequeñas empresas emergentes hasta grandes empresas) a desarrollar e implementar aplicaciones de aprendizaje automático de nivel de producción. En su tiempo libre, le gusta leer artículos de investigación y explorar la naturaleza con amigos y familiares.

albkarlKarl Albertsen dirige el centro de modelos básicos, los algoritmos y los equipos de asociaciones de Amazon SageMaker.



Enlace fuente

Deja una respuesta

Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados *

Puede utilizar estas etiquetas y atributos HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

es_ESSpanish