El modelo de lenguaje grande Grok-1 cuenta con 314.000 millones de parámetros. Fue entrenado con «una gran cantidad de datos», con una pila de inferencia y un entrenamiento personalizado

Xcorp hizo públicos el modelo y la arquitectura que impulsan el chatbot deinteligencia artificial de la red social X (antes Twitter), que pueden consultarse en un repositorio de GitHub.

Grok es el chatbot que X introdujo en pruebas en la suscripción Premium+. A través de él, los usuarios pueden obtener respuestas en tiempo real con un humor que no es apto para todos, como comentó en noviembre el magnate Elon Musk.

El dueño de X se inspiró en Guía del autoestopista galáctico, una de sus novelas de cabecera, para el desarrollo de este chatbot. A su vez, lo dotó de cierta personalidad para interaccionar con los usuarios, «con un poco de ingenio» y «una vena rebelde».

La división dedicada a la inteligencia artificial en Xcorp, xAI, compartió en GitHub los pesos del modelo base y la arquitectura de red, que asegura que ha entrenado desde cero, como explica en su blog oficial.

El modelo de lenguaje grande Grok-1 cuenta con 314.000 millones de parámetros. Además, fue entrenado con «una gran cantidad de datos», con una pila de inferencia y un entrenamiento personalizada basado en Kubernetes, Rust y JAX.

En GitHub, la compañía publicó el punto de control de Grok-1 sin procesar, de la fase de preentrenamiento que concluyó en octubre del 2023. En concreto, facilitó el código de ejemplo JAX para cargar y ejecutarlo, para lo que recomienda contar, dado su peso, con «suficiente memoria de GPU».

Y se liberó también con una licencia Apache 2.0. Esto significa que los desarrolladores investigadores interesados pueden utilizarlo con fines comerciales pero sin acceso a los datos con los que se ha entrenado ni a las conexiones en tiempo real.

Fuente : www.msn.com/es-ve

Dejar respuesta

Please enter your comment!
Please enter your name here