Puede que la inteligencia artificial (IA) exista desde hace a?os, pero sus grandes modelos lingüísticos (LLM) han captado la atención de los empresarios y los profesionales de la IA.
De hecho, según McKinsey, un tercio de las organizaciones utilizan IA generativa en al menos una función empresarial. Esto significa una necesidad creciente de ingenieros cualificados en IA y ML para satisfacer la demanda del mercado.
Conocer las tendencias clave de los LLM ayudará a las empresas a tomar decisiones informadas sobre los modelos que podrían considerar para construir sus nuevos proyectos, así como permitirá a los desarrolladores de IA mantenerse al día y actualizar sus conjuntos de habilidades en consecuencia.
Pero, ?cómo están evolucionando exactamente los LLM? En este artículo, analizaremos el futuro de los grandes modelos lingüísticos, desde el movimiento hacia la entrada multimodal hasta el crecimiento del mercado de código abierto y la creciente rentabilidad de los modelos lingüísticos contemporáneos.
Puntos clave
- Algunas de las principales tendencias en el desarrollo de grandes modelos lingüísticos son el aumento de los LLM multimodales y los modelos lingüísticos peque?os.
- Hay un esfuerzo concertado entre los proveedores para reducir el coste de formación y funcionamiento de los LLM.
- La brecha entre los modelos de código abierto y cerrado seguirá cerrándose.
- Los agentes autónomos y los modelos de acción visión-lenguaje centrados en la robótica son otros componentes del desarrollo de LLM que están creciendo significativamente.
- Más proveedores de IA ofrecerán a los usuarios chatbots personalizados, y la IA generativa se integrará en más productos dirigidos a consumidores y empresas.
Las 10 principales tendencias en LLM a tener en cuenta
1. Los LLM serán cada vez más multimodales
Una de las principales tendencias en el desarrollo de los LLM es el cambio hacia la multimodalidad. Cada vez más proveedores de IA están desarrollando sistemas que pueden generar y responder a entradas en múltiples formatos, como texto, audio, imágenes y vídeos.
Este fue uno de los temas clave de la reciente conversación de Sam Altman con Bill Gates, en la que Altman se?aló que ?la multimodalidad será definitivamente importante? en el futuro. Esto se pone aún más de relieve con el lanzamiento por OpenAI de GPT-4V el a?o pasado, que permitió a los usuarios utilizar entradas de imagen en ChatGPT.
Del mismo modo, Google también ha intentado cambiar hacia este enfoque creando una familia de LLM multimodales llamada Gemini, un modelo que Demis Hassabis, director general y cofundador de Google DeepMind dice que fue ?construido desde cero para ser multimodal?, admitiendo texto, audio en código, imagen y entrada de vídeo.
2. La brecha entre los modelos de código abierto y cerrado seguirá cerrándose
Mientras que las soluciones propietarias como ChatGPT, Claude y Bard se han mantenido a la vanguardia del desarrollo, la brecha entre los LLM de código abierto y cerrado se acorta cada vez más.
Hace poco, Meta anunció que Code Llama 70B, una versión perfeccionada de Llama 2 dise?ada para escribir y editar código, había superado a GPT 3.5 en la prueba comparativa HumanEval (53% frente a 48,1%), acercándose al rendimiento de GPT-4 (67%).
Además, Mistral AI ha anunciado recientemente el lanzamiento de 8x7B, un modelo lingüístico con 46,7B de parámetros totales, que, según afirma, ofrece una inferencia 6 veces más rápida que Llama 2 70B e ?iguala o supera a GPT 3.5 en la mayoría de los puntos de referencia estándar?.
Aunque todavía queda un tiempo para que estas herramientas lleguen al punto en que puedan desafiar a las de mayor rendimiento, como GPT-4, existe un ecosistema en constante crecimiento de LLM viables entre los que pueden elegir las empresas.
3. El auge de los modelos lingüísticos peque?os
El elevado coste de formación y funcionamiento de los modelos de IA ha sido un obstáculo para su adopción por parte de muchas organizaciones.
Según algunas estimaciones, entrenar un LLM como GPT 3.5 podría costar más de 4 millones de dólares, una inversión significativa para cualquier organización.
Por este motivo, muchos proveedores de IA están estudiando la creación de modelos lingüísticos peque?os, es decir, LLM con menos parámetros generales que puedan realizar tareas de inferencia ocupando menos recursos informáticos.
En 2024, existen numerosos ejemplos de estos modelos en la naturaleza, incluido el recién publicado Stable LM de Stability AI , un modelo lingüístico con 1.600 millones de parámetros, que se entrenó con 2 billones de tokens, incluidos datos multilingües en inglés, espa?ol, alemán, italiano, francés, portugués y holandés.
También está el Phi-2 de Microsoft, un modelo de 2.700 millones de parámetros lanzado en diciembre de 2023, que presenta unas capacidades de razonamiento y comprensión del lenguaje extraordinarias, hasta el punto de que puede superar a modelos hasta 25 veces mayores gracias a su conjunto de datos altamente curados.
Estos lanzamientos son sólo algunos ejemplos de un número cada vez mayor de modelos dise?ados para funcionar de forma más eficiente que los LLM.
4. Los modelos lingüísticos van a ser menos caros
Al mismo tiempo, existe un esfuerzo concertado entre los proveedores para reducir el coste de formación y funcionamiento de los LLM.
Prueba de ello es que, hace menos de un mes, OpenAI anunció que bajaría los precios de su modelo GPT 3.5 Turbo, con una reducción del 50% en los precios de entrada, hasta 0,0005 $ /1.000 tokens, y del 25% en los precios de salida, hasta 0,0015 $ /1.000 tokens.
Sin embargo, OpenAI no es la única que quiere reducir costes. Recientemente, Anthropic también redujo los costes de su popular LLM propietario, Claude 2.
Si se tienen en cuenta estos recortes de precios junto con el desarrollo generalizado de SLM rentables, parece probable que el coste global de estas soluciones disminuya en el futuro.
5. Más experimentarán con la optimización directa de preferencias como alternativa al RLHF
Durante a?os, el aprendizaje por refuerzo a partir de la opinión humana (RLHF) se ha utilizado como técnica para ayudar a entrenar a los algoritmos de aprendizaje automático a alinearse con las preferencias de los usuarios humanos.
Sin embargo, investigadores de Stanford han descubierto recientemente una alternativa convincente: la optimización directa de preferencias (OPD), que probablemente se utilice mucho más entre los proveedores de LLM.
Con la RLF, un desarrollador tendría que construir un modelo de recompensa basado en los comentarios humanos, lo que ayudaría a afinar el modelo en función de las preferencias humanas.
En cambio, el método de Stanford proporciona una técnica alternativa para entrenar modelos lingüísticos con preferencias sin necesidad de un laborioso aprendizaje por refuerzo.
?La OPD identifica un mapeo entre las políticas del modelo lingüístico y las funciones de recompensa que permite entrenar un modelo lingüístico para satisfacer las preferencias humanas directamente, con una simple pérdida de entropía cruzada, sin aprendizaje por refuerzo ni pérdida de generalidad.
Prácticamente sin ajustar los hiperparámetros, la OPD tiene un rendimiento similar o superior al de los algoritmos RLHF existentes?, dice el estudio.
6. El paso a los agentes autónomos
Los agentes autónomos son otro componente del desarrollo de LLM que está creciendo significativamente. El a?o pasado, agentes autónomos como AutoGPT acapararon mucha atención por su capacidad de interactuar con modelos lingüísticos como GPT 3.5 y GPT-4 y realizar tareas independientemente de la intervención humana.
Por ejemplo, estos agentes podrían utilizarse para crear un sitio web o realizar estudios de mercado sin que el usuario tenga que introducir manualmente las indicaciones. Aunque el desarrollo de estos agentes ofrece nuevas oportunidades a las empresas, también abre la puerta a nuevos retos, sobre todo en materia de ciberseguridad.
Por ejemplo, el Centro para la Seguridad de la IA advierte de que los actores maliciosos podrían crear agentes autónomos deshonestos, citando el incidente en el que un desarrollador utilizó GPT-4 para crear ChaosGPT, un agente de IA con instrucciones de ?destruir a la humanidad?. Aunque la organización se?ala que no llegó muy lejos, demuestra cómo se pueden convertir en armas estas herramientas.
7. Los modelos de acción de visión y lenguaje centrados en la robótica se acelerarán
La IA ha sido un elemento básico del desarrollo de la robótica durante a?os, desempe?ando un papel integral en el desarrollo de robots humanoides avanzados como Sophia de Hanson Robotics , pero cada vez está más claro que más proveedores de IA quieren invertir en esta área de investigación.
Según Business Insider, a partir de enero de 2024, Microsoft y OpenAI están considerando invertir 500 millones de dólares en la startup de robótica Figure AI, que está creciendo rápidamente.
El a?o pasado también vimos el lanzamiento del Robotics Transformer 2 (RT-2) de Google DeepMind, un modelo de acción de visión-lenguaje (VLA) dise?ado para ayudar a los robots a comprender y realizar acciones.
Esencialmente, RT-2 utiliza un LLM para generar controles de movimiento y da a los robots la capacidad de interpretar órdenes. Esto incluye colocar un objeto en un número o icono concreto, coger el objeto más peque?o/grande o coger el objeto más cercano a otro objeto.
A medida que crece el interés por la robótica, cabe esperar que más proveedores de IA traten de ampliar el nivel de interacción de sus modelos con las máquinas físicas.
8. Más proveedores de IA ofrecerán a los usuarios chatbots personalizados
A medida que la ingeniería de la IA sigue madurando, se está produciendo un movimiento en el mercado hacia la personalización. Más concretamente, cada vez más proveedores ofrecen asistentes de chat personalizables.
Esto puede verse de forma más obvia con el lanzamiento de los GPT de OpenAI en 2023, esencialmente versiones personalizadas de ChatGPT que pueden compartirse con otros usuarios a través de la recién lanzada GPT Store.
Hugging Face también ofrece ahora a los usuarios la opción de crear sus propios chatbots personalizados en el Asistente de Chat de Hugging, eligiendo entre cualquier LLM abierto y asignándole un nombre, un avatar y una descripción.
Dado que otras organizaciones como Bytedance también están evaluando los chatbots personalizados como una solución potencial, podemos esperar que más proveedores sigan su ejemplo.
9. La IA Generativa se utilizará en más aplicaciones de consumo
Con el fin de aumentar la accesibilidad de los conocimientos generados por la IA, cada vez más proveedores están incorporando LLM como ChatGPT en productos para consumidores y empresas.
Aim Research prevé que el 40% de las aplicaciones empresariales tendrán IA conversacional incorporada en 2024, con resultados en tiempo real en el 70% de las aplicaciones prácticas para 2030.
A día de hoy, podemos ver IA generativa utilizada en una variedad de productos populares, como Grammarly, que a?adió IA generativa a su solución de corrección en junio de 2023 para dar a los usuarios la capacidad de producir contenido bajo demanda.
Del mismo modo, HubSpot también ha a?adido herramientas basadas en IA a HubSpot CRM, incluido un Asistente de Contenidos, que puede generar títulos de blog, esquemas y contenidos como entradas de blog, páginas de destino, páginas web y correos electrónicos de divulgación.
10. La Generación Aumentada de Recuperación hará que los LLM sean más inteligentes
Por último, en un esfuerzo por mejorar el rendimiento de los modelos lingüísticos, vemos que cada vez más investigadores experimentan con la generación aumentada de recuperación (RAG).
En el marco de la GAR, los investigadores conectarán un modelo a una base de conocimientos externa. De este modo, el modelo de IA tendrá acceso a repositorios de datos e información actualizada que podrá utilizar para responder mejor a las peticiones de los usuarios.
La investigación de Pinecone muestra que el uso de GPT-4 con RAG mejoró la calidad de las respuestas en un 13%, incluso con respecto a la información sobre la que se había entrenado el LLM. Esto significa que el aumento de la calidad sería más pronunciado si las preguntas estuvieran relacionadas con datos privados.
Conclusión
Los LLM como tecnología pueden ser jóvenes, pero sus capacidades evolucionan rápidamente. Con la multimodalidad cada vez más popular y los LLM potencialmente más eficaces y rentables desde el punto de vista computacional, las barreras para la adopción de la IA están disminuyendo.
Aunque estas soluciones están muy lejos de la inteligencia general artificial (AGI ), están mejorando, y podemos esperar que su adopción aumente a lo largo de 2024 a medida que surjan más casos de uso.
Preguntas frecuentes
?Cómo construir un modelo lingüístico?
?Cuáles son las capacidades emergentes de los LLM?
?Cuál es la arquitectura más utilizada en los LLM?
Referencias
- The state of AI in 2023: Generative AI’s breakout year?(McKinsey)
- Q. How do I create a Gates Notes account??(GatesNotes)
- GPT-4V(ision) System Card?(OpenAI)
- Introducing Gemini: our largest and most capable AI model?(Google)
- Meta’s free Code Llama AI programming tool closes the gap with GPT-4?(The Verge)
- Mixtral of experts?(Mistral AI)
- ChatGPT and generative AI are booming, but the costs can be extraordinary?(CNBC)
- Introducing Stable LM 2 1.6B?(Stability AI)
- Phi-2: The surprising power of small language models?(Microsoft)
- Mobile Navigation?(OpenAI)
- Mark Beccue’s Post?(LinkedIn)
- Computer Science > Machine Learning?(arXiv)
- What is Auto-GPT and why does it matter??(TechCrunch)
- Risks from AI?(SafeAI)
- Sophia?(Hanson Robotics)
- Microsoft and OpenAI are in talks to inject $500 million into humanoid robotics startup Figure AI, report says?(Business Insider)
- RT2: Vision-Language-Action Models?(Robotics Transformer)
- Hugging Face makes it easier to create its custom chatbots.?(The Verge)
- ByteDance to launch custom chatbot builder?(Tech in Asia)
- Subscribe To Our Newsletter?(AIM Research)
- Enterprise-Grade Generative AI Is Now Available for Grammarly Business Customers?(Grammarly)
- Working Smarter, Not Harder: HubSpot CRM Introduces New AI-Powered Tools to Boost Productivity and Save Time?(HubSpot)
- RAG makes LLMs better and equal?(Pinecone)