OpenAI ha anunciado recientemente que ha logrado reducir en más de un 50% el coste de la inferencia de sus modelos, como ChatGPT, gracias a nuevas optimizaciones. Este avance fue compartido por ingenieros de la empresa a sus colegas a principios de este mes, según fuentes cercanas a la discusión.
Al aplicar estas técnicas, el número de unidades de procesamiento gráfico de Nvidia necesarias para operar ChatGPT se redujo a tan solo unos pocos cientos, una cifra sorprendentemente baja. Sin embargo, el uso de ChatGPT por parte de usuarios sin cuenta gratuita o de pago es limitado, lo que sugiere que OpenAI no obtiene mucho tráfico de este grupo.
Aunque no se han detallado los métodos específicos utilizados para alcanzar estas mejoras, se mencionan posibles técnicas como la cuantización y el almacenamiento en caché de valores clave, que permiten al modelo recordar cálculos previos y optimizar el proceso de respuesta.