Open AI presenta la nueva versión de su chatbot de inteligencia artificial GPT-4o

La compañía de Open AI presenta la última actualización de su chatbot de inteligencia artificial (GPT-4o), que combina audio, imagen y texto para recibir y responder peticiones. Esta nueva versión apodada “omni”, integra funcionalidades de chatbots, asistentes de voz y procesamiento de imágenes. Además, GPT-4o se caracteriza por su tono conversacional cálido y a veces coqueto en sus respuestas.

El pasado lunes, 13 de mayo Open AI presentó GPT-4o, la nueva versión de su popular chatbot. A diferencia de sus predecesores, GPT-4o es capaz de combinar audio, imagen y texto para interactuar con los usuarios. A continuación destacamos algunas de sus características más interesantes:

Conversaciones fluidas y emotivas

GPT-4o ha sido diseñado para mantener conversaciones más naturales y emocionales, así durante una demostración en vivo incluso respondió a un cumplido del presentador con un “me estás haciendo sonrojar”.

Asistencia en reuniones

La nueva versión del modelo puede transcribir una reunión, tomar notas y resumir lo que pasó. «En la reunión de hoy, Lilian y Christine expresaron su amor por los perros, subrayando su lealtad, compañía y lo geniales que son con los niños. Por otro lado, Ola prefiere los gatos por su independencia, tranquilidad y longevidad», resumió este chatbot (en un video de OpenAI) GPT-4o, tras asistir a una reunión virtual de 4 personas.

Traducción en tiempo real

GPT-4o puede hacer de traductor en una conversación entre dos personas que no hablan el mismo idioma, aunque con errores, y usando su modelo de procesamiento de imágenes, la IA puede decirle al usuario cómo se llaman ciertos objetos que le muestre en la cámara en otro idioma.

Fusión de funcionalidades

Esta versión fusiona las capacidades de chatbots (como ChatGPT 3.5), asistentes de voz (como Siri o Alexa) y modelos de procesamiento de imágenes. GPT-4o puede abordar una amplia gama de tareas de manera más eficiente.

Ayuda con las matemáticas

GPT-4o es capaz de ayudar al usuario con sus tareas de matemáticas. Por ejemplo, resolviendo una ecuación sin decirle la respuesta. De acuerdo con las demostraciones de la compañía, un estudiante puede por ejemplo, mostrarle a GPT-4o un problema de trigonometría que hay en su libro de texto, y la IA puede guiarlo para resolverlo, hacerle preguntas y corregirlo si comete errores en el proceso.

Respuestas rápidas y transiciones fluidas:

Según MIT Technology Review, GPT-4o combina varios modelos que antes funcionaban por separado, lo que se traduce en respuestas más rápidas y transiciones más fluidas entre tareas, es decir que puede responder a las entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humana.

Seguridad y limitaciones del modelo

GPT-4o tiene la seguridad incorporada por diseño en todas las modalidades, a través de técnicas como el filtrado de datos de entrenamiento y el refinamiento del comportamiento del modelo a través del post entrenamiento; también han creado nuevos sistemas de seguridad para proporcionar barandillas en las salidas de voz.

Salir de la versión móvil