KOMPAS.com - Perusahaan riset dan penerapan kecerdasan buatan (AI) OpenAI baru saja mengumumkan model bahasa AI terbaru atau large language model pada Senin (13/5/2024) lalu.
Dilansir dari laman resminya, kemampuan teks dan gambar GPT-4o mulai diluncurkan pada 13 Mei 2024 di ChatGPT.
OpenAi menyediakan model baru ini dalam versi gratis, dan bagi pengguna ChatGPT Plus dapat menikmati message limits (batas pesan prompt) hingga 5x lebih tinggi.
Versi baru GPT-4o dengan Mode Suara juga akan diluncurkan dalam versi alfa untuk ChatGPT Plus dalam beberapa minggu mendatang.
Baca juga: Mengenal Grok, Bot AI Buatan Elon Musk yang Bakal Jadi Rival ChatGPT
GPT-4o (“o” untuk “omni”) adalah model AI terbaru dari perusahaan OpenAI yang mampu menerima input kombinasi teks, audio, gambar, dan video apa pun.
Dari perintah masukan tersebut, GPT-4o dapat menghasilkan berbagai kombinasi teks, audio, dan gambar sebagai bentuk output.
Baca juga: AI atau Kecerdasan Buatan Jadi Co-Author di Jurnal Ilmiah?
Model baru itu bernama GPT-4o, dan dikatakan akan membuat ChatGPT lebih pintar dan lebih mudah digunakan.
GPT-4o menjadi pembaruan dari model GPT-4 sebelumnya, dan dapat menganalisis audio, penglihatan, dan teks secara real-time.
GPT-4o mampu mencapai kinerja tingkat GPT-4 Turbo pada kecerdasan teks, penalaran, dan pengkodean, sekaligus menetapkan standar baru pada kemampuan multibahasa, audio, dan penglihatan.
Baca juga: CEO OpenAI Jadi WNA Pertama yang Dapat Golden Visa, Apa Tujuan Pemerintah?
GPT-4o dapat merespons input audio hanya dalam 232 milidetik, serta menyamai kinerja GPT-4 Turbo pada teks dan kode berbahasa Inggris, dengan peningkatan signifikan pada teks dalam bahasa non-Inggris.
GPT-4o juga disebut lebih baik dalam pemahaman penglihatan dan audio dibandingkan model yang sudah ada.
Model sebelumnya cenderung menggunakan suara dan teks, yakni dengan mentranskripsikan audio menjadi teks, teks ke teks, atau teks menjadi audio.
Baca juga: Pemanfaatan Artificial Intelligence untuk Marketing Produk UMKM
Dengan GPT-4o, OpenAI melatih satu model baru secara end-to-end di seluruh teks, vision, dan audio, di mana semua input dan output diproses oleh jaringan yang sama.
Namun, karena GPT-4o adalah model pertama yang menggabungkan semua modalitas tersebut, OpenAi masih mengeksplorasi kemampuan dan keterbatasannya.