Model AI multimodal terbaru masih gagal memahami visual
Penelitian ini menunjukkan bahwa meskipun model-model AI tersebut dipromosikan dengan istilah seperti “pemahaman visual,” kenyatannya mereka masih kesulitan dalam tugas tersebut. Sebuah studi terbaru dari para peneliti di Auburn University dan University of Alberta mengungkapkan bahwa model kecerdasan buatan (AI) multimodal terbaru, termasuk GPT-4o dan Gemini 1.5 Pro, yang diklaim mampu memahami gambar dan audio…