Tantangan akurasi transkripsi AI: Studi kasus Whisper OpenAI

OpenAI baru-baru ini mengumumkan Whisper, sebuah alat transkripsi berbasis AI yang diklaim memiliki ketangguhan dan akurasi yang mendekati tingkat manusia.

OpenAI baru-baru ini mengumumkan Whisper, sebuah alat transkripsi berbasis AI yang diklaim memiliki ketangguhan dan akurasi yang mendekati tingkat manusia. Whisper telah dilatih menggunakan dataset besar dan beragam dari web, yang memungkinkan transkripsi dalam berbagai bahasa serta terjemahan dari bahasa tersebut ke dalam bahasa Inggris.

Namun, meskipun Whisper menawarkan kemampuan yang luar biasa, alat ini juga menghadapi masalah serius yang dikenal sebagai “hallucination” atau penciptaan teks yang tidak ada dalam audio asli.

Dilansir dari Engadget (29/10), peneliti dari berbagai institusi telah menemukan bahwa Whisper sering menciptakan teks yang tidak benar, termasuk komentar rasial, ucapan kekerasan, dan informasi medis yang tidak ada. Misalnya, peneliti dari Universitas Michigan menemukan bahwa dari sepuluh transkripsi audio publik, delapan di antaranya mengandung teks yang tidak benar. Hal ini sangat mengkhawatirkan, terutama karena Whisper banyak digunakan dalam industri medis untuk transkripsi percakapan antara dokter dan pasien.

Dalam beberapa kasus, Whisper bahkan menambahkan informasi yang tidak ada dalam percakapan medis, yang dapat menyebabkan kesalahpahaman serius atau diagnosis yang salah. Misalnya, Whisper dapat menciptakan transkripsi yang menyebutkan bahwa pasien mengatakan sesuatu yang sebenarnya tidak pernah dikatakan. Hal ini menunjukkan bahwa meskipun Whisper memiliki potensi besar, kekurangannya juga harus diatasi dengan serius.

Meskipun Whisper telah didistribusikan lebih dari 4,2 juta kali melalui platform open-source seperti HuggingFace, dan telah diintegrasikan ke dalam platform cloud seperti Oracle dan Microsoft Azure, masalah hallucination ini tetap menjadi perhatian utama. Peneliti dari Cornell University dan University of Virginia menemukan bahwa hampir 40% dari hallucination yang mereka temukan dalam transkripsi dari repositori penelitian Carnegie Mellon memiliki potensi untuk disalahinterpretasi atau dimisinterpretasi.

OpenAI mengakui adanya masalah ini dan menyatakan bahwa mereka sedang terus berupaya untuk memperbaiki akurasi model mereka, termasuk mengurangi kejadian hallucination. Namun, tantangan ini menunjukkan pentingnya pengawasan yang ketat dan verifikasi ketika menggunakan AI dalam konteks yang kritis seperti medis. Selain itu, ada juga kekhawatiran tentang privasi pasien, karena beberapa alat Whisper menghapus audio asli untuk alasan keamanan data, sehingga tidak ada cara untuk memverifikasi transkripsi tersebut.

Secara keseluruhan, meskipun Whisper menawarkan kemampuan transkripsi yang luar biasa, masalah hallucination yang sering terjadi menunjukkan bahwa penggunaan AI dalam konteks yang kritis memerlukan penanganan yang lebih hati-hati dan transparan. Dengan demikian, meskipun Whisper memiliki potensi besar, penting bagi pengguna untuk selalu memverifikasi hasil transkripsi dan tidak sepenuhnya mengandalkan AI tanpa pengawasan manusia.

Source link