Công cụ ghi âm của OpenAI có hiện tượng ảo tưởng. Bệnh viện vẫn sử dụng nó mặc cho điều đó
Ngày thứ bảy, một cuộc điều tra của Associated Press đã tiết lộ rằng công cụ chuyển âm Whisper của OpenAI tạo ra văn bản giả tạo trong các bối cảnh y tế và kinh doanh mặc dù được cảnh báo không nên sử dụng như vậy. AP đã phỏng vấn hơn 12 kỹ sư phần mềm, nhà phát triển và nhà nghiên cứu phát hiện ra rằng mô hình thường xuyên phát minh văn bản mà người nói chưa bao giờ nói, hiện tượng thường được gọi là “mê tín” hoặc “ảo tưởng” trong lĩnh vực trí tuệ nhân tạo.
Khi được ra mắt vào năm 2022, OpenAI đã tuyên bố rằng Whisper tiếp cận “mức độ ổn định như con người” trong độ chính xác chuyển âm âm thanh. Tuy nhiên, một nhà nghiên cứu của Đại học Michigan cho biết Whisper tạo ra văn bản sai lệch trong 80% các bản ghi cuộc họp công cộng được nghiên cứu. Một nhà phát triển khác, không được đặt tên trong báo cáo của AP, cho biết đã tìm thấy nội dung phát minh trong hầu hết 26.000 bản thử nghiệm của mình.
Sáng kiến đặc biệt gây rủi ro trong các bối cảnh chăm sóc sức khỏe. Mặc dù OpenAI cảnh báo không sử dụng Whisper cho “các lĩnh vực có rủi ro cao”, hơn 30.000 nhân viên y tế hiện sử dụng công cụ dựa trên Whisper để chuyển âm cuộc thăm bệnh nhân, theo báo cáo của AP. Mankato Clinic ở Minnesota và Bệnh viện Trẻ em Los Angeles là trong số 40 hệ thống y tế sử dụng dịch vụ trợ lý AI được cung cấp bởi công ty công nghệ y tế Nabla dựa trên Whisper đã được điều chỉnh cho thuật ngữ y khoa.
Nabla công nhận rằng Whisper có thể bị lẫn lộn, nhưng cũng cho biết đã xóa bỏ các bản ghi âm gốc “vì lý do an toàn dữ liệu”. Điều này có thể gây ra vấn đề bổ sung, vì bác sĩ không thể xác minh tính chính xác so với dữ liệu gốc. Và bệnh nhân điếc có thể bị ảnh hưởng lớn bởi các bản chuyển âm sai lầm vì họ không có cách nào biết liệu âm thanh trong bản chuyển âm y tế có chính xác hay không.
Các vấn đề tiềm ẩn với Whisper không chỉ giới hạn trong lĩnh vực chăm sóc sức khỏe. Các nhà nghiên cứu từ Đại học Cornell và Đại học Virginia đã nghiên cứu hàng ngàn mẫu âm thanh và phát hiện Whisper thêm vào nội dung bạo lực không tồn tại và nhận xét về chủng tộc vào lời nói trung lập. Họ phát hiện rằng 1% mẫu bao gồm “các cụm từ hoặc câu hồi tưởng hoàn chỉnh không tồn tại dưới bất kỳ hình thức nào trong âm thanh gốc” và 38% trong số đó bao gồm “tác động rõ ràng như tăng cường bạo lực, tạo ra các liên kết không chính xác hoặc ngụ ý về quyền lực không đúng.”
Trong một trường hợp từ nghiên cứu được trích dẫn bởi AP, khi một người nói mô tả “hai cô gái khác và một bà”, Whisper thêm vào văn bản giả tạo xác định rằng họ “là người da đen.” Trong trường hợp khác, âm thanh nói, “Anh ấy, chàng trai, đang sẽ, tôi không chắc chắn chính xác, cầm ô.” Whisper đã chuyển âm nó thành, “Anh ấy đã lấy một mảnh lớn của một thứ nào đó, một mảnh nhỏ … Tôi chắc chắn anh ấy không có một con dao khủng bố để anh ấy giết một số người.”
Một người phát ngôn của OpenAI nói với AP rằng công ty đánh giá cao các kết luận của các nhà nghiên cứu và đang tích cực nghiên cứu cách giảm thiểu sự phát minh và tích hợp phản hồi vào các cập nhật cho mô hình.
#OpenAI #Whisper #AI #transcription #health #technology
Nguồn: https://www.wired.com/story/hospitals-ai-transcription-tools-hallucination/
On Saturday, an Associated Press investigation revealed that OpenAI’s Whisper transcription tool creates fabricated text in medical and business settings despite warnings against such use. The AP interviewed more than 12 software engineers, developers, and researchers who found the model regularly invents text that speakers never said, a phenomenon often called a “confabulation” or “hallucination” in the AI field.
Upon its release in 2022, OpenAI claimed that Whisper approached “human level robustness” in audio transcription accuracy. However, a University of Michigan researcher told the AP that Whisper created false text in 80 percent of public meeting transcripts examined. Another developer, unnamed in the AP report, claimed to have found invented content in almost all of his 26,000 test transcriptions.
The fabrications pose particular risks in health care settings. Despite OpenAI’s warnings against using Whisper for “high-risk domains,” over 30,000 medical workers now use Whisper-based tools to transcribe patient visits, according to the AP report. The Mankato Clinic in Minnesota and Children’s Hospital Los Angeles are among 40 health systems using a Whisper-powered AI copilot service from medical tech company Nabla that is fine-tuned on medical terminology.
Nabla acknowledges that Whisper can confabulate, but it also reportedly erases original audio recordings “for data safety reasons.” This could cause additional issues, since doctors cannot verify accuracy against the source material. And deaf patients may be highly impacted by mistaken transcripts since they would have no way to know if medical transcript audio is accurate or not.
The potential problems with Whisper extend beyond health care. Researchers from Cornell University and the University of Virginia studied thousands of audio samples and found Whisper adding nonexistent violent content and racial commentary to neutral speech. They found that 1 percent of samples included “entire hallucinated phrases or sentences which did not exist in any form in the underlying audio” and that 38 percent of those included “explicit harms such as perpetuating violence, making up inaccurate associations, or implying false authority.”
In one case from the study cited by AP, when a speaker described “two other girls and one lady,” Whisper added fictional text specifying that they “were Black.” In another, the audio said, “He, the boy, was going to, I’m not sure exactly, take the umbrella.” Whisper transcribed it to, “He took a big piece of a cross, a teeny, small piece … I’m sure he didn’t have a terror knife so he killed a number of people.”
An OpenAI spokesperson told the AP that the company appreciates the researchers’ findings and that it actively studies how to reduce fabrications and incorporates feedback in updates to the model.
Why Whisper Confabulates
The key to Whisper’s unsuitability in high-risk domains comes from its propensity to sometimes confabulate, or plausibly make up, inaccurate outputs. The AP report says, “Researchers aren’t certain why Whisper and similar tools hallucinate,” but that isn’t true. We know exactly why Transformer-based AI models like Whisper behave this way.
Whisper is based on technology that is designed to predict the next most likely token (chunk of data) that should appear after a sequence of tokens provided by a user. In the case of ChatGPT, the input tokens come in the form of a text prompt. In the case of Whisper, the input is tokenized audio data.