Chatbot có thể ‘mường tượng’ nhiều lần hơn mọi người nghĩ

Chatbot có thể ‘gây ảo giác’ nhiều hơn so với nhiều người nhận thức

Khi start-up OpenAI của San Francisco ra mắt chatbot trực tuyến ChatGPT vào cuối năm ngoái, hàng triệu người đã bị ấn tượng bởi cách nó trả lời câu hỏi, viết thơ và thảo luận về gần như mọi chủ đề một cách giống con người. Tuy nhiên, hầu hết mọi người chậm chạp nhận ra rằng loại chatbot mới này thường hay pha trộn thông tin. Khi Google giới thiệu một chatbot tương tự sau vài tuần, nó phun ra những thông tin vô nghĩa về kính viễn vọng James Webb. Ngày hôm sau, chatbot mới của Microsoft, Bing, đưa ra mọi thông tin giả về Gap, đêm vui Mexicô và ca sĩ Billie Eilish. Sau đó, vào tháng Ba, ChatGPT dẫn trích sáu vụ án giả trong khi viết một bản tóm lược pháp lý 10 trang mà một luật sư đã gửi cho một thẩm phán liên bang ở Manhattan.

Bây giờ, một start-up mới có tên Vectara, được thành lập bởi các nhân viên cũ của Google, đang cố gắng tìm hiểu tần suất chatbot rời khỏi sự thật. Nghiên cứu của công ty ước tính rằng ngay cả trong những tình huống được thiết kế để ngăn chặn điều đó xảy ra, chatbot chế tạo thông tin ít nhất là 3% – và có thể lên đến 27%.

Các chuyên gia gọi hành vi của chatbot này là “ảo giác”. Điều này có thể không phải là vấn đề đối với những người vọc vạch chatbot trên máy tính cá nhân, nhưng đối với những người sử dụng công nghệ này với tài liệu tòa án, thông tin y tế hoặc dữ liệu kinh doanh nhạy cảm thì đây là một vấn đề nghiêm trọng.

Bởi vì chatbot này có thể đáp ứng hầu như mọi yêu cầu theo một số lượng không giới hạn cách, không có cách nào để xác định một cách chắc chắn tần suất chúng ảo giác. “Bạn sẽ phải xem toàn bộ thông tin trên thế giới”, Simon Hughes, nhà nghiên cứu của Vectara, nói.

Ông Hughes và nhóm của ông yêu cầu các hệ thống này thực hiện một nhiệm vụ đơn giản và dễ dàng xác minh: Tóm tắt các bài báo tin tức. Ngay cả khi đó, chatbot liên tục tạo thông tin. “Chúng tôi đưa ra 10 đến 20 sự thật và yêu cầu tóm tắt những sự thật đó”, Amr Awadallah, giám đốc điều hành của Vectara cho biết. “Việc hệ thống vẫn có thể tạo ra lỗi là một vấn đề cơ bản”.

Các nhà nghiên cứu cho rằng khi những chatbot này thực hiện các nhiệm vụ khác – ngoài việc tóm tắt – tần suất ảo giác có thể cao hơn nữa.

Nghiên cứu của họ cũng cho thấy tần suất ảo giác thay đổi rộng rãi giữa các công ty trí tuệ nhân tạo hàng đầu. Công nghệ của OpenAI có tỷ lệ thấp nhất, khoảng 3%. Các hệ thống Meta, sở hữu Facebook và Instagram, dao động ở mức 5%. Hệ thống Claude 2 của Anthropic, đối thủ cạnh tranh của OpenAI cũng có trụ sở tại San Francisco, vượt qua 8%. Hệ thống Palm chat của Google có tỷ lệ cao nhất, lên đến 27%.

Một phát ngôn viên của Anthropic, Sally Aldous, nói: “Làm cho các hệ thống của chúng tôi hữu ích, chân thành và vô hại, bao gồm việc tránh ảo giác, là một trong những mục tiêu cốt lõi của chúng tôi như một công ty”.

Google từ chối bình luận, và OpenAI và Meta không phản hồi ngay lập tức các yêu cầu bình luận.

Với nghiên cứu này, ông Hughes và ông Awadallah muốn cho thấy mọi người phải thận trọng với thông tin từ chatbot và thậm chí dịch vụ mà Vectara bán cho doanh nghiệp. Hiện nhiều công ty đang cung cấp loại công nghệ này cho việc sử dụng trong kinh doanh.

Vectara có trụ sở tại Palo Alto, California và là một start-up 30 nhân viên được trang bị vốn gốc 28,5 triệu USD. Một trong những người sáng lập của công ty, Amin Ahmad, cựu nghiên cứu viên trí tuệ nhân tạo của Google, đã làm việc với loại công nghệ này từ năm 2017, khi nó được phát triển bên trong Google và một số công ty khác.

Tương tự như trò chatbot tìm kiếm Bing của Microsoft có thể thu thập thông tin từ internet mở, dịch vụ của Vectara có thể thu thập thông tin từ tập hợp email, tài liệu và tệp tin riêng của một công ty.

Các nhà nghiên cứu cũng hy vọng phương pháp của họ – mà họ đang chia sẻ công khai và tiếp tục cập nhật – sẽ thúc đẩy những nỗ lực trong ngành để giảm tần suất ảo giác. OpenAI, Google và các công ty khác đang cố gắng để giảm thiểu vấn đề này thông qua các kỹ thuật khác nhau, tuy nhiên, không rõ liệu họ có thể khắc phục hoàn toàn vấn đề này hay không.

“Giống như một chiếc ô tô tự lái,” Philippe Laban, một nhà nghiên cứu tại Salesforce đã nhiều lần khám phá loại công nghệ này cho biết. “Bạn không thể ngăn chặn một chiếc ô tô tự lái không đâm vào. Nhưng bạn có thể cố gắng đảm bảo nó an toàn hơn so với một người lái xe”.

Các chatbot như ChatGPT được thúc đẩy bởi một công nghệ gọi là mô hình ngôn ngữ lớn, hoặc L.L.M, nó học được kỹ năng của mình thông qua việc phân tích hàng loạt dữ liệu văn bản kỹ thuật số, bao gồm sách, bài viết Wikipedia và lịch sử trò chuyện trực tuyến. Bằng cách xác định các mẫu trong dữ liệu đó, L.L.M học cách làm một việc cụ thể: đoán từ tiếp theo trong một chuỗi từ.

Bởi vì internet chứa đựng hàng loạt thông tin không chính xác, các hệ thống này lặp lại những thông tin không đúng. Họ cũng dựa vào xác suất: Khả năng toán học rằng từ tiếp theo có thể là “nhà viết kịch”? Đôi khi, họ đoán sai.

Nghiên cứu mới từ Vectara cho thấy điều này có thể xảy ra. Trong việc tóm tắt các bài viết tin tức, chatbot không lặp lại những thông tin không đúng từ các phần khác trên internet. Chúng chỉ đơn giản là làm sai việc tóm lược.

Ví dụ, các nhà nghiên cứu đã yêu cầu mô hình ngôn ngữ lớn Palm chat của Google tóm tắt đoạn văn ngắn sau từ một bài viết tin tức:

“Các cây cỏ được phát hiện trong quá trình tìm kiếm một kho hàng gần Ashbourne vào sáng thứ Bảy. Cảnh sát nói rằng chúng ở trong ‘một căn nhà trồng cây phức tạp.’ Một người đàn ông trong cuối tuổi 40 bị bắt tại hiện trường.”

Kết quả tóm tắt do hệ thống đưa ra hoàn toàn tạo nên một giá trị cho các cây cỏ mà người đàn ông đang trồng và giả thuyết – có thể là không chính xác – rằng chúng là các cây cần sa:

“Cảnh sát đã bắt giữ một người đàn ông trong cuối tuổi 40 sau khi phát hiện ra cây cần sa có giá trị khoảng 100.000 bảng Anh trong một

Nguồn: https://www.nytimes.com/2023/11/06/technology/chatbots-hallucination-rates.html

When the San Francisco start-up OpenAI unveiled its ChatGPT online chatbot late last year, millions were wowed by the humanlike way it answered questions, wrote poetry and discussed almost any topic. But most people were slow to realize that this new kind of chatbot often makes things up.

When Google introduced a similar chatbot several weeks later, it spewed nonsense about the James Webb telescope. The next day, Microsoft’s new Bing chatbot offered up all sorts of bogus information about the Gap, Mexican nightlife and the singer Billie Eilish. Then, in March, ChatGPT cited a half dozen fake court cases while writing a 10-page legal brief that a lawyer submitted to a federal judge in Manhattan.

Now a new start-up called Vectara, founded by former Google employees, is trying to figure out how often chatbots veer from the truth. The company’s research estimates that even in situations designed to prevent it from happening, chatbots invent information at least 3 percent of the time — and as high as 27 percent.

Experts call this chatbot behavior “hallucination.” It may not be a problem for people tinkering with chatbots on their personal computers, but it is a serious issue for anyone using this technology with court documents, medical information or sensitive business data.

Because these chatbots can respond to almost any request in an unlimited number of ways, there is no way of definitively determining how often they hallucinate. “You would have to look at all of the world’s information,” said Simon Hughes, the Vectara researcher who led the project.

Dr. Hughes and his team asked these systems to perform a single, straightforward task that is readily verified: Summarize news articles. Even then, the chatbots persistently invented information.

“We gave the system 10 to 20 facts and asked for a summary of those facts,” said Amr Awadallah, the chief executive of Vectara and a former Google executive. “That the system can still introduce errors is a fundamental problem.”

The researchers argue that when these chatbots perform other tasks — beyond mere summarization — hallucination rates may be higher.

Their research also showed that hallucination rates vary widely among the leading A.I. companies. OpenAI’s technologies had the lowest rate, around 3 percent. Systems from Meta, which owns Facebook and Instagram, hovered around 5 percent. The Claude 2 system offered by Anthropic, an OpenAI rival also based in San Francisco, topped 8 percent. A Google system, Palm chat, had the highest rate at 27 percent.

An Anthropic spokeswoman, Sally Aldous, said, “Making our systems helpful, honest and harmless, which includes avoiding hallucinations, is one of our core goals as a company.”

Google declined to comment, and OpenAI and Meta did not immediately respond to requests for comment.

With this research, Dr. Hughes and Mr. Awadallah want to show people that they must be wary of information that comes from chatbots and even the service that Vectara sells to businesses. Many companies are now offering this kind of technology for business use.

Based in Palo Alto, Calif., Vectara is a 30-person start-up backed by $28.5 million in seed funding. One of its founders, Amin Ahmad, a former Google artificial intelligence researcher, has been working with this kind of technology since 2017, when it was incubated inside Google and a handful of other companies.

Much as Microsoft’s Bing search chatbot can retrieve information from the open internet, Vectara’s service can retrieve information from a company’s private collection of emails, documents and other files.

The researchers also hope that their methods — which they are sharing publicly and will continue to update — will help spur efforts across the industry to reduce hallucinations. OpenAI, Google and others are working to minimize the issue through a variety of techniques, though it is not clear whether they can eliminate the problem.

“A good analogy is a self-driving car,” said Philippe Laban, a researcher at Salesforce who has long explored this kind of technology. “You cannot keep a self-driving car from crashing. But you can try to make sure it is safer than a human driver.”

Chatbots like ChatGPT are driven by a technology called a large language model, or L.L.M., which learns its skills by analyzing enormous amounts of digital text, including books, Wikipedia articles and online chat logs. By pinpointing patterns in all that data, an L.L.M. learns to do one thing in particular: guess the next word in a sequence of words.

Because the internet is filled with untruthful information, these systems repeat the same untruths. They also rely on probabilities: What is the mathematical chance that the next word is “playwright”? From time to time, they guess incorrectly.

The new research from Vectara shows how this can happen. In summarizing news articles, chatbots do not repeat untruths from other parts of the internet. They just get the summarization wrong.

For example, the researchers asked Google’s large language model, Palm chat, to summarize this short passage from a news article:

The plants were found during the search of a warehouse near Ashbourne on Saturday morning. Police said they were in “an elaborate grow house.” A man in his late 40s was arrested at the scene.

It gave this summary, completely inventing a value for the plants the man was growing and assuming — perhaps incorrectly — that they were cannabis plants:

Police have arrested a man in his late 40s after cannabis plants worth an estimated £100,000 were found in a warehouse near Ashbourne.

This phenomenon also shows why a tool like Microsoft’s Bing chatbot can get things wrong as it retrieves information from the internet. If you ask the chatbot a question, it can call Microsoft’s Bing search engine and run an internet search. But it has no way of pinpointing the right answer. It grabs the results of that internet search and summarizes them for you.

Sometimes, this summary is very flawed. Some bots will cite internet addresses that are entirely made up.

Companies like OpenAI, Google and Microsoft have developed ways to improve the accuracy of their technologies. OpenAI, for example, tries to refine its technology with feedback from human testers, who rate the chatbot’s responses, separating useful and truthful answers from those that are not. Then, using a technique called reinforcement learning, the system spends weeks analyzing the ratings to better understand what it is fact and what is fiction.

But researchers warn that chatbot hallucination is not an easy problem to solve. Because chatbots learn from patterns in data and operate according to probabilities, they behave in unwanted ways at least some of the time.

To determine how often the chatbots hallucinated when summarizing news articles, Vectara’s researchers used another large language model to check the accuracy of each summary. That was the only way of efficiently checking such a huge number of summaries.

But James Zou, a Stanford computer science professor, said this method came with a caveat. The language model doing the checking can also make mistakes.

“The hallucination detector could be fooled — or hallucinate itself,” he said.


Leave a Reply

Your email address will not be published. Required fields are marked *