Kỹ sư Apple chứng minh sức yếu của AI trong việc suy luận

Kỹ sư của Apple chỉ ra rằng AI rất yếu đuối trong “luận lý” #AppleEngineers #AIReasoning

Một thời gian dài, các công ty như OpenAI và Google đã công bố khả năng “luận lý” tiên tiến là bước tiến lớn tiếp theo trong các mô hình trí tuệ nhân tạo mới nhất của họ. Tuy nhiên, một nghiên cứu mới từ sáu kỹ sư của Apple cho thấy rằng “luận lý” toán học được hiển thị bởi các mô hình ngôn ngữ lớn tiên tiến có thể rất dễ vỡ và không tin cậy khi đối mặt với những thay đổi nhỏ trong các vấn đề kiểm tra cơ bản.

Sự dễ vỡ được nhấn mạnh trong các kết quả mới này giúp hỗ trợ cho nghiên cứu trước đó cho thấy việc sử dụng kết hợp mẫu xác suất của LLMs đang thiếu hiểu biết hình thức của các khái niệm cơ bản cần thiết cho khả năng luận lý toán học thực sự tin cậy. “LLMs hiện tại không có khả năng luận lý logic chân thực,” các nhà nghiên cứu giả thiết dựa trên các kết quả này. “Thay vào đó, họ cố gắng nhân bản các bước luận lý quan sát được trong dữ liệu huấn luyện của họ.”

Trong “GSM-Symbolic: Hiểu rõ Giới hạn của Luận lý Toán học trong các Mô Hình Ngôn Ngữ Lớn”—hiện có sẵn như một bản tóm tắt trước—sáu nhà nghiên cứu của Apple bắt đầu với bộ câu hỏi toán học trình độ trường học cấp 1 toàn cầu của GSM8K, bao gồm hơn 8.000 câu hỏi bằng từ vựng toán học, mà thường được sử dụng làm tiêu chuẩn cho khả năng luận lý phức tạp của các LLM hiện đại. Họ sau đó tiếp cận mới lạ bằng cách sửa đổi một phần của bộ câu hỏi kiểm tra đó để động độc thay đổi một số tên và số với giá trị mới—vì vậy một câu hỏi về Sophie nhận 31 khối xây dựng cho cháu trai của mình trong GSM8K có thể trở thành một câu hỏi về Bill nhận 19 khối xây dựng cho em trai của mình trong kiểm tra mới GSM-Symbolic.

Cách tiếp cận này giúp tránh bất kỳ “ô nhiễm dữ liệu” nào có thể phát sinh từ việc các câu hỏi cố định của GSM8K được đưa trực tiếp vào dữ liệu huấn luyện của một mô hình AI. Đồng thời, những thay đổi không tình cờ này không thay đổi độ khó thực sự của việc luận lý toán học bản chất, có nghĩa là các mô hình nên lý thuyết thực hiện cũng tốt khi được kiểm tra trên GSM-Symbolic như GSM8K.

Thay vào đó, khi các nhà nghiên cứu kiểm tra hơn 20 LLM tiên tiến trên GSM-Symbolic, họ phát hiện tỷ lệ chính xác trung bình giảm trên bảng so với GSM8K, với sự giảm hiệu suất từ 0,3 phần trăm đến 9,2 phần trăm, tùy thuộc vào mô hình. Kết quả cũng cho thấy phương sai cao trên 50 chạy GSM-Symbolic riêng biệt với các tên và giá trị khác nhau. Khoảng cách lên tới 15 phần trăm chính xác giữa chạy tốt nhất và tồi nhất thường xuyên trong cùng một mô hình và, với một lý do nào đó, việc thay đổi các con số thường dẫn đến kết quả tồi hơn so với việc thay đổi tên.

Loại phương sai này—cả trong các chạy khác nhau của GSM-Symbolic và so sánh với kết quả của GSM8K—khá bất ngờ vì, như các nhà nghiên cứu chỉ ra, “các bước luận lý chung cần thiết để giải một câu hỏi vẫn giống nhau.” Sự thực rằng những thay đổi nhỏ dẫn đến kết quả thay đổi nhiều cho thấy với các nhà nghiên cứu rằng các mô hình này không thực hiện bất kỳ luận lý “hình thức” nào mà thay vào đó “cố gắng thực hiện một loại kết hợp mẫu dữ liệu trong phân phối, cân bằng các câu hỏi và bước giải quyết với các câu hỏi tương tự đã thấy trong dữ liệu huấn luyện.”

Tuy nhiên, phương sai tổng thể được hiển thị cho các kiểm tra GSM-Symbolic thường khá nhỏ so với cảnh báo. ChatGPT-4o của OpenAI, ví dụ, đã giảm từ 95,2 phần trăm chính xác trên GSM8K xuống còn 94,9 phần trăm trên GSM-Symbolic, vẫn là một tỷ lệ thành công khá cao bằng cả hai tiêu chuẩn, bất chấp việc mô hình có sử dụng luận lý “hình thức” ẩn sau màn hình (mặc dù tỷ lệ chính xác tổng thể cho nhiều mô hình giảm đáng kể khi các nhà nghiên cứu thêm chỉ một hoặc hai bước luận lý bổ sung cho các vấn đề).

Tuy nhiên, các LLMs đã thất bại nhiều hơn khi những nhà nghiên cứu của Apple sửa đổi bộ các kiểm tra GSM-Symbolic bằng cách thêm “các tuyên bố có vẻ liên quan nhưng cuối cùng không có ảnh hưởng” vào các câu hỏi. Đối với tập kiểm tra “GSM-NoOp” này (viết tắt của “không thực hiện”), một câu hỏi về có báo nhiêu quả kiwi ai đó hái qua nhiều ngày có thể được sửa đổi để bao gồm chi tiết ngẫu nhiên rằng “năm quả trong số đó (những quả kiwi) nhỏ hơn trung bình một chút.”

Thêm vào những cái dụ thú như vậy đã dẫn đến những “sụp đổ nghiêm trọng” trong hiệu suất so với GSM8K, dao động từ 17,5 phần trăm đến tới 65,7 phần trăm, tùy thuộc vào mô hình được kiểm tra. Những sụp đổ khổng lồ này trong chính xác chú trọng lý do giới hạn cơ hình láu chỉ “kết hợp mẫu” đơn giản để “chuyển đổi các tuyên bố thành thao tác mà không thực sự hiểu ý nghĩa của chúng,” các nhà nghiên cứu viết.

Nguồn: https://www.wired.com/story/apple-ai-llm-reasoning-research/

For a while now, companies like OpenAI and Google have been touting advanced “reasoning” capabilities as the next big step in their latest artificial intelligence models. Now, though, a new study from six Apple engineers shows that the mathematical “reasoning” displayed by advanced large language models can be extremely brittle and unreliable in the face of seemingly trivial changes to common benchmark problems.

The fragility highlighted in these new results helps support previous research suggesting that LLMs’ use of probabilistic pattern matching is missing the formal understanding of underlying concepts needed for truly reliable mathematical reasoning capabilities. “Current LLMs are not capable of genuine logical reasoning,” the researchers hypothesize based on these results. “Instead, they attempt to replicate the reasoning steps observed in their training data.”

Mix It Up

In “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”—currently available as a preprint paper—the six Apple researchers start with GSM8K’s standardized set of more than 8,000 grade-school level mathematical word problems, which is often used as a benchmark for modern LLMs’ complex reasoning capabilities. They then take the novel approach of modifying a portion of that testing set to dynamically replace certain names and numbers with new values—so a question about Sophie getting 31 building blocks for her nephew in GSM8K could become a question about Bill getting 19 building blocks for his brother in the new GSM-Symbolic evaluation.

This approach helps avoid any potential “data contamination” that can result from the static GSM8K questions being fed directly into an AI model’s training data. At the same time, these incidental changes don’t alter the actual difficulty of the inherent mathematical reasoning at all, meaning models should theoretically perform just as well when tested on GSM-Symbolic as GSM8K.

Instead, when the researchers tested more than 20 state-of-the-art LLMs on GSM-Symbolic, they found average accuracy reduced across the board compared to GSM8K, with performance drops between 0.3 percent and 9.2 percent, depending on the model. The results also showed high variance across 50 separate runs of GSM-Symbolic with different names and values. Gaps of up to 15 percent accuracy between the best and worst runs were common within a single model and, for some reason, changing the numbers tended to result in worse accuracy than changing the names.

This kind of variance—both within different GSM-Symbolic runs and compared to GSM8K results—is more than a little surprising since, as the researchers point out, “the overall reasoning steps needed to solve a question remain the same.” The fact that such small changes lead to such variable results suggests to the researchers that these models are not doing any “formal” reasoning but are instead “attempt(ing) to perform a kind of in-distribution pattern-matching, aligning given questions and solution steps with similar ones seen in the training data.”

Don’t Get Distracted

Still, the overall variance shown for the GSM-Symbolic tests was often relatively small in the grand scheme of things. OpenAI’s ChatGPT-4o, for instance, dropped from 95.2 percent accuracy on GSM8K to a still-impressive 94.9 percent on GSM-Symbolic. That’s a pretty high success rate using either benchmark, regardless of whether or not the model itself is using “formal” reasoning behind the scenes (though total accuracy for many models dropped precipitously when the researchers added just one or two additional logical steps to the problems).

The tested LLMs fared much worse, though, when the Apple researchers modified the GSM-Symbolic benchmark by adding “seemingly relevant but ultimately inconsequential statements” to the questions. For this “GSM-NoOp” benchmark set (short for “no operation”), a question about how many kiwis someone picks across multiple days might be modified to include the incidental detail that “five of them (the kiwis) were a bit smaller than average.”

Adding in these red herrings led to what the researchers termed “catastrophic performance drops” in accuracy compared to GSM8K, ranging from 17.5 percent to a whopping 65.7 percent, depending on the model tested. These massive drops in accuracy highlight the inherent limits in using simple “pattern matching” to “convert statements to operations without truly understanding their meaning,” the researchers write.


[ad_2]

Leave a Reply

Your email address will not be published. Required fields are marked *