Apple cho biết trí tuệ nhân tạo tạo ra không giỏi về toán học

Theo một báo cáo mới từ công ty Apple, AI sinh học không thích hợp cho toán học. Những kết luận từ báo cáo này có thể khiến người tiêu dùng nghĩ lại việc sử dụng công cụ ChatGPT – và các công cụ AI sinh học khác – để nhận lời khuyên tài chính. Điều này cũng nên làm dịu kế hoạch của các ban lãnh đạo ngân hàng và hiệp hội tín dụng để sử dụng trí tuệ nhân tạo (AI) để cung cấp lời khuyên tài chính và hướng dẫn cho người tiêu dùng.

Một cuộc khảo sát từ Motley Fool đã phát hiện ra một số thống kê đáng ngạc nhiên – và, thực sự, khó tin – về việc sử dụng công cụ AI sinh học ChatGPT của người Mỹ để nhận lời khuyên tài chính. Cuộc khảo sát cho thấy rằng:

– 54% người Mỹ đã sử dụng ChatGPT để nhận lời khuyên tài chính. Sáu trong mười người thuộc thế hệ Z và Millennials, nửa người thuộc thế hệ X, và một phần ba của Baby Boomers cho biết họ đã nhận được lời khuyên cho ít nhất một trong tám sản phẩm tài chính. Thẻ tín dụng và tài khoản thanh toán – được 26% và 23% người tham gia bình chọn – là sản phẩm được hỏi nhiều nhất.

– Một nửa người tiêu dùng nói rằng họ sẽ sử dụng ChatGPT để nhận lời khuyên. Tuy nhiên, ít người bày tỏ sự quan tâm trong việc nhận lời khuyên cho hầu hết các sản phẩm. Ví dụ, 25% người cho biết họ muốn một lời khuyên từ ChatGPT về thẻ tín dụng – và tỉ lệ này giảm dần từ đó.

– Người tham gia khảo sát tỏ ý “phần lớn hài lòng” với các lời khuyên của ChatGPT. Trên một thang đánh giá 5 điểm (1=không hài lòng, 5=rất hài lòng), điểm số trung bình chung là 3.7, dao động từ 3.6 từ thế hệ Z và các người Baby Boomers đến 3.8 từ Millennials và 3.9 từ Gen Xers.

Theo báo cáo, các yếu tố quan trọng nhất xác định việc người tiêu dùng sử dụng ChatGPT để tìm sản phẩm tài chính là: 1) hiệu suất và độ chính xác của lời khuyên; 2) khả năng hiểu rõ cách lý do đứng sau các lời khuyên; và 3) khả năng xác minh thông tin mà lời khuyên dựa trên.

Nhưng hiệu suất, độ chính xác – và rất quan trọng – lý do đứng sau các lời khuyên của ChatGPT có hợp lý không? Báo cáo của Apple đặt ra một số nghi ngờ.

Theo bốn nhà nghiên cứu của Apple, công cụ AI sinh học có thể thực hiện nhiều điều ấn tượng, nhưng mô hình ngôn ngữ lớn (LLM) có một số hạn chế lo lắng với “ra rơi toán học.” Các nhà nghiên cứu của Apple kết luận:

“LLM hiện tại không có khả năng lý lập chân thực; thay vào đó, họ cố gắng sao chép các bước lý reso quan sát được trong dữ liệu huấn luyện của mình. Khi chúng tôi thêm một mệnh đề duy nhất mà có vẻ liên quan đến câu hỏi, chúng tôi thấy hiệu suất giảm đáng kể trên tất cả các mô hình. Quan trọng hơn, chúng tôi chứng minh rằng LLM gặp khó khăn ngay cả khi có nhiều ví dụ về cùng một câu hỏi hoặc ví dụ chứa thông tin không liên quan tương tự. Điều này ngụ ý các vấn đề sâu hơn trong các quy trình lý lập của họ mà không thể dễ dàng giảm nhẹ thông qua việc học và tinh chỉnh bằng ít dữ liệu hoặc học và tinh chỉnh.”

Một bài báo từ TechCrunch đã ghi chép một số tính toán toán học dường như đơn giản mà LLM không thể thực hiện đúng. Dành cho thế hệ của mình, như báo chí, “Claude không thể giải quyết vấn đề số liệu cơ bản, Gemini không hiểu phương trình bậc hai, và Llama gặp khó khăn với phép cộng đơn giản.”

Tại sao LLM không thể làm được toán cơ bản? Vấn đề, theo TechCrunch, là mã hóa token:

“Quy trình chia dữ liệu thành các mảnh (ví dụ, chia từ “tuyệt vời” thành các âm tiết “fan,” “tas,” và “tic”), mã hóa token giúp AI mã hóa mật độ thông tin. Nhưng vì tokenizers – các mô hình AI thực hiện mã hóa – thực sự không biết số, họ thường phá hủy mối quan hệ giữa các chữ số. Ví dụ, mã hóa token có thể xử lý số “380” như một token nhưng biểu diễn số “381” như một cặp chữ số (“38” và “1”).”

Máy học cũng gặp vấn đề. Rất nhiều người sử dụng thuật ngữ “máy học” khi đề cập đến phân tích hồi quy hoặc một dạng khác của phân tích thống kê. Theo Đại học California tại Berkeley, máy học có ba thành phần:

– Một quy trình quyết định. Nói chung, các thuật toán máy học được sử dụng để đưa ra dự báo hoặc phân loại. Dựa trên một số dữ liệu đầu vào, có thể được gắn nhãn hoặc không gắn nhãn, thuật toán của bạn sẽ sản phẩm một ước lượng về một mẫu dữ liệu.
– Một hàm lỗi. Hàm lỗi đánh giá dự đoán của mô hình. Nếu có các ví dụ đã biết, một hàm lỗi có thể so sánh để đánh giá độ chính xác của mô hình.
– Một quy trình tối ưu mô hình. Nếu mô hình có thể phù hợp tốt hơn với các điểm dữ liệu trong tập huấn luyện, sau đó trọng số được điều chỉnh để giảm hiệu lệch giữa ví dụ đã biết và ước lượng mô hình. Thuật toán sẽ lặp lại quá trình “đánh giá và tối ưu” này, cập nhật trọng số tự động cho đến khi đạt được ngưỡng độ chính xác đã được đáp ứng.

Phân tích hồi quy và hầu hết các dạng khác của phân tích thống kê thiếu một quy trình tối ưu mô hình.

Vấn đề thực tế ở đây là mặc dù kết quả “đầu tư” thường có thể được theo dõi, kết quả “chi tiêu” thì không. Đối với đa số người, cách họ tiêu tiền quan trọng hơn cách họ đầu tư tài chính. Thách thức khác ở đây là chúng ta không chỉ chi tiêu để tối ưu hóa hiệu suất tài chính của mình. Chúng ta chi tiêu để tối ưu hóa hiệu suất cảm xúc của mình. Một mô hình máy học sẽ làm sao để theo dõi điều đó?

VIệt Nam #Apple #AI #ChatGPT #tài_chính #ngân_hàng #lời_khuyên #hướng_dẫn #toán_học #mô_hình_ngôn_ngữ_lớn #LLM #sao_chép #tinh_chỉnh #máy_học #học_máy #đầu_tư #chi_tiêu #tối_ưu_hoá #cảm_xúc.

Nguồn: https://www.forbes.com/sites/ronshevlin/2024/10/14/apple-says-generative-ai-isnt-good-at-math/

OBSERVATIONS FROM THE FINTECH SNARK TANK

Conclusions from a new Apple study might make consumers rethink using ChatGPT—and other Generative AI tools—to get financial advice. And it should temper the plans of bank and credit union executives to use artificial intelligence (AI) to offer financial advice and guidance to consumers.

Americans Use Generative AI To Get Financial Advice

A survey from the Motley Fool revealed some surprising—and, frankly, hard to believe—statistics about Americans’ use of the Generative AI tool ChatGPT for financial advice. The study found that:

  • 54% of Americans have used ChatGPT for finance recommendations. Six in 10 Gen Zers and Millennials, half of Gen Xers, and a third of Baby Boomers said they’ve received recommendations for at least one of eight financial products. Credit cards and checking accounts—cited by 26% and 23% of respondents, respectively—were the products most frequently asked about.
  • Half of consumers said they would use ChatGPT to get a recommendation. That said, few expressed in getting a recommendation in for most products. For example, 25% said they’d want a recommendation from ChatGPT for a credit card—and the percentages go down from there.
  • Respondents were “somewhat satisfied” with ChatGPT’s recommendations. On a 5-point scale (1=not satisfied, 5=very satisfied), the average overall satisfaction rating was 3.7, ranging from 3.6 from Gen Zers and Baby Boomers to 3.8 from Millennials and 3.9 from Gen Xers.

According to the study, the most important factors determining consumers’ use ChatGPT to find financial products are: 1) the performance and accuracy of the recommendations; 2) the ability to understand logic behind the recommendations; and 3) the ability to verify information the recommendation is based on.

But is the performance, accuracy—and very importantly—logic behind ChatGPT’s recommendations sound? Apple’s report cast some doubts.

Generative AI Falls Short on Mathematical Reasoning

Generative AI tools can do lots of amazing things, but, as a new report from researchers at Apple demonstrates, large language models (LLMs) have some troubling limitations with “mathematical reasoning.” The Apple researchers concluded:

“Current LLMs are not capable of genuine logical reasoning; instead, they attempt to replicate the reasoning steps observed in their training data. When we add a single clause that appears relevant to the question, we observe significant performance drops across all models. Importantly, we demonstrate that LLMs struggle even when provided with multiple examples of the same question or examples containing similar irrelevant information. This suggests deeper issues in their reasoning processes that cannot be easily mitigated through few-shot learning or fine-tuning.”

A recent TechCrunch article documented some of the seemingly simple mathematical calculations that LLMs get wrong. As the publication wrote, “Claude can’t solve basic word problems, Gemini fails to understand quadratic equations, and Llama struggles with straightforward addition.”

Why can’t LLMs do basic math? The problem, according to TechCrunch, is tokenization:

“The process of dividing data up into chunks (e.g., breaking the word “fantastic” into the syllables “fan,” “tas,” and “tic”), tokenization helps AI densely encode information. But because tokenizers — the AI models that do the tokenizing — don’t really know what numbers are, they frequently end up destroying the relationships between digits. For example, a tokenizer might treat the number “380” as one token but represent “381” as a pair of digits (“38” and “1”).”

Machine Learning Has A Problem, As Well

Annoyingly, a lot of people use the term “machine learning” when referring to regression analysis or some other form of statistical analysis. According to the University of California at Berkeley, machine learning has three components:

  • A decision process. In general, machine learning algorithms are used to make a prediction or classification. Based on some input data, which can be labeled or unlabeled, your algorithm will produce an estimate about a pattern in the data.
  • An error function. An error function evaluates the prediction of the model. If there are known examples, an error function can make a comparison to assess the accuracy of the model.
  • A model optimization process. If the model can fit better to the data points in the training set, then weights are adjusted to reduce the discrepancy between the known example and the model estimate. The algorithm will repeat this iterative “evaluate and optimize” process, updating weights autonomously until a threshold of accuracy has been met.

Regression analysis and most other forms of statistical analyses lack a model optimization process.

Here’s the real-world problem: While “investment” results are generally trackable, “spending” results are not. For the vast majority of people, however, how they spend is a bigger determinant of their financial performance than investing is.

The other challenge here is that we don’t simply spend to optimize our financial performance. We spend to optimize our emotional performance. How is a machine learning model going to track that?

AI Is Not Ready For Prime Time In Financial Advice

Providing financial advice and guidance is not a straight-forward simple task—the set of instructions needed to do it requires many “clauses.” In other words, the goals and objectives for establishing financial advice and guidance are not simple and straight-forward—and it’s these complex questions and instructions that Generative AI tools are not good at (according to Apple).

Bottom line: Banks and credit unions shouldn’t rely on AI to provide financial advice and guidance—right now. Maybe someday, but not now, and not for another 5, maybe 10, years. If vendors claim they’re using machine learning, ask them about their model optimization process. If they claim to have a large language model, ask them how it overcomes math computation limitations.


[ad_2]

Leave a Reply

Your email address will not be published. Required fields are marked *