Apple cho biết họ đã áp dụng một cách tiếp cận ‘đáng trách’ trong việc đào tạo các mô hình Trí tuệ Apple
Apple đã công bố một bài báo kỹ thuật mô tả các mô hình mà họ phát triển để cung cấp sức mạnh cho Trí tuệ Apple, loạt tính năng trí tuệ nhân tạo sẽ sớm xuất hiện trên iOS, macOS và iPadOS trong vài tháng tới.
Trong bài báo, Apple đánh trả lại những cáo buộc rằng họ đã áp dụng cách tiếp cận đào tạo mô hình một cách đạo đức nhất định, nhấn mạnh rằng họ không sử dụng dữ liệu cá nhân và đã kết hợp dữ liệu công khai và được cấp phép cho Trí tuệ Apple.
“Bộ dư liệu trước khi đào tạo bao gồm… dữ liệu mà chúng tôi đã được cấp phép từ các nhà xuất bản, bộ dữ liệu công khai hoặc mã nguồn mở và thông tin công khai được lấy từ máy tìm kiếm trên web của chúng tôi, Applebot,” Apple viết trong bài báo. “Với sự tập trung của chúng tôi vào việc bảo vệ quyền riêng tư người dùng, chúng tôi lưu ý rằng không có dữ liệu cá nhân của người dùng Apple được bao gồm trong hỗn hợp dữ liệu.”
Trong tháng Bảy, Proof News đưa tin rằng Apple đã sử dụng một bộ dữ liệu mang tên The Pile, chứa phụ đề từ hàng trăm nghìn video trên YouTube, để đào tạo một loạt mô hình được thiết kế cho xử lý trên thiết bị. Nhiều tác giả trên YouTube với phụ đề bị thu thập trong The Pile không nhận thức và không đồng ý với việc này; sau đó, Apple đã phát hành một tuyên bố nói rằng họ không có ý định sử dụng những mô hình đó để cung cấp bất kỳ tính năng trí tuệ nhân tạo trong sản phẩm của mình.
Bài báo kỹ thuật, mở rộng về các mô hình mà Apple lần đầu tiên thông báo tại WWDC 2024 vào tháng Sáu, gọi là Mô hình Nền tảng Apple (AFM), nhấn mạnh rằng dữ liệu đào tạo cho các mô hình AFM được khai thác một cách “đáng trách” — hoặc ít nhất là theo định nghĩa của Apple.
Dữ liệu đào tạo cho các mô hình AFM bao gồm dữ liệu web công khai cũng như dữ liệu được cấp phép từ các nhà xuất bản không được tiết lộ. Theo The New York Times, Apple tiếp xúc với một số nhà xuất bản vào cuối năm 2023, bao gồm NBC, Condé Nast và IAC, về các thỏa thuận đa năm trị giá ít nhất là 50 triệu USD để đào tạo mô hình trên lưu trữ tin tức của nhà xuất bản. Các mô hình AFM của Apple cũng được đào tạo trên mã nguồn mở được lưu trữ trên GitHub, cụ thể là mã Swift, Python, C, Objective-C, C++, JavaScript, Java và Go.
Đào tạo các mô hình trên mã nguồn mà không cần sự cho phép, ngay cả là mã nguồn mở, là một điểm tranh cãi giữa các nhà phát triển. Một số nhóm mã nguồn mở không được cấp phép hoặc không cho phép đào tạo AI trong các điều khoản sử dụng của họ, một số nhà phát triển bảo. Nhưng Apple nói rằng họ đã “lọc dữ liệu cấp phép” để cố gắng bao gồm chỉ các kho mã nguồn có hạn chế sử dụng nhất định, như những kho mã có giấy phép MIT, ISC hoặc Apache.
Để tăng cường kỹ năng toán học của các mô hình AFM, Apple cụ thể đã bao gồm trong tập dữ liệu đào tạo các câu hỏi và câu trả lời toán học từ các trang web, diễn đàn toán học, blog, hướng dẫn và các buổi hội thảo, theo bài báo. Công ty cũng sử dụng các tập dữ liệu “chất lượng cao, công khai” (mà bài báo không đặt tên) với “các giấy phép cho phép sử dụng cho đào tạo… các mô hình,” đã được lọc để loại bỏ thông tin nhạy cảm.
Tổng cộng, tập dữ liệu đào tạo cho các mô hình AFM có trọng lượng khoảng 6.3 ngàn tỉ token. (Token là các mảnh dữ liệu nhỏ gọn mà thông thường dễ tiêu thụ cho các mô hình trí tuệ nhân tạo tạo.) So với đó, đó chỉ là chưa đến một nửa số token — 15 ngàn tỉ — Meta sử dụng để đào tạo mô hình tạo văn bản của họ, Llama 3.1 405B.
Apple đã khai thác các dữ liệu bổ sung, bao gồm dữ liệu từ phản hồi của con người và dữ liệu tổng hợp, để điều chỉnh các mô hình AFM và cố gắng giảm thiểu bất kỳ hành vi không mong muốn nào, như khi phun ra chất độc hại.
“Các mô hình của chúng tôi đã được tạo ra với mục đích giúp người dùng thực hiện các hoạt động hàng ngày trên các sản phẩm Apple của họ, dựa trên các giá trị cốt lõi của Apple và cở sở trong nguyên tắc trí tuệ nhân tạo đáng trách ở mọi giai đoạn,” công ty nói.
Không có bằng chứng đáng ngờ hoặc cái nhìn gì gây sốc trong bài báo — và đó là vì thiết kế cẩn thận. Hiếm khi những bài báo như vậy có nhiều thông tin mở ra, do áp lực cạnh tranh nhưng cũng vì tiết lộ quá nhiều có thể khiến các công ty rơi vào rắc rối pháp lý.
Một số công ty đào tạo mô hình bằng cách tìm kiếm dữ liệu web công khai khẳng định rằng việc này được bảo vệ bởi quy định sử dụng hợp lý. Nhưng đây là một vấn đề vẫn đang đang tranh cãi và là chủ đề của một số vụ kiện ngày càng tăng.
Apple ghi chú trong bài báo rằng họ cho phép các webmaster ngăn chặn máy tìm kiếm của họ khỏi thu thập dữ liệu. Nhưng điều này để lại các người sáng tạo đơn lẻ một tình thế khó khăn. Một nghệ sỹ phải làm gì nếu, ví dụ, bộ sưu tập của họ được lưu trữ trên một trang web từ chối ngăn chặn việc thu thập dữ liệu của Apple?
Các cuộc chiến tại toà sẽ quyết định số phận của các mô hình trí tuệ nhân tạo và cách chúng được đào tạo. Tuy nhiên, hiện tại, Apple đang cố gắng định vị mình là một người chơi đạo đức trong khi tránh bị kiểm tra pháp lý không mong muốn.
#AppleIntelligence #TríTuệApple #MôHìnhNềnTảngApple
Apple has published a technical paper detailing the models that it developed to power Apple Intelligence, the range of generative AI features headed to iOS, macOS and iPadOS over the next few months.
In the paper, Apple pushes back against accusations that it took an ethically questionable approach to training some of its models, reiterating that it didn’t use private user data and drew on a combination of publicly available and licensed data for Apple Intelligence.
“(The) pre-training data set consists of … data we have licensed from publishers, curated publicly available or open-sourced datasets and publicly available information crawled by our web crawler, Applebot,” Apple writes in the paper. “Given our focus on protecting user privacy, we note that no private Apple user data is included in the data mixture.”
In July, Proof News reported that Apple used a data set called The Pile, which contains subtitles from hundreds of thousands of YouTube videos, to train a family of models designed for on-device processing. Many YouTube creators whose subtitles were swept up in The Pile weren’t aware of and didn’t consent to this; Apple later released a statement saying that it didn’t intend to use those models to power any AI features in its products.
The technical paper, which peels back the curtains on models Apple first revealed at WWDC 2024 in June, called Apple Foundation Models (AFM), emphasizes that the training data for the AFM models was sourced in a “responsible” way — or responsible by Apple’s definition, at least.
The AFM models’ training data includes publicly available web data as well as licensed data from undisclosed publishers. According to The New York Times, Apple reached out to several publishers toward the end of 2023, including NBC, Condé Nast and IAC, about multi-year deals worth at least $50 million to train models on publishers’ news archives. Apple’s AFM models were also trained on open source code hosted on GitHub, specifically Swift, Python, C, Objective-C, C++, JavaScript, Java and Go code.
Training models on code without permission, even open code, is a point of contention among developers. Some open source codebases aren’t licensed or don’t allow for AI training in their terms of use, some developers argue. But Apple says that it “license-filtered” for code to try to include only repositories with minimal usage restrictions, like those under an MIT, ISC or Apache license.
To boost the AFM models’ mathematics skills, Apple specifically included in the training set math questions and answers from webpages, math forums, blogs, tutorials and seminars, according to the paper. The company also tapped “high-quality, publicly-available” data sets (which the paper doesn’t name) with “licenses that permit use for training … models,” filtered to remove sensitive information.
All told, the training data set for the AFM models weighs in at about 6.3 trillion tokens. (Tokens are bite-sized pieces of data that are generally easier for generative AI models to ingest.) For comparison, that’s less than half the number of tokens — 15 trillion — Meta used to train its flagship text-generating model, Llama 3.1 405B.
Apple sourced additional data, including data from human feedback and synthetic data, to fine-tune the AFM models and attempt to mitigate any undesirable behaviors, like spouting toxicity.
“Our models have been created with the purpose of helping users do everyday activities across their Apple products, grounded
in Apple’s core values, and rooted in our responsible AI principles at every stage,” the company says.
There’s no smoking gun or shocking insight in the paper — and that’s by careful design. Rarely are papers like these very revealing, owing to competitive pressures but also because disclosing too much could land companies in legal trouble.
Some companies training models by scraping public web data assert that their practice is protected by fair use doctrine. But it’s a matter that’s very much up for debate and the subject of a growing number of lawsuits.
Apple notes in the paper that it allows webmasters to block its crawler from scraping their data. But that leaves individual creators in a lurch. What’s an artist to do if, for example, their portfolio is hosted on a site that refuses to block Apple’s data scraping?
Courtroom battles will decide the fate of generative AI models and the way they’re trained. For now, though, Apple’s trying to position itself as an ethical player while avoiding unwanted legal scrutiny.