OpenAI tìm kiếm cách cải thiện trí tuệ nhân tạo thông qua dữ liệu huấn luyện đa dạng hơn

admin

1 year ago

OpenAI nhằm cải thiện trí tuệ nhân tạo với dữ liệu huấn luyện rộng hơn #OpenAI #AI #DataPartnerships

Công ty nghiên cứu trí tuệ nhân tạo OpenAI đã công bố một sự kiện mới tuần này nhằm mục tiêu đa dạng hóa và mở rộng dữ liệu được sử dụng để huấn luyện các mô hình AI có tên gọi là Data Partnerships. Qua chương trình này, OpenAI dự định hợp tác với các tổ chức bên thứ ba để xây dựng các bộ dữ liệu mới công cộng và tư nhân cho việc huấn luyện trí tuệ nhân tạo.

Mục tiêu của OpenAI là tạo ra các mô hình công bằng, chính xác và có lợi ích hơn bằng cách tiếp xúc với một loạt dữ liệu đa dạng hơn, với ngôn ngữ, văn hóa và các chủ đề đa dạng hơn. Các bộ dữ liệu trí tuệ nhân tạo hiện tại thường gặp vấn đề như chủ quan chiến trường phương Tây, thiếu đa dạng và bao gồm nội dung độc hại hoặc thiên vị.

“Bắt buộc tạo (AI) đó an toàn và có lợi ích cho toàn nhân loại, chúng tôi muốn các mô hình AI hiểu sâu vấn đề, ngành công nghiệp, văn hoá và ngôn ngữ, điều này đòi hỏi một bộ dữ liệu huấn luyện càng rộng lớn càng tốt,” OpenAI lưu lại trong một bài viết blog thông báo về chương trình.

Bằng cách hợp tác với các đối tác để thu thập các bộ dữ liệu quy mô lớn qua các phương thức như văn bản, hình ảnh, âm thanh và video, OpenAI hy vọng cải thiện sự hiểu biết mô hình hơn so với những gì có thể được thu thập dễ dàng từ internet ngày nay. Công ty cho biết họ sẽ làm việc để loại bỏ bất kỳ thông tin nhạy cảm hay cá nhân nào và sẽ cung cấp các lựa chọn để giữ bộ dữ liệu tư nhân.

OpenAI đã hợp tác với các tổ chức như chính phủ Iceland, Dự án Luật Miễn phí và Miðeind ehf trên các phiên bản sớm của chương trình. Tuy nhiên, một số chuyên gia thể hiện sự hoài nghi về liệu nỗ lực này có thành công trong việc giảm thiểu các thiên vị sâu rễ đã ảnh hưởng đến các mô hình trí tuệ nhân tạo cho đến nay.

“Danh sách chung, chúng tôi đang tìm kiếm các đối tác muốn giúp chúng tôi dạy cho AI hiểu về thế giới để có thể hữu ích lớn nhất cho mọi người,” OpenAI nói.

Trong khi việc đa dạng hóa dữ liệu huấn luyện AI là cần thiết, chương trình cũng rõ ràng sẽ hưởng lợi cho các mô hình OpenAI như GPT-4 một cách thương mại. Sự động viên kép này, cùng với việc OpenAI không có phần thưởng cho các đối tác dữ liệu, đã thu hút một số chỉ trích trong bối cảnh các cáo buộc về việc sử dụng dữ liệu mà không cần phép mà công ty đang đối mặt.

Việc minh bạch lớn hơn xung quanh việc thu thập bộ dữ liệu của OpenAI, các nỗ lực làm giảm thiểu thiên vị và quyền lợi thương mại sẽ là yếu tố quan trọng để đánh giá tác động của Data Partnerships đối với cảnh quan AI nói chung. Nhưng chương trình này cho thấy sự nhận thức rằng việc cải thiện tương lai trí tuệ nhân tạo yêu cầu bắt đầu từ những dữ liệu tốt hơn, đa dạng hơn.

Ảnh nổi bật: Ảnh bởi Andrew Neel; Pexels; Cảm ơn bạn!

Nguồn: https://readwrite.com/openai-seeks-to-improve-ai-with-broader-training-data/

Artificial intelligence research company OpenAI announced a new initiative this week aimed at diversifying and expanding the data used to train AI models called Data Partnerships. Through the program, OpenAI plans to collaborate with third-party organizations to build new public and private datasets for AI training.

Aiming to be more fair and accurate, OpenAI wants to present better data

According to OpenAI, the goal is to create more fair, accurate, and beneficial models by exposing them to a broader range of data that better reflects diverse languages, cultures, and subject matters. Current AI datasets tend to suffer from issues like Western-centrism, lack of diversity, and inclusion of toxic or biased content.

“To ultimately make (AI) that is safe and beneficial to all of humanity, we’d like AI models to deeply understand all subject matters, industries, cultures, and languages, which requires as broad a training data set as possible,” OpenAI said in a blog post announcing the program.

Models and understanding across platforms can happen with training

By working with partners to collect large-scale datasets across modalities like text, images, audio, and video, OpenAI hopes to improve model understanding beyond what can easily be scraped from the internet today. The company says it will work to remove any sensitive or personal information and will offer options for keeping datasets private.

OpenAI has already partnered with organizations like the Icelandic government, Free Law Project, and Miðeind ehf on early versions of the program. However, some experts express skepticism about whether the effort will successfully minimize the deep-rooted biases that have impacted AI models thus far.

“Overall, we are seeking partners who want to help us teach AI to understand our world in order to be maximally helpful to everyone,” OpenAI said.

Diversification of AI training data for the GPT-4 to improve

While diversifying AI training data is essential, the program also clearly stands to benefit OpenAI models like GPT-4 commercially. This perceived dual motivation, along with OpenAI’s lack of compensation for data partners, has drawn some criticism in light of accusations around the company’s use of data without permission.

Greater transparency around OpenAI’s dataset collection, bias mitigation efforts, and commercial interests will be key to gauging the impact of Data Partnerships on the AI landscape overall. But the program signifies an awareness that improving future AI requires starting with better, more representative data.

Featured Image Credit: Photo by Andrew Neel; Pexels; Thank you!

Radek Zielinski

Radek Zielinski is an experienced technology and financial journalist with a passion for cybersecurity and futurology.