Chào ôi, tình hình trong thế giới công nghệ đang thay đổi với tốc độ chóng mặt. Chỉ hai năm trước, AI được ca ngợi là “thế hệ tiếp theo công nghệ biến đổi để cai trị tất cả.” Nhưng giờ đây, thay vì đạt đến cấp độ Skynet và chiếm lĩnh thế giới, trớ trêu thay AI lại đang xuống cấp.
Từng là điềm báo cho một kỷ nguyên trí tuệ mới, AI giờ đây đang vấp phải mã riêng của mình và phải vật lộn để đạt được thành tựu rực rỡ mà nó đã hứa hẹn. Nhưng chính xác thì tại sao? Sự thật đơn giản là chúng ta đang thiếu vắng AI thứ khiến nó thực sự thông minh: dữ liệu do con người tạo ra.
Để cung cấp dữ liệu cho những mô hình đói dữ liệu này, các nhà nghiên cứu và tổ chức ngày càng chuyển sang sử dụng dữ liệu tổng hợp. Mặc dù thực tế này từ lâu đã trở thành một yếu tố quan trọng trong phát triển trí tuệ nhân tạo chúng ta hiện đang đi vào lãnh thổ nguy hiểm do quá dựa dẫm vào nó, gây ra sự xuống cấp dần dần của các mô hình AI.
#DataDecisionMakers #AI #DữLiệu #NgườiTạoRaDữLiệu Nguồn: https://venturebeat.com/ai/synthetic-data-has-its-limits-why-human-sourced-data-can-help-prevent-ai-model-collapse/
Tham gia các bản tin hàng ngày và hàng tuần của chúng tôi để có những cập nhật mới nhất và nội dung độc quyền về phạm vi phủ sóng AI hàng đầu trong ngành. Tìm hiểu thêm
Chao ôi, tình thế trong thế giới công nghệ thay đổi nhanh như thế nào. Chỉ hai năm trước, AI được ca ngợi là “thế hệ tiếp theo công nghệ biến đổi để cai trị tất cả.” Giờ đây, thay vì đạt đến cấp độ Skynet và chiếm lĩnh thế giới, trớ trêu thay AI lại đang xuống cấp.
Từng là điềm báo cho một kỷ nguyên trí tuệ mới, AI giờ đây đang vấp phải mã riêng của mình và phải vật lộn để đạt được thành tựu rực rỡ mà nó đã hứa hẹn. Nhưng chính xác thì tại sao? Sự thật đơn giản là chúng ta đang thiếu vắng AI thứ khiến nó thực sự thông minh: dữ liệu do con người tạo ra.
Để cung cấp dữ liệu cho những mô hình đói dữ liệu này, các nhà nghiên cứu và tổ chức ngày càng chuyển sang sử dụng dữ liệu tổng hợp. Mặc dù thực tế này từ lâu đã trở thành một yếu tố quan trọng trong phát triển trí tuệ nhân tạochúng ta hiện đang đi vào lãnh thổ nguy hiểm do quá dựa dẫm vào nó, gây ra sự xuống cấp dần dần của các mô hình AI. Và đây không chỉ là mối quan tâm nhỏ về Trò chuyệnGPT tạo ra kết quả dưới mức trung bình – hậu quả còn nguy hiểm hơn nhiều.
Khi các mô hình AI được huấn luyện dựa trên kết quả đầu ra do các lần lặp trước tạo ra, chúng có xu hướng truyền lỗi và tạo ra nhiễu, dẫn đến giảm chất lượng đầu ra. Quá trình đệ quy này biến chu trình quen thuộc “rác vào, rác ra” thành một vấn đề tự tồn tại, làm giảm đáng kể hiệu quả của hệ thống. Khi AI ngày càng tiến xa hơn sự hiểu biết giống con người và độ chính xác, nó không chỉ làm suy yếu hiệu suất mà còn gây ra những lo ngại nghiêm trọng về khả năng tồn tại lâu dài của việc dựa vào dữ liệu tự tạo để tiếp tục phát triển AI.
Nhưng đây không chỉ là sự xuống cấp của công nghệ; đó là sự suy thoái về thực tế, danh tính và tính xác thực của dữ liệu – gây ra những rủi ro nghiêm trọng cho nhân loại và xã hội. Hiệu ứng gợn sóng có thể rất sâu sắc, dẫn đến sự gia tăng các lỗi nghiêm trọng. Khi những mô hình này mất đi độ chính xác và độ tin cậy, hậu quả có thể rất nghiêm trọng – chẳng hạn như chẩn đoán sai y tế, tổn thất tài chính và thậm chí là tai nạn đe dọa tính mạng.
Một tác động lớn khác là sự phát triển AI có thể hoàn toàn bị đình trệ, khiến hệ thống AI không thể tiếp thu dữ liệu mới và về cơ bản là bị “mắc kẹt trong thời gian”. Sự trì trệ này sẽ không chỉ cản trở sự tiến bộ mà còn khiến AI rơi vào chu kỳ lợi nhuận giảm dần, với những tác động thảm khốc tiềm tàng đối với công nghệ và xã hội.
Nhưng thực tế mà nói, doanh nghiệp có thể làm gì để đảm bảo an toàn cho khách hàng và người dùng? Trước khi trả lời câu hỏi đó, chúng ta cần hiểu tất cả điều này hoạt động như thế nào.
Khi một mô hình sụp đổ, độ tin cậy sẽ biến mất
Nội dung do AI tạo ra càng lan truyền trực tuyến thì nội dung đó sẽ xâm nhập vào các bộ dữ liệu và sau đó là chính các mô hình càng nhanh. Và nó đang diễn ra với tốc độ ngày càng nhanh, khiến các nhà phát triển ngày càng khó lọc ra bất kỳ thứ gì không phải là dữ liệu đào tạo thuần túy do con người tạo ra. Thực tế là, việc sử dụng nội dung tổng hợp trong đào tạo có thể gây ra hiện tượng bất lợi được gọi là “sụp đổ mô hình” hoặc “rối loạn tự thực kiểu mẫu (ĐIÊN RỒ).”
Sự sụp đổ mô hình là quá trình thoái hóa trong đó các hệ thống AI dần dần mất khả năng nắm bắt được cách phân phối dữ liệu cơ bản thực sự mà chúng dự định lập mô hình. Điều này thường xảy ra khi AI được đào tạo đệ quy về nội dung mà nó tạo ra, dẫn đến một số vấn đề:
- Mất sắc thái: Các mô hình bắt đầu quên dữ liệu ngoại lệ hoặc thông tin ít được trình bày hơn, điều này rất quan trọng để hiểu toàn diện về bất kỳ tập dữ liệu nào.
- Giảm sự đa dạng: Có sự suy giảm rõ rệt về tính đa dạng và chất lượng đầu ra do các mô hình tạo ra.
- Khuếch đại sai lệch: Những thành kiến hiện tại, đặc biệt là đối với các nhóm bị thiệt thòi, có thể trở nên trầm trọng hơn do mô hình bỏ qua dữ liệu có nhiều sắc thái có thể giảm thiểu những thành kiến này.
- Tạo ra các kết quả đầu ra vô nghĩa: Theo thời gian, các mô hình có thể bắt đầu tạo ra các kết quả đầu ra hoàn toàn không liên quan hoặc vô nghĩa.
Một trường hợp điển hình: Một nghiên cứu được công bố trên Thiên nhiên nhấn mạnh sự thoái hóa nhanh chóng của các mô hình ngôn ngữ được đào tạo đệ quy trên văn bản do AI tạo ra. Đến lần lặp thứ chín, người ta phát hiện ra rằng những mô hình này đang tạo ra nội dung hoàn toàn không liên quan và vô nghĩa, chứng tỏ chất lượng dữ liệu và tiện ích của mô hình đang suy giảm nhanh chóng.
Bảo vệ tương lai của AI: Các bước doanh nghiệp có thể thực hiện ngay hôm nay
Các tổ chức doanh nghiệp đang ở vị trí đặc biệt để định hình tương lai của AI một cách có trách nhiệm và có những bước rõ ràng, khả thi mà họ có thể thực hiện để giữ cho hệ thống AI luôn chính xác và đáng tin cậy:
- Đầu tư vào các công cụ xuất xứ dữ liệu: Các công cụ theo dõi từng phần dữ liệu đến từ đâu và nó thay đổi như thế nào theo thời gian giúp các công ty tin tưởng vào đầu vào AI của họ. Với khả năng hiển thị rõ ràng về nguồn gốc dữ liệu, các tổ chức có thể tránh cung cấp các mô hình cung cấp thông tin không đáng tin cậy hoặc sai lệch.
- Triển khai các bộ lọc được hỗ trợ bởi AI để phát hiện nội dung tổng hợp: Bộ lọc nâng cao có thể bắt do AI tạo ra hoặc nội dung chất lượng thấp trước khi được đưa vào tập dữ liệu huấn luyện. Những bộ lọc này giúp đảm bảo rằng các mô hình đang học hỏi từ thông tin xác thực do con người tạo ra thay vì dữ liệu tổng hợp thiếu độ phức tạp trong thế giới thực.
- Hợp tác với các nhà cung cấp dữ liệu đáng tin cậy: Mối quan hệ chặt chẽ với các nhà cung cấp dữ liệu đã được kiểm duyệt mang lại cho các tổ chức nguồn cung cấp dữ liệu xác thực, chất lượng cao ổn định. Điều này có nghĩa là các mô hình AI nhận được thông tin thực tế, có sắc thái phản ánh các tình huống thực tế, giúp tăng cả hiệu suất và mức độ liên quan.
- Thúc đẩy kiến thức và nhận thức về kỹ thuật số: Bằng cách giáo dục các nhóm và khách hàng về tầm quan trọng của tính xác thực dữ liệu, các tổ chức có thể giúp mọi người nhận ra nội dung do AI tạo ra và hiểu được những rủi ro của dữ liệu tổng hợp. Xây dựng nhận thức về việc sử dụng dữ liệu có trách nhiệm sẽ thúc đẩy nền văn hóa coi trọng tính chính xác và tính toàn vẹn trong phát triển AI.
Tương lai của AI phụ thuộc vào hành động có trách nhiệm. Các doanh nghiệp có cơ hội thực sự để giữ cho AI có nền tảng chính xác và toàn vẹn. Bằng cách chọn dữ liệu thực, có nguồn gốc từ con người thay vì các phím tắt, ưu tiên các công cụ bắt và lọc nội dung chất lượng thấp, đồng thời khuyến khích nhận thức về tính xác thực kỹ thuật số, các tổ chức có thể đưa AI đi theo con đường an toàn hơn, thông minh hơn. Hãy tập trung vào việc xây dựng một tương lai nơi AI vừa mạnh mẽ vừa thực sự mang lại lợi ích cho xã hội.
Rick Song là CEO và đồng sáng lập của nhân cách.
Người đưa ra quyết định dữ liệu
Chào mừng đến với cộng đồng VentureBeat!
DataDecisionMakers là nơi các chuyên gia, bao gồm cả những người kỹ thuật làm công việc về dữ liệu, có thể chia sẻ những hiểu biết sâu sắc và đổi mới liên quan đến dữ liệu.
Nếu bạn muốn đọc về những ý tưởng tiên tiến và thông tin cập nhật, các phương pháp hay nhất cũng như tương lai của dữ liệu và công nghệ dữ liệu, hãy tham gia cùng chúng tôi tại DataDecisionMakers.
Bạn thậm chí có thể cân nhắc đóng góp một bài viết của riêng bạn!