Giải quyết vấn đề chất lượng dữ liệu với AI và ML: Tìm hiểu bot tốt và bot dở

admin

2 years ago

#ChuyểnĐổi2023 #AI #ML #DữLiệu #Bot #SanFrancisco

Tham gia sự kiện Chuyển Đổi 2023 cùng các giám đốc điều hành hàng đầu tại San Francisco vào ngày 11-12 tháng 7 để tìm hiểu cách tích hợp và tối ưu hóa khoản đầu tư vào AI để đạt được thành công và tránh những cạm bẫy phổ biến.

Trong khi bot là cốt lõi để vận hành internet, chúng ta cũng cần phải đối phó với các bot xấu, chiếm gần 28% tổng lưu lượng truy cập trang web.

Tuy nhiên, bot cũng có thể là câu trả lời cho các vấn đề về dữ liệu chất lượng thấp bằng cách sử dụng AI và ML để phân tách dữ liệu và sử dụng các bot tốt để đảm bảo chất lượng dữ liệu.

Để đạt được điều này, ta cần tạo thước đo chất lượng, xem xét mức độ phản hồi và xem xa hơn dữ liệu để xác định các xu hướng và xây dựng một mô hình dữ liệu chất lượng cao nhất quán.

Với sự phát triển của trí tuệ nhân tạo, các bot cũng có thể vượt qua các vết nứt chỉ bằng điểm chất lượng, do đó, ta cần quản lý các quy trình này để đạt được chất lượng có thể chống lại được AI.

Nguồn: https://venturebeat.com/ai/good-bot-bad-bot-using-ai-and-ml-to-solve-data-quality-problems/

Tham gia cùng các giám đốc điều hành hàng đầu tại San Francisco vào ngày 11-12 tháng 7, để nghe cách các nhà lãnh đạo đang tích hợp và tối ưu hóa các khoản đầu tư AI để thành công. Tìm hiểu thêm

Hơn 40% của tất cả lưu lượng truy cập trang web vào năm 2021 thậm chí không phải là con người.

Điều này nghe có vẻ đáng báo động, nhưng nó không hẳn là một điều xấu; bot là cốt lõi để vận hành internet. Chúng làm cho cuộc sống của chúng ta dễ dàng hơn theo những cách không phải lúc nào cũng rõ ràng, chẳng hạn như nhận thông báo đẩy về các chương trình khuyến mãi và giảm giá.

Nhưng, tất nhiên, có những bot xấu và chúng chiếm gần 28% tổng lưu lượng truy cập trang web. Từ thư rác, chiếm đoạt tài khoản, thu thập thông tin cá nhân và phần mềm độc hại, đó thường là cách bot được mọi người triển khai để phân biệt điều tốt và điều xấu.

Với việc tung ra AI tổng quát có thể truy cập như ChatGPT, sẽ khó phân biệt được đâu là điểm kết thúc của bot và đâu là điểm bắt đầu của con người. Các hệ thống này đang trở nên tốt hơn với khả năng lập luận: GPT-4 đã vượt qua kỳ thi luật sư trong tôp 10% số người làm bài kiểm tra và bot thậm chí đã đánh bại kiểm tra CAPTCHA.

Sự kiện

Chuyển đổi 2023

Hãy tham gia cùng chúng tôi tại San Francisco vào ngày 11-12 tháng 7, nơi các giám đốc điều hành hàng đầu sẽ chia sẻ cách họ đã tích hợp và tối ưu hóa các khoản đầu tư vào AI để đạt được thành công và tránh những cạm bẫy phổ biến.

Đăng ký ngay

Theo nhiều cách, chúng tôi có thể đi đầu trong số lượng lớn bot quan trọng trên internet và đó có thể là một vấn đề nghiêm trọng đối với dữ liệu người tiêu dùng.

Mối đe dọa hiện hữu

Các công ty chi khoảng 90 tỷ USD về nghiên cứu thị trường mỗi năm để giải mã các xu hướng, hành vi và nhân khẩu học của khách hàng.

Nhưng ngay cả với đường dây trực tiếp này tới người tiêu dùng, tỷ lệ thất bại trong đổi mới là rất lớn. Catalina dự đoán rằng tỷ lệ thất bại của hàng tiêu dùng đóng gói (CPG) đang ở mức khủng khiếp 80%trong khi Đại học Toronto phát hiện ra rằng 75% sản phẩm tạp hóa mới thất bại.

Điều gì sẽ xảy ra nếu dữ liệu mà những người sáng tạo này dựa vào bị đánh đố bởi các phản hồi do AI tạo ra và không thực sự đại diện cho suy nghĩ và cảm xúc của người tiêu dùng? Chúng ta sẽ sống trong một thế giới nơi các doanh nghiệp thiếu các nguồn lực cơ bản để thông báo, xác thực và truyền cảm hứng cho những ý tưởng tốt nhất của họ, khiến tỷ lệ thất bại tăng vọt, một cuộc khủng hoảng mà họ không thể gánh nổi ngay bây giờ.

Bot đã tồn tại trong một thời gian dài và phần lớn nghiên cứu thị trường dựa vào các quy trình thủ công và bản năng để phân tích, giải thích và loại bỏ những người trả lời chất lượng thấp như vậy.

Nhưng trong khi con người rất xuất sắc trong việc đưa lý do vào dữ liệu, chúng tôi không có khả năng giải mã bot từ con người trên quy mô lớn. Thực tế đối với dữ liệu người tiêu dùng là mối đe dọa mới xuất hiện của mô hình ngôn ngữ lớn (LLM) sẽ sớm thay thế các quy trình thủ công của chúng tôi, qua đó chúng tôi có thể xác định các bot xấu.

Bot xấu, gặp bot tốt

Khi bot có thể là một vấn đề, chúng cũng có thể là câu trả lời. Bằng cách tạo ra một cách tiếp cận nhiều lớp bằng AI, bao gồm các mô hình học sâu hoặc học máy (ML), các nhà nghiên cứu có thể tạo ra các hệ thống để phân tách dữ liệu chất lượng thấp và dựa vào các bot tốt để thực hiện chúng.

Công nghệ này rất lý tưởng để phát hiện các mẫu tinh vi mà con người có thể dễ dàng bỏ qua hoặc không hiểu. Và nếu được quản lý đúng cách, các quy trình này có thể cung cấp các thuật toán ML để liên tục đánh giá và làm sạch dữ liệu nhằm đảm bảo chất lượng có thể chống lại được AI.

Đây là cách:

Tạo thước đo chất lượng

Thay vì chỉ dựa vào sự can thiệp thủ công, các nhóm có thể đảm bảo chất lượng bằng cách tạo một hệ thống tính điểm mà qua đó họ xác định các chiến thuật bot phổ biến. Việc xây dựng thước đo chất lượng đòi hỏi sự chủ quan để thực hiện. Các nhà nghiên cứu có thể đặt rào cản cho các phản ứng giữa các yếu tố. Ví dụ:

Xác suất thư rác: Các phản hồi có được tạo thành từ nội dung được chèn hoặc cắt và dán không?
Vô nghĩa: Một câu trả lời của con người sẽ chứa tên thương hiệu, danh từ riêng hoặc lỗi chính tả, nhưng thường dẫn đến một câu trả lời có sức thuyết phục.
Bỏ qua các câu hỏi gợi nhớ: Mặc dù AI có thể dự đoán đầy đủ từ tiếp theo trong một chuỗi, nhưng chúng không thể tái tạo ký ức cá nhân.

Những kiểm tra dữ liệu này có thể chủ quan – đó là điểm chính. Hơn bao giờ hết, chúng ta cần nghi ngờ dữ liệu và xây dựng các hệ thống để chuẩn hóa chất lượng. Bằng cách áp dụng một hệ thống điểm cho những đặc điểm này, các nhà nghiên cứu có thể tổng hợp điểm tổng hợp và loại bỏ dữ liệu chất lượng thấp trước khi chuyển sang lớp kiểm tra tiếp theo.

Nhìn vào chất lượng đằng sau dữ liệu

Với sự gia tăng của trí tuệ nhân tạo giống con người, các bot có thể vượt qua các vết nứt chỉ bằng điểm chất lượng. Đây là lý do tại sao bắt buộc phải tạo lớp các tín hiệu này với dữ liệu xung quanh chính đầu ra. Những người thực sự dành thời gian để đọc, đọc lại và phân tích trước khi trả lời; những kẻ xấu thường không làm vậy, đó là lý do tại sao điều quan trọng là phải xem xét mức độ phản hồi để hiểu xu hướng của diễn viên xấu.

Các yếu tố như thời gian phản hồi, sự lặp lại và sự thấu hiểu sâu sắc có thể vượt ra ngoài mức độ bề mặt để phân tích sâu bản chất của các phản hồi. Nếu các câu trả lời quá nhanh hoặc các câu trả lời gần như giống hệt nhau được ghi lại trong một (hoặc nhiều cuộc khảo sát), thì đó có thể là dấu hiệu cho thấy dữ liệu có chất lượng thấp. Cuối cùng, vượt qua những câu trả lời vô nghĩa để xác định các yếu tố tạo nên câu trả lời sâu sắc — bằng cách xem xét nghiêm túc độ dài của câu trả lời và chuỗi hoặc số lượng tính từ — có thể loại bỏ những câu trả lời có chất lượng thấp nhất.

Bằng cách nhìn xa hơn dữ liệu rõ ràng, chúng ta có thể thiết lập các xu hướng và xây dựng một mô hình dữ liệu chất lượng cao nhất quán.

Nhận AI để dọn dẹp cho bạn

Đảm bảo dữ liệu chất lượng cao không phải là quy trình “thiết lập và quên nó đi”; nó yêu cầu kiểm duyệt và nhập dữ liệu tốt — và xấu — một cách nhất quán để đạt được mục tiêu đang di chuyển là chất lượng dữ liệu. Con người đóng một vai trò không thể thiếu trong bánh đà này, nơi họ thiết lập hệ thống và sau đó ngồi phía trên dữ liệu để phát hiện các mẫu ảnh hưởng đến tiêu chuẩn, sau đó đưa các tính năng này trở lại mô hình, bao gồm cả các mục bị từ chối.

Dữ liệu hiện tại của bạn cũng không miễn dịch. Dữ liệu hiện tại không nên cố định mà phải tuân theo các tiêu chuẩn nghiêm ngặt giống như dữ liệu mới. Bằng cách thường xuyên làm sạch cơ sở dữ liệu quy chuẩn và điểm chuẩn lịch sử, bạn có thể đảm bảo rằng mọi phần dữ liệu mới đều được đo lường dựa trên điểm so sánh chất lượng cao, mở ra khả năng ra quyết định linh hoạt và tự tin hơn trên quy mô lớn.

Sau khi có các điểm số này, phương pháp này có thể được nhân rộng trên các khu vực để xác định các thị trường có rủi ro cao, nơi có thể cần can thiệp thủ công.

Chống lại AI bất chính với AI tốt

Ngành nghiên cứu thị trường đang ở ngã ba đường; chất lượng dữ liệu đang xấu đi và các bot sẽ sớm chiếm một phần lưu lượng truy cập internet thậm chí còn lớn hơn. Sẽ không lâu nữa và các nhà nghiên cứu nên hành động nhanh chóng.

Nhưng giải pháp là chống lại AI bất chính bằng AI tốt. Điều này sẽ cho phép một bánh đà tốt quay; hệ thống trở nên thông minh hơn khi các mô hình thu thập nhiều dữ liệu hơn. Kết quả là chất lượng dữ liệu được cải thiện liên tục. Quan trọng hơn, điều đó có nghĩa là các công ty có thể tin tưởng vào nghiên cứu thị trường của họ để đưa ra các quyết định chiến lược tốt hơn nhiều.

Jack Millership là trưởng nhóm chuyên môn về dữ liệu tại Zappi.

Dữ liệuNgười ra quyết định

Chào mừng bạn đến với cộng đồng VentureBeat!

DataDecisionMakers là nơi các chuyên gia, bao gồm cả những người kỹ thuật làm công việc dữ liệu, có thể chia sẻ những hiểu biết và đổi mới liên quan đến dữ liệu.

Nếu bạn muốn đọc về các ý tưởng tiên tiến và thông tin cập nhật, các phương pháp hay nhất cũng như tương lai của dữ liệu và công nghệ dữ liệu, hãy tham gia cùng chúng tôi tại DataDecisionMakers.

Bạn thậm chí có thể xem xét đóng góp một bài viết của riêng bạn!

Đọc thêm từ DataDecisionMakers