Google đã công bố mã nguồn mở công cụ watermarking cho văn bản do trí tuệ nhân tạo tạo ra

Google đã công bố mã nguồn mở công cụ đóng dấu cho văn bản được tạo ra bởi trí tuệ nhân tạo. Mô hình ngôn ngữ học sâu (LLM) tạo ra văn bản một token mỗi lần. Những token này có thể biểu diễn cho một ký tự, từ hoặc phần của một cụm từ. Để tạo ra một chuỗi văn bản logic, mô hình dự đoán token tiếp theo có khả năng xuất hiện nhất để tạo ra. Những dự đoán này dựa trên các từ trước đó và điểm số xác suất được gán cho mỗi token tiềm năng.

Ví dụ, với câu “Những loại trái nhiệt đới yêu thích của tôi là __.” LLM có thể bắt đầu hoàn thành câu đó với các token “xoài,” “vải,” “du du,” hoặc “sầu riêng,” và mỗi token được gán một điểm số xác suất. Khi có nhiều token khác nhau để chọn, SynthID có thể điều chỉnh điểm số xác suất của mỗi token dự đoán, trong những trường hợp không ảnh hưởng đến chất lượng, độ chính xác và sáng tạo của kết quả.

Quy trình này được lặp lại trong toàn bộ văn bản được tạo ra, vì vậy một câu đơn có thể chứa mười hoặc nhiều hơn điểm số xác suất điều chỉnh, và một trang có thể chứa hàng trăm. Mẫu kết quả cuối cùng của điểm số cho cả sự lựa chọn từ ngôn ngữ của mô hình kết hợp với điểm số xác suất được điều chỉnh được coi là dấu dấu của văn bản đó. #Google #AI #côngcụ #mãnguồnmở #sựkiện

Nguồn: https://www.theverge.com/2024/10/23/24277873/google-artificial-intelligence-synthid-watermarking-open-source

An LLM generates text one token at a time. These tokens can represent a single character, word or part of a phrase. To create a sequence of coherent text, the model predicts the next most likely token to generate. These predictions are based on the preceding words and the probability scores assigned to each potential token.

For example, with the phrase “My favorite tropical fruits are __.” The LLM might start completing the sentence with the tokens “mango,” “lychee,” “papaya,” or “durian,” and each token is given a probability score. When there’s a range of different tokens to choose from, SynthID can adjust the probability score of each predicted token, in cases where it won’t compromise the quality, accuracy and creativity of the output.

This process is repeated throughout the generated text, so a single sentence might contain ten or more adjusted probability scores, and a page could contain hundreds. The final pattern of scores for both the model’s word choices combined with the adjusted probability scores are considered the watermark.


[ad_2]

Leave a Reply

Your email address will not be published. Required fields are marked *