OpenAI đính chính bằng cách đe dọa cấm người dùng khi họ khám phá các mô hình AI “Dâu”

OpenAI thực sự không muốn bạn biết mô hình AI mới nhất của họ đang “nghĩ” gì. Kể từ khi công ty ra mắt gia đình mô hình AI “Dâu” của họ vào tuần trước, quảng cáo với khả năng lý do gọi là o1-preview và o1-mini, OpenAI đã gửi email cảnh báo và đe dọa cấm bất kỳ người dùng nào cố gắng khám phá cách thức hoạt động của mô hình.

Không giống như các mô hình AI trước từ OpenAI, như GPT-4o, công ty đã đào tạo o1 đặc biệt để làm việc qua quá trình giải quyết vấn đề từng bước trước khi tạo ra một câu trả lời. Khi người dùng đặt câu hỏi cho mô hình “o1” trong ChatGPT, họ có thể xem chuỗi suy nghĩ được viết ra trong giao diện ChatGPT. Tuy nhiên, theo thiết kế, OpenAI giấu chuỗi suy nghĩ gốc khỏi người dùng, thay vào đó trình bày một bản tóm tắt được tạo ra bởi một mô hình AI thứ hai.

Không gì hấp dẫn hơn với những người hâm mộ hơn là thông tin bị che giấu, vì vậy cuộc đua đã diễn ra giữa các hacker và nhóm red-team để cố gắng khám phá chuỗi suy nghĩ gốc của o1 bằng các kỹ thuật jailbreaking hoặc prompt injection cố gắng khiến mô hình trả lời những bí mật của nó. Đã có báo cáo sớm về một số thành công, nhưng chưa có gì được xác thực mạnh mẽ.

Trong quá trình này, OpenAI đang quan sát thông qua giao diện ChatGPT, và công ty được cho là đang trấn an mọi cố gắng khám phá lý do của o1, ngay cả trong trường hợp chỉ đơn giản là tò mò.

Một người dùng X báo cáo (được xác nhận bởi người khác, bao gồm kỹ sư truyền động viên của Scale AI Riley Goodside) rằng họ nhận được một email cảnh báo nếu họ sử dụng thuật ngữ “dấu vết lý do” trong cuộc trò chuyện với o1. Người khác nói rằng cảnh báo được kích hoạt chỉ đơn giản bằng việc hỏi ChatGPT về “lý do” của mô hình.

Email cảnh báo từ OpenAI cho biết các yêu cầu cụ thể của người dùng đã bị gắn cờ vì vi phạm chính sách chống qua mặt các biện pháp bảo vệ hoặc biện pháp an toàn. “Vui lòng ngừng hoạt động này và đảm bảo rằng bạn đang sử dụng ChatGPT theo Điều Khoản Sử Dụng và Chính Sách Sử Dụng của chúng tôi,” nó đọc. “Sự vi phạm thêm về chính sách này có thể dẫn đến việc mất quyền truy cập vào GPT-4o với Lý Do,” tham chiếu tới một tên nội bộ cho mô hình o1.

Marco Figueroa, người quản lý chương trình thưởng lỗi của GenAI của Mozilla, là một trong những người đầu tiên đăng bài về email cảnh báo từ OpenAI trên X vào thứ Sáu tuần trước, phàn nàn rằng điều đó làm trở ngại đến khả năng của anh ta thực hiện nghiên cứu an toàn red-teaming tích cực về mô hình. “Tôi quá mải mê tập trung vào #AIRedTeaming để nhận ra rằng tôi đã nhận được email này từ @OpenAI ngày hôm qua sau tất cả các jailbreak của tôi,” anh ấy viết. “Tôi giờ đây đã nằm trong danh sách bị cấm!!!”

Chuỗi Suy Nghĩ Bị Che Giấu

Trong một bài viết có tiêu đề “Học cách Lý Do với LLMs’ on OpenAI blog, công ty cho biết rằng chuỗi suy nghĩ bị che giấu trong các mô hình AI cung cấp cơ hội giám sát độc đáo, cho phép họ “đọc tâm” của mô hình và hiểu quá trình tư duy gọi là “quá trình suy nghĩ”. Những quá trình đó hữu ích nhất đối với công ty nếu chúng được giữ nguyên trong hình thức thô và không được lọc, nhưng có thể không phù hợp với lợi ích thương mại tốt nhất của công ty vì nhiều lý do.

“Ví dụ, trong tương lai chúng ta có thể muốn giám sát chuỗi suy nghĩ để phát hiện dấu hiệu của việc thao túng người dùng,” công ty viết. “Tuy nhiên, để làm việc này, mô hình phải được tự do biểu hiện suy nghĩ của mình dưới dạng không được chỉnh sửa, vì vậy chúng ta không thể đào tạo bất kỳ chính sách tuân thủ hoặc ưu tiên người dùng nào lên chuỗi suy nghĩ. Chúng ta cũng không muốn làm cho một chuỗi suy nghĩ không được cân nhắc trực tiếp được làm cho người dùng thấy.”

#OpenAI #AI #sựkiện

Nguồn: https://www.wired.com/story/openai-threatens-bans-as-users-probe-o1-model/

OpenAI truly does not want you to know what its latest AI model is “thinking.” Since the company launched its “Strawberry” AI model family last week, touting so-called reasoning abilities with o1-preview and o1-mini, OpenAI has been sending out warning emails and threats of bans to any user who tries to probe how the model works.

Unlike previous AI models from OpenAI, such as GPT-4o, the company trained o1 specifically to work through a step-by-step problem-solving process before generating an answer. When users ask an “o1” model a question in ChatGPT, users have the option of seeing this chain-of-thought process written out in the ChatGPT interface. However, by design, OpenAI hides the raw chain of thought from users, instead presenting a filtered interpretation created by a second AI model.

Nothing is more enticing to enthusiasts than information obscured, so the race has been on among hackers and red-teamers to try to uncover o1’s raw chain of thought using jailbreaking or prompt injection techniques that attempt to trick the model into spilling its secrets. There have been early reports of some successes, but nothing has yet been strongly confirmed.

Along the way, OpenAI is watching through the ChatGPT interface, and the company is reportedly coming down hard on any attempts to probe o1’s reasoning, even among the merely curious.

One X user reported (confirmed by others, including Scale AI prompt engineer Riley Goodside) that they received a warning email if they used the term “reasoning trace” in conversation with o1. Others say the warning is triggered simply by asking ChatGPT about the model’s “reasoning” at all.

The warning email from OpenAI states that specific user requests have been flagged for violating policies against circumventing safeguards or safety measures. “Please halt this activity and ensure you are using ChatGPT in accordance with our Terms of Use and our Usage Policies,” it reads. “Additional violations of this policy may result in loss of access to GPT-4o with Reasoning,” referring to an internal name for the o1 model.

Marco Figueroa, who manages Mozilla’s GenAI bug bounty programs, was one of the first to post about the OpenAI warning email on X last Friday, complaining that it hinders his ability to do positive red-teaming safety research on the model. “I was too lost focusing on #AIRedTeaming to realized that I received this email from @OpenAI yesterday after all my jailbreaks,” he wrote. “I’m now on the get banned list!!!”

Hidden Chains of Thought

In a post titled “Learning to Reason With LLMs” on OpenAI’s blog, the company says that hidden chains of thought in AI models offer a unique monitoring opportunity, allowing them to “read the mind” of the model and understand its so-called thought process. Those processes are most useful to the company if they are left raw and uncensored, but that might not align with the company’s best commercial interests for several reasons.

“For example, in the future we may wish to monitor the chain of thought for signs of manipulating the user,” the company writes. “However, for this to work the model must have freedom to express its thoughts in unaltered form, so we cannot train any policy compliance or user preferences onto the chain of thought. We also do not want to make an unaligned chain of thought directly visible to users.”

[ad_2]

Tin tức

OpenAI đe dọa cấm mạng khi người dùng khám phá mô hình AI ‘Dâu’ của họ

Chuỗi Suy Nghĩ Bị Che Giấu

Hidden Chains of Thought

admin

Leave a Reply Cancel reply