Ý nghĩa của việc có một cửa sổ ngữ cảnh dài đối với mô hình AI là gì?

Gemini Advanced

Sự kiện ngày hôm nay: #Google #Gemini #AI #ContextWindow

Google vừa thông báo nâng cấp dịch vụ Gemini Advanced của mình với mô hình một triệu ngữ cảnh, sắp tới sẽ lên tới hai triệu. Google

Dễ hiểu hơn với ví dụ về việc tham gia xem một series TV, nhưng bạn chỉ có thể nhớ một tập mỗi lần. Khi chuyển sang tập tiếp theo, bạn tức thì quên hết những gì bạn đã xem. Bây giờ, hãy tưởng tượng bạn có thể nhớ mỗi tập và mỗi mùa bạn đã xem từ series đó; điều này sẽ giúp bạn hiểu câu chuyện, nhân vật, và những bất ngờ.

Khi nói về mô hình trí tuệ nhân tạo (AI), khả năng chỉ nhớ một tập mỗi lần và bị buộc phải quên khi chuyển sang tập tiếp theo đại diện cho một cửa sổ ngữ cảnh ngắn. Nhớ tất cả các tập trong một series đại diện cho một mô hình AI với ngữ cảnh lớn – hoặc cửa sổ ngữ cảnh dài.

Một cửa sổ ngữ cảnh dài có nghĩa là mô hình có thể nhớ nhiều thông tin cùng một lúc. Hiểu ý nghĩa của ngữ cảnh trong AI là cần thiết để tìm hiểu thêm về cửa sổ ngữ cảnh dài và cách nó ảnh hưởng đến hiệu suất của một bot hoặc hệ thống khác.

Các hệ thống trí tuệ nhân tạo như ChatGPT, chatbot Gemini và Microsoft Copilot được xây dựng trên các mô hình AI, trong trường hợp này, GPT-3.5, Gemini và GPT-4, một cách đương đại. Các mô hình này lấy bản chất như não bộ của hệ thống, giữ thông tin, nhớ thông tin trong một cuộc trò chuyện và phản hồi một cách phù hợp vào các câu hỏi của người dùng.

Ngữ cảnh trong AI đề cập đến thông tin mang lại ý nghĩa và liên quan cho dữ liệu hiện tại mà AI đang xử lý. Đó là thông tin mà mô hình xem xét khi quyết định hoặc tạo ra một phản hồi. Ngữ cảnh được đo lường bằng các tokens, và cửa sổ ngữ cảnh đại diện cho số lượng token tối đa mà mô hình có thể xem xét hoặc xử lý cùng lúc.

Các phương pháp mã hóa token – tức là cách từ được đếm và chuyển đổi thành token – thay đổi tùy thuộc vào hệ thống. Dưới đây là một ví dụ về cách mã hóa token có thể nhìn như thế nào:

Câu ví dụ
Con cáo nâu nhanh nhẹn nhảy qua con chó lười biếng.
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed.
Phân tích token
“Con”, “cáo”, “nâu”, “nhanh”, “nhẹn”, “nhảy”, “qua”, “con”, “chó”, “lười”, “biếng”, “.”
“Lorem”, “ipsum”, “dolor”, “sit”, “amet”, “,”, “consectetur”, “adipiscing”, “elit”, “,”, “sed”, “.”
Đếm từ
9 từ
9 từ
Đếm token
10 tokens
12 tokens
Một chatbot AI có thể xử lý khoảng 12,000 từ, tóm lược một bài báo 3,000 từ hoặc một nghiên cứu 5,000 từ và sau đó trả lời câu hỏi bổ sung mà không quên những gì có trong tài liệu người dùng chia sẻ. Các token từ những tin nhắn trước được xem xét trong suốt cuộc trò chuyện, mang lại cho bot ngữ cảnh về điều đang được nói.

Do đó, nếu một cuộc trò chuyện giữa trong giới hạn token, bot AI có thể duy trì ngữ cảnh đầy đủ. Nhưng nếu vượt quá giới hạn token, các token đầu tiên có thể sẽ bị bỏ qua hoặc bị mất để đảm bảo giữa cửa sổ, điều này có thể dẫn đến mất số phần trong ngữ cảnh.

Đây là lý do Google tự tin quảng cáo cửa sổ ngữ cảnh lớn của Gemini 1.5 Pro với một triệu token. Theo CEO Google Sundar Pichai, một triệu token có nghĩa là chatbot Gemini Advanced có thể xử lý hơn 30,000 dòng mã, PDF tới 1,500 trang, hoặc 96 thực đơn từ nhà hàng Cheesecake Factory.

Nguồn: https://www.zdnet.com/article/what-does-having-a-long-context-window-mean-for-an-ai-model/#ftag=RSSbaffb68

Gemini Advanced

Google just announced it’s upgrading its Gemini Advanced service with a one-million context model, soon to jump to two million.

Google

Imagine binge-watching a TV series, but you can only remember one episode at a time. When you move on to the next episode, you instantly forget everything you just watched. Now, imagine you can remember every episode and every season you’ve watched from that TV show; this would allow you to understand the story, characters, and twists and turns. 

Also: Google Glass vs. Project Astra: Sergey Brin on AI wearables and his top use case

When discussing artificial intelligence (AI) models, the ability to remember only one episode at a time and be forced to forget it when moving to the next episode represents a short context window. Remembering all the episodes in a series represents an AI model with a large context — or long context window.

In a nutshell, a long context window means that the model can remember a lot of information at once. 

Knowing what context represents in AI is necessary to learn more about a long context window and how it affects a bot’s or other system’s performance.

AI systems like ChatGPT, the Gemini chatbot, and Microsoft Copilot are built on AI models, in this case, GPT-3.5, Gemini, and GPT-4, respectively. These models essentially work as the systems’ brains, holding the knowledge, remembering information within a conversation, and responding appropriately to users’ queries. 

Also: 9 biggest announcements at Google I/O 2024: Gemini, Search, Project Astra, and more

Context in AI refers to information that gives meaning and relevance to the current data the AI is processing. It’s the information the model considers when deciding or generating a response.

Context is measured in tokens, and the context window represents the maximum number of tokens the model can consider or handle at once. Each token represents a word or part of a word, depending on the language. In English, one token tends to represent one word, so an AI model like GPT-4 with a 16,000 (16k) token window can handle roughly 12,000 words. 

Also: What is Gemini Live? How Google’s real-time chatbot competes with GPT-4o

Tokenization methods — that is, how words are counted and translated into tokens — vary depending on the system. Here’s an example of what a tokenization method may look like:

Example phrase The quick brown fox jumps over the lazy dog. Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed.
Token breakdown “The”, “quick”, “brown”, “fox”, “jumps”, “over”, “the”, “lazy”, “dog”, “.” “Lorem”, “ipsum”, “dolor”, “sit”, “amet”, “,”, “consectetur”, “adipiscing”, “elit”, “,”, “sed”, “.”
Word count 9 words 9 words
Token count 10 tokens 12 tokens

An AI chatbot that can handle about 12,000 words can summarize a 3,000-word article or 5,000-word research paper and then answer follow-up questions without forgetting what was in the document the user shared. Tokens from preceding messages are considered throughout conversations, giving the bot context for what’s being discussed. 

Also: 3 reasons to upgrade to Gemini Advanced, from Google I/O 2024

Hence, if a conversation stays within the token limit, the AI chatbot can maintain the full context. But if it exceeds the token limit, the earliest tokens will likely be ignored or lost to stay within the window, so the bot will potentially lose some context. 

This is why Google proudly advertises Gemini 1.5 Pro’s large context window of one million tokens. According to Google CEO Sundar Pichai, a million tokens means its Gemini Advanced chatbot can process over 30,000 lines of code, PDFs up to 1,500 pages long, or 96 Cheesecake Factory menus.


Leave a Reply

Your email address will not be published. Required fields are marked *