Arize AI muốn cải thiện các mô hình ngôn ngữ doanh nghiệp bằng ‘Prompt Playground’ và các công cụ phân tích dữ liệu mới
Chúng ta đều biết rằng các doanh nghiệp đang đua nhau ở tốc độ khác nhau để phân tích và thu hoạch lợi ích từ trí tuệ nhân tạo sinh ra – điều mong muốn là một cách thông minh, an toàn và hiệu quả về chi phí. Khảo sát sau khảo sát trong suốt năm qua đã chứng minh câu chuyện này là đúng.
Nhưng khi một tổ chức xác định một mô hình ngôn ngữ lớn (LLM) hoặc nhiều mô hình mà họ muốn sử dụng, công việc khó khăn chưa hẳn đã kết thúc. Trên thực tế, triển khai LLM một cách có lợi cho một tổ chức đòi hỏi hiểu rõ những lời nhắn tốt nhất mà nhân viên hoặc khách hàng có thể sử dụng để tạo ra kết quả hữu ích – nếu không, nó chỉ đơn giản là vô giá trị – cùng với việc quyết định dữ liệu nào sẽ được bao gồm trong những lời nhắn đó từ tổ chức hoặc người sử dụng.
“Bạn không thể chỉ lấy một bản demo Twitter (của một LLM) và đưa nó vào thế giới thực,” Aparna Dhinakaran, đồng sáng lập và giám đốc sản phẩm chính của Arize AI, nói trong một cuộc phỏng vấn video độc quyền với VentureBeat. “Thực tế là nó sẽ thất bại. Vậy làm sao bạn biết chỗ nó thất bại? Và làm sao bạn biết cần cải thiện điều gì? Đó là điều chúng tôi tập trung vào.”
Giới thiệu ‘Prompt Playground’
Arize AI, một nhà cung cấp phần mềm học máy doanh nghiệp (B2) 3 năm tuổi đã tập trung vào việc biến trí tuệ nhân tạo trở nên dễ quan sát hơn (ít kỹ thuật hơn và dễ hiểu hơn) đối với các tổ chức.
Hôm nay, công ty đã giành giải thưởng VB Transform công bố những khả năng đầu tiên trong ngành để tối ưu hóa hiệu suất của LLMs triển khai bởi các doanh nghiệp, bao gồm một “Prompt Playground” mới để lựa chọn giữa các prompt đã lưu trữ được thiết kế cho các doanh nghiệp và một luồng công việc mới của “retrieval augmented generation” (RAG) để giúp các tổ chức hiểu rõ hơn về dữ liệu của họ sẽ hữu ích cho các phản ứng của LLMs.
Gần một năm trước, Arize đã ra mắt nền tảng ban đầu của mình trên Google Cloud Marketplace. Bây giờ, công ty đang bổ sung sự hiện diện của mình bằng những tính năng mới mạnh mẽ này dành cho khách hàng doanh nghiệp.
Prompt Playground và các luồng công việc mới
Các luồng công việc mở rộng mới của Arize, bao gồm Prompt Playground, cho phép nhóm tìm ra các mẫu lời nhắn không hoạt động tốt, lặp lại chúng trong thời gian thực và xác minh kết quả cải thiện của LLM trước khi triển khai.
Phân tích prompt là một phần quan trọng nhưng thường bị bỏ qua trong việc khắc phục sự cố hiệu suất của LLM, mà có thể đơn giản được nâng cao bằng cách thử nghiệm những mẫu lời nhắn khác nhau hoặc lặp lại một mẫu lời nhắn để có những phản hồi tốt hơn.
Với các luồng công việc mới này, nhóm có thể dễ dàng:
Khám phá các phản hồi có đánh giá phản hồi người dùng kém hoặc điểm đánh giá kém
Xác định mẫu lời nhắn gốc liên quan đến những phản hồi không tốt
Lặp lại mẫu lời nhắn hiện có để cải thiện khả năng xử lý các trường hợp đặc biệt
So sánh các phản hồi qua các mẫu lời nhắn trong Prompt Playground trước khi triển khai
Như Dhinakaran đã giải thích, việc tạo lời nhắn là rất quan trọng để cạnh tranh với LLM trên thị trường hiện nay. Các phân tích prompt mới và các luồng công việc lặp lại giúp nhóm đảm bảo rằng lời nhắn của họ bao phủ những trường hợp sử dụng cần thiết và các trường hợp biên mà người dùng thực tế có thể gặp phải.
“Bạn phải đảm bảo rằng lời nhắn bạn đưa vào mô hình của mình tương đối tốt để cạnh tranh,” Dhinakaran nói. “Những gì chúng tôi đã ra mắt giúp nhóm tạo ra những lời nhắn tốt hơn cho hiệu suất tốt hơn. Đơn giản như vậy: Chúng tôi giúp bạn tập trung vào việc đảm bảo rằng lời nhắn đó hiệu suất tốt và bao gồm tất cả các trường hợp bạn cần xử lý.”
Hiểu dữ liệu riêng tư
Ví dụ, các lời nhắn cho một chatbot LLM giáo dục cần đảm bảo không có phản hồi không thích hợp, trong khi các lời nhắn dịch vụ khách hàng nên bao gồm các trường hợp biên có thể xảy ra và các khía cạnh về dịch vụ được hoặc không được cung cấp.
Arize cũng cung cấp cái nhìn đầu tiên trong ngành về dữ liệu riêng hoặc ngữ cảnh ảnh hưởng đến kết quả của LLM – điều mà Dhinakaran gọi là “sốt ruột” mà các công ty cung cấp. Công ty khác biệt trong việc phân tích embeddings để đánh giá tính phù hợp của dữ liệu riêng được hợp nhất vào các lời nhắn.
“Những gì chúng tôi triển khai là một cách cho các nhóm trí tuệ nhân tạo theo dõi, xem xét các lời nhắn của họ, cải thiện nó và từ đó hiểu rõ hơn về dữ liệu riêng tư đang được đưa vào những lời nhắn đó, vì phần dữ liệu riêng tư đó có ý nghĩa,” Dhinakaran nói.
Dhinakaran cho biết các doanh nghiệp có thể triển khai các giải pháp của Arize trên cơ sở mang tính bảo mật và tuân thủ SOC-2.
Tầm quan trọng của dữ liệu tổ chức riêng tư
Những khả năng mới này cho phép xem xét xem liệu các ngữ cảnh đúng có tồn tại trong các lời nhắn để xử lý các truy vấn thực tế của người dùng. Nhóm có thể xác định các vị trí mà họ có thể cần bổ sung thêm nội dung về các câu hỏi thông thường thiếu sự bao phủ trong cơ sở kiến thức hiện tại.
“Không ai khác đang thực sự tập trung vào việc khắc phục sự cố này với dữ liệu riêng tư, đó là cái như sốt ruột mà các công ty có để ảnh hưởng đến lời nhắn,” Dhinakaran lưu ý.
Arize cũng đã ra mắt các luồng công việc bổ sung sử dụng tìm kiếm và truy xuất để giúp nhóm khắc phục các vấn đề phát sinh từ thành phần truy xuất của các mô hình RAG.
Các luồng công việc này sẽ giúp nhóm xác định nơi mà họ có thể cần bổ sung thêm ngữ cảnh vào cơ sở kiến thức của họ, xác định các trường hợp mà việc truy xuất không tìm ra thông tin quan trọng nhất và cuối cùng hiểu rõ tại sao LLM của họ có thể hão huyền hoặc sản sinh ra những phản hồi không tối ưu.
Hiểu ngữ cảnh và tính liên quan – và nơi chúng thiếu sót
Dhinakaran đưa ra ví dụ về cách Arize xem xét embedding truy vấn và cơ sở kiến thức để tìm hiểu các tài liệu đã được truy vấn không liên quan có thể
Head over to our on-demand library to view sessions from VB Transform 2023. Register Here
We all know enterprises are racing at varying speeds to analyze and reap the benefits of generative AI — ideally in a smart, secure and cost-effective way. Survey after survey over the last year has shown this to be true.
But once an organization identifies a large language model (LLM) or several that it wishes to use, the hard work is far from over. In fact, deploying the LLM in a way that benefits an organization requires understanding the best prompts employees or customers can use to generate helpful results — otherwise it’s pretty much worthless — as well as what data to include in those prompts from the organization or user.
“You can’t just take a Twitter demo (of an LLM) and put it into the real world,” Aparna Dhinakaran, cofounder and chief product officer of Arize AI, said in an exclusive video interview with VentureBeat. “It’s actually going to fail. And so how do you know where it fails? And how do you know what to improve? That’s what we focus on.”
Introducing ‘Prompt Playground’
Three-year-old business-to-business (B2) machine learning (ML) software provider Arize AI would know, as it has since day one been focused on making AI more observable (less technical and more understandable) to organizations.
Event
VB Transform 2023 On-Demand
Did you miss a session from VB Transform 2023? Register to access the on-demand library for all of our featured sessions.
Today, the VB Transform award-winning company announced at Google’s Cloud Next 23 conference industry-first capabilities for optimizing the performance of LLMs deployed by enterprises, including a new “Prompt Playground” for selecting between and iterating on stored prompts designed for enterprises, and a new retrieval augmented generation (RAG) workflow to help organizations understand what data of theirs would be helpful to include in an LLMs responses.
Almost a year ago, Arize debuted its initial platform in the Google Cloud Marketplace. Now it is augmenting its presence there with these powerful new features for its enterprise customers.
Prompt Playground and new workflows
Arize’s new prompt engineering workflows, including Prompt Playground, enable teams to uncover poorly performing prompt templates, iterate on them in real time and verify improved LLM outputs before deployment.

Prompt analysis is an important but often overlooked part of troubleshooting an LLM’s performance, which can simply be boosted by testing different prompt templates or iterating on one for better responses.
With these new workflows, teams can easily:
- Uncover responses with poor user feedback or evaluation scores
- Identify the underlying prompt template associated with poor responses
- Iterate on the existing prompt template to improve coverage of edge cases
- Compare responses across prompt templates in the Prompt Playground prior to implementation
As Dhinakaran explained, prompt engineering is absolutely key to staying competitive with LLMs in the market today. The company’s new prompt analysis and iteration workflows help teams ensure their prompts cover necessary use cases and potential edge scenarios that may come up with real users.
“You’ve got to make sure that the prompt you’re putting into your model is pretty damn good to stay competitive,” said Dhinakaran. “What we launched helps teams engineer better prompts for better performance. That’s as simple as it is: We help you focus on making sure that that prompt is performant and covers all of these cases that you need it to handle.”
Understanding private data
For example, prompts for an education LLM chatbot need to ensure no inappropriate responses, while customer service prompts should cover potential edge cases and nuances around services offered or not offered.
Arize is also providing the industry’s first insights into the private or contextual data that influences LLM outputs — what Dhinakaran called the “secret sauce” companies provide. The company uniquely analyzes embeddings to evaluate the relevance of private data fused into prompts.
“What we rolled out is a way for AI teams to now monitor, look at their prompts, make it better and then specifically understand the private data that’s now being put into those those prompts, because the private data part makes sense,” Dhinakaran said.
Dhinakaran told VentureBeat that enterprises can deploy its solutions on premises for security reasons, and that they are SOC-2 compliant.
The importance of private organizational data
These new capabilities enable examination of whether the right context is present in prompts to handle real user queries. Teams can identify areas where they may need to add more content around common questions lacking coverage in the current knowledge base.
“No one else out there is really focusing on troubleshooting this private data, which is really like the secret sauce that companies have to influence the prompt,” Dhinakaran noted.
Arize also launched complementary workflows using search and retrieval to help teams troubleshoot issues stemming from the retrieval component of RAG models.
These workflows will empower teams to pinpoint where they may need to add additional context into their knowledge base, identify cases where retrieval failed to surface the most relevant information, and ultimately understand why their LLM may have hallucinated or generated suboptimal responses.
Understanding context and relevance — and where they are lacking
Dhinakaran gave an example of how Arize looks at query and knowledge base embeddings to uncover irrelevant retrieved documents that may have led to a faulty response.

“You can click on, let’s say, a user question in our product, and it’ll show you all of the relevant documents that it could have pulled, and which one it did finally pull to actually use in the response,” Dhinakaran explained. Then “you can see where the model may have hallucinated or provided suboptimal responses based on deficiencies in the knowledge base.”
This end-to-end observability and troubleshooting of prompts, private data and retrieval is designed to help teams optimize LLMs responsibly after initial deployment, when models invariably struggle to handle real-world variability.
Dhinakaran summarized Arize’s focus: “We’re not just a day one solution; we help you actually ongoing get it to work.”
The company aims to provide the monitoring and debugging capabilities organizations are missing, so they can continuously improve their LLMs post-deployment. This allows them to move past theoretical value to real-world impact across industries.
VentureBeat’s mission is to be a digital town square for technical decision-makers to gain knowledge about transformative enterprise technology and transact. Discover our Briefings.
[ad_2]