#Datasaur #NLP #LLM #ChatGPT #OpenAI #SanFrancisco #AIinvestment #dataannotation #custommodel #leadership #VentureBeat
Datasaur, công ty chuyên cung cấp nền tảng ghi nhãn dữ liệu, vừa ra mắt công cụ LLM (Large Language Models) mới nhằm đào tạo các mô hình ChatGPT tùy chỉnh. Công cụ này đã nhận được sự quan tâm đặc biệt từ các giám đốc điều hành hàng đầu tại San Francisco vào ngày 11-12 tháng 7. Sự kiện này là cơ hội để người tham gia nghe các nhà lãnh đạo chia sẻ cách tích hợp và tối ưu hóa đầu tư AI để đạt được thành công trong lĩnh vực này.
Nền tảng ghi nhãn dữ liệu của Datasaur mang tên “khủng long dữ liệu” đã tiết lộ một tính năng mới, cho phép người dùng gắn nhãn dữ liệu và đào tạo các mô hình ChatGPT tùy chỉnh của riêng mình. Được thiết kế với giao diện thân thiện với người dùng, công cụ này cho phép cả các cá nhân kỹ thuật và phi kỹ thuật đánh giá và xếp hạng các phản hồi của mô hình ngôn ngữ, sau đó chuyển đổi thành thông tin chi tiết có thể hành động.
Greg Brockman, chủ tịch của OpenAI, một nhà đầu tư sớm trong Datasaur, khẳng định rằng công cụ mới của Datasaur phản ánh sự quan trọng của việc phát triển xử lý ngôn ngữ tự nhiên (NLP) và đáp ứng nhu cầu ngày càng tăng về việc xây dựng và đào tạo các mô hình tùy chỉnh.
Datasaur đã nhận thấy nhiều chuyên gia trong các ngành công nghiệp khác nhau đang mong muốn khai thác công nghệ NLP một cách hiệu quả. Tuy nhiên, việc tinh chỉnh và cải thiện hiệu suất của các mô hình nguồn mở có sẵn đôi khi gặp khó khăn. Với mục tiêu cung cấp hỗ trợ toàn diện cho người dùng trong việc lắp ráp dữ liệu đào tạo, Datasaur hy vọng giúp giảm bớt thời gian và công sức khi ghi nhãn dữ liệu từ 30% đến 80%.
Datasaur nhấn mạnh tính năng mới của họ, Đánh giá và Xếp hạng, là những công cụ đào tạo mô hình thân thiện nhất hiện có trên thị trường. Đánh giá cho phép người chú thích con người đánh giá chất lượng đầu ra của mô hình và xác định xem các phản hồi có đáp ứng các tiêu chí chất lượng cụ thể hay không. Xếp hạng giúp tăng cường quá trình học tập từ phản hồi con người. Ngoài ra, tính năng này còn hỗ trợ chế độ người đánh giá, cho phép nhiều người chú thích tham gia và loại bỏ sự chủ quan.
Datasaur cũng cho biết nền tảng của họ hỗ trợ tất cả các loại NLP, từ các mô hình “truyền thống” như trích xuất thực thể và phân loại văn bản đến các mô hình mới như LLM. Điều này đảm bảo rằng việc ghi nhãn dữ liệu NLP có thể được thực hiện trên cùng một nền tảng, thay vì sử dụng nhiều công
Nguồn: https://venturebeat.com/ai/datasaur-launches-llm-tool-for-training-custom-chatgpt-models/
Tham gia cùng các giám đốc điều hành hàng đầu tại San Francisco vào ngày 11-12 tháng 7, để nghe cách các nhà lãnh đạo đang tích hợp và tối ưu hóa các khoản đầu tư AI để thành công. Tìm hiểu thêm
Nền tảng ghi nhãn dữ liệu khủng long dữ liệu hôm nay đã tiết lộ một tính năng mới cho phép người dùng gắn nhãn dữ liệu và đào tạo mô hình ChatGPT tùy chỉnh của riêng họ. Công cụ mới nhất này cung cấp giao diện thân thiện với người dùng, cho phép các cá nhân kỹ thuật và phi kỹ thuật đánh giá và xếp hạng các phản hồi mô hình ngôn ngữ, sau đó được chuyển đổi thành thông tin chi tiết có thể hành động.
Với chủ tịch của OpenAI, Greg Brockman, một nhà đầu tư sớm, công ty đã thông báo rằng sản phẩm mới của họ là phản ứng trực tiếp với tầm quan trọng leo thang của xử lý ngôn ngữ tự nhiên (NLP)đặc biệt Trò chuyệnGPT và các mô hình ngôn ngữ lớn (LLMs).
Datasaur nói rằng các chuyên gia trong các ngành công nghiệp khác nhau đang mong muốn khai thác công nghệ này một cách hiệu quả. Tuy nhiên, nhu cầu về các phương pháp tiếp cận chuẩn hóa và rõ ràng hơn để xây dựng và đào tạo các mô hình tùy chỉnh đã đặt ra những thách thức không ngừng. Nhiều cá nhân gặp khó khăn trong việc tinh chỉnh và cải thiện hiệu suất của nhiều mã nguồn mở mô hình có sẵn.
Để đáp ứng với bối cảnh đang phát triển này, công ty đặt mục tiêu cung cấp hỗ trợ toàn diện cho người dùng trong việc lắp ráp dữ liệu đào tạo của họ.
Sự kiện
Chuyển đổi 2023
Hãy tham gia cùng chúng tôi tại San Francisco vào ngày 11-12 tháng 7, nơi các giám đốc điều hành hàng đầu sẽ chia sẻ cách họ đã tích hợp và tối ưu hóa các khoản đầu tư vào AI để đạt được thành công và tránh những cạm bẫy phổ biến.
Đăng ký ngay
“Chúng tôi mong muốn cung cấp cho người dùng dữ liệu đào tạo chất lượng cao nhất và giúp loại bỏ những thành kiến không mong muốn khỏi mô hình kết quả thông qua các dịch vụ mới của chúng tôi, bằng cách kế thừa các khả năng mạnh mẽ từ nền tảng Datasaur hiện có,” Ivan Lee, Giám đốc điều hành và người sáng lập Datasaur, nói với VentureBeat. “Nền tảng của chúng tôi hỗ trợ tất cả các loại NLP, cho dù đó là các mô hình ‘truyền thống’ như trích xuất thực thể và phân loại văn bản hay các mô hình mới như LLM. Mục tiêu là đảm bảo tất cả việc ghi nhãn NLP có thể xảy ra trên một nền tảng duy nhất thay vì sử dụng bảng tính cho một loại và các công cụ nguồn mở cho loại khác.”
Đánh giá chất lượng phản hồi LLM
Datasaur khẳng định rằng các bổ sung mới nhất, Đánh giá và Xếp hạng, là những công cụ đào tạo mô hình thân thiện với người dùng nhất hiện có trên thị trường.
Với Đánh giá, người chú thích con người có thể đánh giá chất lượng đầu ra của LLM và xác định xem các phản hồi có đáp ứng các tiêu chí chất lượng cụ thể hay không.
Xếp hạng tạo điều kiện thuận lợi cho quá trình học tăng cường từ phản hồi của con người (RLHF).
Ngoài các tính năng mới, nền tảng này còn giới thiệu chế độ người đánh giá cho phép các nhà khoa học dữ liệu chỉ định nhiều người chú thích, do đó giảm thiểu các thành kiến chủ quan. Chế độ này tạo điều kiện xác định và giải quyết sự khác biệt giữa các chú thích khi nói đến các câu hỏi cụ thể, cho phép các nhà khoa học dữ liệu đưa ra quyết định cuối cùng.
Tính năng Thỏa thuận giữa các nhà chú thích (IAA) của nền tảng sử dụng các tính toán thống kê để đánh giá mức độ đồng ý hoặc không đồng ý giữa các nhà chú thích. Công cụ này hỗ trợ các nhà khoa học dữ liệu xác định những người chú thích có thể cần được đào tạo thêm và công nhận những người thể hiện năng khiếu bẩm sinh đối với loại công việc này.
Ngoài ra, nền tảng trình bày tài liệu gốc mà từ đó LLM lấy thông tin. Điều này phục vụ hai mục đích: để ngăn chặn bất kỳ sự hiểu sai tiềm năng nào, và để cung cấp sự minh bạch trong việc chứng minh quy trình được LLM sử dụng.
Hợp lý hóa việc áp dụng rộng rãi hơn các mô hình ngôn ngữ lớn
Datasaur’s Lee nói rằng các chuyên gia trong ngành có thể không coi các mô hình của OpenAI là các lựa chọn khả thi vì các yếu tố như tuân thủ, bảo mật dữ liệu hoặc cân nhắc chiến lược. Lee cũng chỉ ra rằng trọng tâm hiện tại của LLM là ngôn ngữ tiếng Anh hạn chế người dùng trên toàn thế giới hưởng lợi đầy đủ từ những tiến bộ công nghệ này.
Lee cho biết: “NLP đã đạt được nhiều tiến bộ trong thập kỷ qua và một trong những mục tiêu quan trọng của chúng tôi tại Datasaur là giúp tự động hóa càng nhiều công việc thủ công càng tốt. “Sứ mệnh của Datasaur là dân chủ hóa quyền truy cập vào NLP bằng cách cho phép người dùng làm việc với bất kỳ ngôn ngữ nào, dù là tiếng Pháp, tiếng Hàn hay tiếng Ả Rập. Chúng tôi muốn dịch vụ này giúp mọi người dễ dàng đào tạo và phát triển LLM hơn cho mục đích của họ.”
Công ty khẳng định rằng nền tảng của họ có khả năng giảm thời gian và chi phí liên quan đến việc ghi nhãn dữ liệu từ 30% đến 80%.
Để tự động hóa việc ghi nhãn dữ liệu, nền tảng này sử dụng một loạt kỹ thuật. Nó sử dụng các mô hình nguồn mở đã được thiết lập như spaCy và NLTK để xác định các thực thể phổ biến. Nó cũng sử dụng phương pháp giám sát yếu để lập trình dữ liệu, cho phép các kỹ sư tạo các chức năng đơn giản tự động gắn nhãn các loại thực thể cụ thể. Chẳng hạn, nếu một văn bản chứa các từ khóa như “pizza” hoặc “burger”, thì nền tảng sẽ áp dụng phân loại “thực phẩm”.
Hơn nữa, nền tảng này kết hợp API OpenAI tích hợp, cho phép khách hàng yêu cầu ChatGPT thay mặt họ dán nhãn tài liệu. Công ty cho biết phương pháp này có thể đạt được mức độ thành công cao, tùy thuộc vào mức độ phức tạp của nhiệm vụ, đồng thời mở ra những con đường mới cho tự động hóa.
Theo Lee, tính năng RLHF của nền tảng là một trong những phương pháp hiệu quả nhất để nâng cao khả năng đào tạo của LLM. Ông nói, cách tiếp cận này cho phép người dùng đánh giá nhanh chóng và dễ dàng một tập hợp các kết quả đầu ra của mô hình và xác định những kết quả vượt trội, loại bỏ sự can thiệp thủ công.
“Nền tảng của chúng tôi cho phép người dùng giới thiệu các tùy chọn khác nhau và xếp hạng chúng từ tốt nhất đến tệ nhất. Giao diện kéo và thả dễ dàng giúp người dùng không có kỹ thuật dễ vận hành và kết quả đầu ra bao gồm mọi hoán vị của tùy chọn xếp hạng (ví dụ: 1 tốt hơn 2, 1 tốt hơn 3, 2 tốt hơn 3) để làm cho nó dễ dàng được sử dụng bởi nhà khoa học dữ liệu kỹ thuật và mô hình phần thưởng,” Lee giải thích.
Một tương lai của các cơ hội trong NLP
Lee quan sát thấy rằng việc đầu tư vào NLP trên thị trường đang phát triển mạnh và ông dự đoán sự phát triển nhanh chóng của các sản phẩm dựa trên LLM.
Ông khẳng định rằng trong những năm tới, sẽ có một sự đột biến trong việc phát triển các ứng dụng ưu tiên công nghệ LLM.
“Các giao diện sắp tới sẽ không phải là một hộp trò chuyện; nó sẽ được tích hợp ngay vào các ứng dụng chúng ta sử dụng hàng ngày, chẳng hạn như Gmail, Word, v.v.”, ông nói. “Giống như chúng tôi đã học cách tối ưu hóa các truy vấn tìm kiếm trên Google của mình (ví dụ: “giờ Starbucks vào Thứ Bảy”), công chúng sẽ cảm thấy thoải mái khi giao tiếp với các ứng dụng thông qua giao diện ngôn ngữ tự nhiên này. Datasaur nhằm mục đích sẵn sàng trao quyền và hỗ trợ các tổ chức trong việc xây dựng các mô hình và quy trình xử lý dữ liệu như vậy.”
Sứ mệnh của VentureBeat là trở thành một quảng trường thành phố kỹ thuật số để những người ra quyết định kỹ thuật có được kiến thức về công nghệ doanh nghiệp chuyển đổi và giao dịch. Khám phá Briefings của chúng tôi.
[ad_2]