Cohere ra mắt mô hình trí tuệ nhân tạo mới để nối kết khoảng cách ngôn ngữ toàn cầu

Cohere ra mắt các mô hình AI mới để nối liền sự chia cắt ngôn ngữ toàn cầu. Hôm nay, Cohere đã phát hành hai mô hình open-weight mới trong dự án Aya của họ để giảm thiểu khoảng cách ngôn ngữ trong các mô hình cơ bản. Mô hình Aya Expanse 8B và 35B, hiện đã có sẵn trên Hugging Face, mở rộng những cải tiến hiệu suất trong 23 ngôn ngữ. Cohere cho biết trong một bài đăng trên blog rằng mô hình 8B “tạo ra những bước tiến mới lớn đối với các nhà nghiên cứu trên toàn thế giới”, trong khi mô hình 32B cung cấp khả năng đa ngôn ngữ tiên tiến. Dự án Aya nhằm mục tiêu mở rộng quyền truy cập đến các mô hình cơ bản trong nhiều ngôn ngữ toàn cầu hơn tiếng Anh. Cohere for AI, cánh tay nghiên cứu của công ty, đã ra mắt sáng kiến Aya vào năm ngoái. Vào tháng Hai, họ phát hành mô hình ngôn ngữ lớn Aya 101 (LLM) 13 tỷ tham số, bao gồm 101 ngôn ngữ. Cohere for AI cũng phát hành bộ dữ liệu Aya để giúp mở rộng quyền truy cập đến các ngôn ngữ khác cho việc huấn luyện mô hình. Aya Expanse sử dụng phần lớn công thức tương tự như đã được sử dụng để xây dựng Aya 101. “Những cải tiến trong Aya Expanse là kết quả của sự tập trung liên tục vào việc mở rộng cách mà AI phục vụ cho các ngôn ngữ trên thế giới thông qua việc suy xét lại các khối xây dựng cốt lõi của các bước đột phá về máy học,” Cohere nói. “Chương trình nghiên cứu của chúng tôi trong vài năm qua đã bao gồm một tập trung đặc biệt vào việc nối liền khoảng cách ngôn ngữ, với một số đột phá quan trọng cho công thức hiện tại: thị trường dữ liệu, huấn luyện ưu tiên cho hiệu suất và an toàn tổng quát và cuối cùng là các phương thức hợp nhất mô hình.” #Cohere #AI #Aya #AyaExpanse #NgônNgữToànCầu #AIModel #AIResearch #GlobalLanguageDivide. Nguồn: https://venturebeat.com/ai/cohere-launches-new-ai-models-to-bridge-global-language-divide/

Join our daily and weekly newsletters for the latest updates and exclusive content on industry-leading AI coverage. Learn More


Cohere today released two new open-weight models in its Aya project to close the language gap in foundation models. 

Aya Expanse 8B and 35B, now available on Hugging Face, expands performance advancements in 23 languages. Cohere said in a blog post the 8B parameter model “makes breakthroughs more accessible to researchers worldwide,” while the 32B parameter model provides state-of-the-art multilingual capabilities. 

The Aya project seeks to expand access to foundation models in more global languages than English. Cohere for AI, the company’s research arm, launched the Aya initiative last year. In February, it released the Aya 101 large language model (LLM), a 13-billion-parameter model covering 101 languages. Cohere for AI also released the Aya dataset to help expand access to other languages for model training. 

Aya Expanse uses much of the same recipe used to build Aya 101. 

“The improvements in Aya Expanse are the result of a sustained focus on expanding how AI serves languages around the world by rethinking the core building blocks of machine learning breakthroughs,” Cohere said. “Our research agenda for the last few years has included a dedicated focus on bridging the language gap, with several breakthroughs that were critical to the current recipe: data arbitrage, preference training for general performance and safety, and finally model merging.”

Aya performs well

Cohere said the two Aya Expanse models consistently outperformed similar-sized AI models from Google, Mistral and Meta. 

Aya Expanse 32B did better in benchmark multilingual tests than Gemma 2 27B, Mistral 8x22B and even the much larger Llama 3.1 70B. The smaller 8B also performed better than Gemma 2 9B, Llama 3.1 8B and Ministral 8B. 

Cohere developed the Aya models using a data sampling method called data arbitrage as a means to avoid the generation of gibberish that happens when models rely on synthetic data. Many models use synthetic data created from a “teacher” model for training purposes. However, due to the difficulty in finding good teacher models for other languages, especially for low-resource languages. 

It also focused on guiding the models toward “global preferences” and accounting for different cultural and linguistic perspectives. Cohere said it figured out a way to improve performance and safety even while guiding the models’ preferences. 

“We think of it as the ‘final sparkle’ in training an AI model,” the company said. “However, preference training and safety measures often overfit to harms prevalent in Western-centric datasets. Problematically, these safety protocols frequently fail to extend to multilingual settings.  Our work is one of the first that extends preference training to a massively multilingual setting, accounting for different cultural and linguistic perspectives.”

Models in different languages

The Aya initiative focuses on ensuring research around LLMs that perform well in languages other than English. 

Many LLMs eventually become available in other languages, especially for widely spoken languages, but there is difficulty in finding data to train models with the different languages. English, after all, tends to be the official language of governments, finance, internet conversations and business, so it’s far easier to find data in English. 

It can also be difficult to accurately benchmark the performance of models in different languages because of the quality of translations. 

Other developers have released their own language datasets to further research into non-English LLMs. OpenAI, for example, made its Multilingual Massive Multitask Language Understanding Dataset on Hugging Face last month. The dataset aims to help better test LLM performance across 14 languages, including Arabic, German, Swahili and Bengali. 

Cohere has been busy these last few weeks. This week, the company added image search capabilities to Embed 3, its enterprise embedding product used in retrieval augmented generation (RAG) systems. It also enhanced fine-tuning for its Command R 08-2024 model this month. 

[ad_2]

Leave a Reply

Your email address will not be published. Required fields are marked *