Cognition emerges from stealth to launch AI engineer Devin – Sự kiện AIImpactTour
Hãy tham gia cùng những nhà lãnh đạo tại Boston vào ngày 27 tháng 3 để tham gia một đêm duy nhất của mạng lưới, nhận định và cuộc trò chuyện. Yêu cầu một lời mời tại đây.
Hôm nay, Cognition, một startup AI mới thành lập được hậu trường bởi Founders Fund của Peter Thiel và những nhà lãnh đạo trong ngành công nghệ bao gồm cựu điều hành Twitter Elad Gil và Đồng sáng lập Doordash Tony Xu, đã công bố một phần mềm kỹ sư trí tuệ nhân tạo hoàn toàn tự động có tên là “Devin”.
Mặc dù có nhiều trợ lý lập trình khác nhau, bao gồm Github Copilot nổi tiếng, nhưng Devin được cho là nổi bật với khả năng xử lý toàn bộ dự án phát triển từ đầu đến cuối, từ viết mã và sửa lỗi liên quan đến nó đến thực hiện cuối cùng. Đây là ứng dụng đầu tiên như vậy và kể cả có khả năng xử lý dự án trên Upwork, startup đã thể hiện.
Công bố của Devin đánh dấu một bước tiến quan trọng trong không gian phát triển hỗ trợ AI, mang đến cho các kỹ sư một công nhân AI đầy đủ cho dự án của họ, chứ không phải là một phi công chỉ biết viết mã rời rạc hoặc đề xuất đoạn mã. Tuy nhiên, hiện tại, Devin vẫn chưa công khai, với công ty chỉ mở cửa truy cập cho một số khách hàng lựa chọn, bao gồm nhà báo của Bloomberg Ashlee Vance, người đã viết về trải nghiệm sử dụng nó tại đây.
Chúng tôi háo hức chờ đón điểm dừng tiếp theo trên AIImpactTour tại Boston vào ngày 27 tháng 3. Sự kiện độc quyền này, chỉ dành cho lời mời, phối hợp với Microsoft, sẽ bao gồm cuộc trò chuyện về các phương pháp tốt nhất để bảo đảm tính toàn vẹn dữ liệu vào năm 2024 và sau này. Không gian có hạn, vì vậy hãy yêu cầu một lời mời ngày hôm nay.
Để biết chắc chắn Devin có thể làm gì?
Trong một bài đăng blog hôm nay trên trang web của Cognition, Scott Wu, người sáng lập và CEO của Cognition và cũng là một nhà lập trình thể thao được trao giải, giải thích rằng Devin có thể truy cập vào các công cụ phát triển phổ biến, bao gồm bộ chỉnh sửa mã riêng, trong một môi trường tính toán được đóng khung để lên kế hoạch và thực hiện các công việc kỹ thuật phức tạp yêu cầu hàng ngàn quyết định.
Người dùng chỉ cần gõ một lời nhắn ngôn ngữ tự nhiên vào giao diện trò chuyện của Devin, và phần mềm kỹ sư trí tuệ nhân tạo sẽ thực hiện nhiệm vụ đó, phát triển một kế hoạch cụ thể, từng bước để giải quyết vấn đề. Sau đó, nó bắt đầu dự án bằng các công cụ phát triển của mình, giống như cách con người sử dụng chúng, viết mã riêng, sửa lỗi, kiểm tra và báo cáo về tiến độ thực hiện trong thời gian thực, cho phép người dùng theo dõi mọi thứ khi nó hoạt động.
Nếu có điều gì không đúng trong mắt người quan sát, người dùng cũng có thể nhảy vào giao diện trò chuyện và đưa ra lệnh cho AI để sửa chữa. Theo Cognition, điều này cho phép các nhóm kỹ sư giao phó một số dự án của họ cho AI và tập trung vào các nhiệm vụ sáng tạo hơn đòi hỏi trí thông minh của con người.
Để đối mặt với một loạt công việc phát triển khác nhau
Theo các bản demo được chia sẻ bởi Wu, Devin có khả năng xử lý một loạt nhiệm vụ trong dạng hiện tại. Điều này bao gồm các dự án kỹ thuật thông thường như triển khai và cải thiện ứng dụng / trang web từ đầu đến cuối và tìm và sửa lỗi trong mã nguồn cho những vấn đề phức tạp hơn như thiết lập điều chỉnh cho một mô hình ngôn ngữ lớn sử dụng liên kết tới một kho lưu trữ nghiên cứu trên GitHub hoặc học cách sử dụng công nghệ không quen thuộc.
Trong một trường hợp, nó đã học từ một bài đăng trên blog cách chạy mã để tạo ra hình ảnh với tin nhắn bí mật. Trong khi đó, trong một trường hợp khác, nó đã xử lý một dự án trên Upwork để chạy một mô hình thị giác máy tính bằng cách viết và sửa lỗi mã cho nó.
Trong bài kiểm tra SWE-bench, thách thức trợ lý AI với các vấn đề từ các dự án mã nguồn mở thực tế, kỹ sư trí tuệ nhân tạo có thể giải quyết đúng 13.86% các trường hợp từ đầu đến cuối – mà không cần sự giúp đỡ từ con người. So với đó, Claude 2 chỉ có thể giải quyết 4.80% trong khi SWE-Llama-13b và GPT-4 chỉ có thể giải quyết 3.97% và 1.74% các vấn đề, tương ứng. Tất cả các mô hình này đều cần sự trợ giúp, nơi họ được cho biết file nào phải được sửa chữa.
Hiệu suất của Devin trong bài kiểm tra SWE-bench
Công nghệ cốt lõi vẫn chưa được miêu tả
AI trong phát triển phần mềm không phải là một việc mới. Đã có các công cụ trong không gian này trong một thời gian, từ Github Copilot và StarCoder phổ biến cho đến Replit, có một số mô hình mã lập trình nhỏ trên Hugging Face, và Codeium, mà gần đây đã huy động được vốn loạt B trị giá 65 triệu USD tại một định giá 500 triệu USD.
Tuy nhiên, hầu hết các ứng dụng này đã tập trung chủ yếu vào việc sử dụng AI để hỗ trợ lập trình. Chúng có thể tạo mã rời rạc từ lời nhắn văn bản, tóm tắt nó với ngữ cảnh IDE liên quan hoặc lấy các đoạn mã, tăng tốc quá trình làm việc của nhóm. Với Devin, Cognition AI dường như đang đi một bước (hoặc nhiều bước) xa hơn, cung cấp một công nhân AI đầy đủ để xử lý toàn bộ dự án.
Trong khi công cụ vẫn cần được kiểm tra, khả năng của nó để xử lý nhiều bước – trong khi vẫn duy trì trên đúng đường – để hoàn thành một dự án kỹ thuật phần mềm là điểm mạnh nhất. Cognition chưa chia sẻ cách họ đã đạt được điều này và liệu họ đang sử dụng mô hình độc quyền của riêng mình hay từ bên thứ ba, nhưng họ ghi nhận rằng công việc là kết quả của sự “tiến bộ trong tư duy và kế hoạch dài hạn”.
Hiện nay, công ty đang trong quá trình tăng cường năng lực và cung cấp truy cập sớm vào Devin chỉ cho một số người dùng lựa chọn. Họ nói rằng các bên liên quan muốn bổ sung vào công việc kỹ thuật của mình có thể liên hệ qua email để nhận quyền truy cập. Quyền truy cập rộng rãi dự kiến sẽ mở ra ở giai đoạn sau.
Cognition cũng ghi chú trên trang web của mình rằng việc viết mã chỉ là “bắt đầu” điều này dường như cho thấy họ có thể tận dụng các tiến bộ trong lý do để phát hành các đại lý / công nhân AI tương tự cho các lĩnh vực khác. Công ty đã nhận được 21 triệu USD vốn tài trợ cho đến nay.
Nhiệm vụ của VentureBeat là trở thành một quảng trường số cho những người quyết định kỹ thuật để có kiến thức về công nghệ doanh nghiệp biến đổi và giao dịch. Khám phá các thông tin.
Join leaders in Boston on March 27 for an exclusive night of networking, insights, and conversation. Request an invite here.
Today, Cognition, a recently formed AI startup backed by Peter Thiel’s Founders Fund and tech industry leaders including former Twitter executive Elad Gil and Doordash co-founder Tony Xu, announced a fully autonomous AI software engineer called “Devin”.
While there are multiple coding assistants out there, including the famous Github Copilot, Devin is said to stand out from the crowd with its ability to handle entire development projects end-to-end, right from writing the code and fixing the bugs associated with it to final execution. This is the first offering of this kind and even capable of handling projects on Upwork, the startup has demonstrated.
The announcement of Devin marks a significant shift in the AI-assisted development space, giving engineers a full-fledged AI worker for their projects, rather than a copilot that could merely write barebones code or suggest snippets.
However, as of now, Devin remains non-public, with the company opening access only to a select few customers, including Bloomberg journalist Ashlee Vance, who wrote about his experience using it here.
What exactly can Devin do?
In a blog post today on Cognition’s website, Scott Wu, the founder and CEO of Cognition and an award-winning sports coder, explained Devin can access common developer tools, including its own shell, code editor and browser, within a sandboxed compute environment to plan and execute complex engineering tasks requiring thousands of decisions.
The human user simply types a natural language prompt into Devin’s chatbot style interface, and the AI software engineer takes it from there, developing a detailed, step-by-step plan to tackle the problem. It then begins the project using its developer tools, just like how a human would use them, writing its own code, fixing issues, testing and reporting on its progress in real-time, allowing the user to keep an eye on everything as it works.
If something doesn’t look right to the human observer, the user can also jump into the chat interface and give the AI a command to fix it. This, Cognition says, enables engineering teams to delegate some of their projects to the AI and focus on more creative tasks that require human intelligence.
In this way, Devin offers a new paradigm that may be a glimpse of the way all software development — and computer work generally — may be done in the near-future: by AI workers overseen by human supervisors/users.
Capable of handling a wide range of dev tasks
According to demos shared by Wu, Devin is capable of handling a range of tasks in its current form. This includes common engineering projects like deploying and improving apps/websites end-to-end and finding and fixing bugs in codebases to more complex things like setting up fine-tuning for a large language model using the link to a research repository on GitHub or learning how to use unfamiliar technologies.
In one case, it learned from a blog post how to run the code to produce images with concealed messages. Meanwhile, in another, it handled an Upwork project to run a computer vision model by writing and debugging the code for it.
In the SWE-bench test, which challenges AI assistants with GitHub issues from real-world open-source projects, the AI software engineer was able to correctly resolve 13.86% of the cases end-to-end – without any assistance from humans. In comparison, Claude 2 could resolve just 4.80% while SWE-Llama-13b and GPT-4 could handle 3.97% and 1.74% of the issues, respectively. All these models even required assistance, where they were told which file had to be fixed.
Core technology remains undescribed
AI in software development is no new feat. There have been tools in this space for quite some time, right from the popular GitHub Copilot and StarCoder to Replit, which has a few small AI coding models on Hugging Face, and Codeium, which recently nabbed $65 million series B funding at a valuation of $500 million.
However, most of these offerings have largely focused on using AI to assist with coding. They can generate barebones code from text prompts, summarize it with relevant IDE context or retrieve snippets, accelerating the workflow of the team. With Devin, Cognition AI appears to be going a step (or multiple steps) further, giving a full-fledged AI worker to handle entire projects.
While the tool remains to be tested, its ability to handle multiple steps – while staying on track – to complete a software engineering project is the biggest unique selling point. Cognition has not shared how exactly it has achieved this feat and whether it is using its own proprietary model or that from a third party, but it does note that the work is the result of its “advances in long-term reasoning and planning.”
Currently, the company is in the process of ramping up capacity and offering early access to Devin only to select users. It says interested parties looking to augment their engineering work can reach out via email to gain access. Broader access is expected to open up at a later stage.
Cognition also notes on its website that coding is “just the beginning” which seems to indicate it may tap its reasoning advances to launch similar AI agents/workers for other disciplines as well. The company has received $21 million in funding so far.
VentureBeat’s mission is to be a digital town square for technical decision-makers to gain knowledge about transformative enterprise technology and transact. Discover our Briefings.
[ad_2]