#Chuyểnđổi2023 Sự kiện ngày hôm nay tại San Francisco chia sẻ về cơ sở dữ liệu vector và sự cách mạng hóa mối quan hệ với AI tổng quát. Trong năm 2022, việc áp dụng cơ sở dữ liệu vectơ có thể thay đổi hoàn toàn cách chúng ta tương tác với thiết bị và cải thiện năng suất trong các nhiệm vụ hành chính và văn thư. Đăng ký ngay để tìm hiểu thêm về tiềm năng của AI và tránh những cạm bẫy phổ biến. Cơ sở dữ liệu phi cấu trúc là một vấn đề nan giải hàng thập kỷ trong ngành công nghiệp phần mềm. Tuy nhiên, cơ sở dữ liệu vectơ giải quyết vấn đề này bằng cách ánh xạ dữ liệu văn bản tới các véc tơ chiều cao, tạo ra biểu diễn số của các thuộc tính trong các mục. Các điểm số này được vẽ trên biểu đồ, tạo thành một chiều của biểu đồ. Cơ sở dữ liệu vectơ là cơ sở hạ tầng thiết yếu trong việc mang lại những thay đổi về kinh tế và xã hội mà AI hứa hẹn.
Tham gia cùng các giám đốc điều hành hàng đầu tại San Francisco vào ngày 11-12 tháng 7, để nghe cách các nhà lãnh đạo đang tích hợp và tối ưu hóa các khoản đầu tư AI để thành công. Tìm hiểu thêm
Trí tuệ nhân tạo đã nhận được rất nhiều sự chú ý trong năm nay trong thế giới công nghệ và hơn thế nữa. Cho dù đó là Văn xuôi của ChatGPT hoặc Nghệ thuật khuếch tán ổn định2022 đã cung cấp cái nhìn sâu sắc về tiềm năng của AI trong việc phá vỡ các ngành công nghiệp sáng tạo.
Nhưng đằng sau các tiêu đề, năm 2022 đã mang đến một sự phát triển thậm chí còn quan trọng hơn trong AI: sự trỗi dậy của cơ sở dữ liệu véc tơ.
Mặc dù tác động của chúng chưa rõ ràng ngay lập tức, nhưng việc áp dụng cơ sở dữ liệu vectơ có thể thay đổi hoàn toàn cách chúng ta tương tác với các thiết bị của mình, cùng với việc cải thiện đáng kể năng suất của chúng ta trong một loạt các nhiệm vụ hành chính và văn thư.
Cuối cùng, cơ sở dữ liệu vectơ sẽ là cơ sở hạ tầng thiết yếu trong việc mang lại những thay đổi về kinh tế và xã hội mà AI hứa hẹn.
Sự kiện
Chuyển đổi 2023
Hãy tham gia cùng chúng tôi tại San Francisco vào ngày 11-12 tháng 7, nơi các giám đốc điều hành hàng đầu sẽ chia sẻ cách họ đã tích hợp và tối ưu hóa các khoản đầu tư vào AI để đạt được thành công và tránh những cạm bẫy phổ biến.
Đăng ký ngay
Nhưng cái gì là một cơ sở dữ liệu vectơ? Để hiểu điều đó, chúng ta phải hiểu vấn đề cơ bản mà nó giải quyết: dữ liệu phi cấu trúc.
Vấn đề nan giải về cơ sở dữ liệu
Cơ sở dữ liệu là một trong những ngành dọc lâu dài nhất và linh hoạt nhất của ngành công nghiệp phần mềm. Tổng mức chi cho cơ sở dữ liệu và giải pháp quản lý cơ sở dữ liệu nhân đôi từ 38,6 tỷ đô la năm 2017 lên 80 tỷ đô la vào năm 2021. Và kể từ năm 2020, cơ sở dữ liệu chỉ tiếp tục củng cố vị trí của chúng với tư cách là một trong những danh mục phần mềm phát triển nhanh nhất, nhờ số hóa hơn nữa sau khi chuyển đổi hàng loạt sang làm việc từ xa.
Tuy nhiên, cơ sở dữ liệu hiện đại vẫn bị hạn chế bởi một vấn đề đã tồn tại hàng thập kỷ: vấn đề về dữ liệu phi cấu trúc. Có tới 80% dữ liệu được lưu trữ trên toàn cầu chưa được định dạng, gắn thẻ hoặc cấu trúc theo cách cho phép tìm kiếm hoặc thu hồi nhanh chóng.
Để có một sự tương tự đơn giản giữa dữ liệu có cấu trúc và dữ liệu không có cấu trúc, hãy nghĩ đến một bảng tính có nhiều cột trên mỗi hàng. Trong trường hợp này, một hàng “dữ liệu có cấu trúc” có tất cả các cột có liên quan được điền vào, trong khi một hàng “dữ liệu phi cấu trúc” thì không. Trong trường hợp mục nhập không có cấu trúc, có thể dữ liệu đã được nhập tự động vào cột đầu tiên của hàng; bây giờ ai đó cần chia nhỏ ô đó và điền dữ liệu vào các cột có liên quan.
Tại sao dữ liệu phi cấu trúc là một vấn đề? Tóm lại, việc sắp xếp, tìm kiếm, xem xét và sử dụng thông tin trong cơ sở dữ liệu trở nên khó khăn hơn. Tuy nhiên, sự hiểu biết của chúng tôi về dữ liệu phi cấu trúc liên quan đến cách dữ liệu thường được cấu trúc.
Thiếu thẻ hoặc định dạng sai có nghĩa là các mục không có cấu trúc có thể bị bỏ qua trong các tìm kiếm hoặc loại trừ/bao gồm không chính xác khỏi quá trình lọc. Điều này dẫn đến rủi ro lỗi đối với nhiều thao tác cơ sở dữ liệu mà chúng ta phải giải quyết thông qua cấu trúc dữ liệu theo cách thủ công. Điều này thường yêu cầu chúng tôi xem xét các mục không có cấu trúc theo cách thủ công. Điều này không có nghĩa là bản thân dữ liệu nhất thiết phải không có cấu trúc; nó chỉ yêu cầu nhiều can thiệp thủ công hơn phương tiện lưu trữ dữ liệu thông thường của chúng tôi.
Chúng tôi thường nghe về gánh nặng của việc xem xét thủ công với các xác nhận quyền sở hữu như các nhà khoa học dữ liệu dành 80% thời gian của họ về chuẩn bị dữ liệu. Nhưng trên thực tế, đây là điều mà tất cả chúng ta đều làm ở một mức độ nào đó, hoặc ít nhất là chịu ảnh hưởng của nó. Nếu bạn phải vật lộn với trình duyệt tệp để tìm thứ gì đó trên ổ cứng của mình hoặc dành nhiều thời gian để sàng lọc các kết quả của công cụ tìm kiếm không liên quan, thì bạn có thể đã gặp phải sự cố dữ liệu phi cấu trúc.
Việc lãng phí thời gian cho việc định dạng, xem xét và lọc thủ công không phải là một vấn đề mới hoặc độc quyền về kỹ thuật số. Ví dụ, thủ thư tự sắp xếp sách theo Hệ thập phân Dewey. Vấn đề dữ liệu phi cấu trúc chỉ là một phiên bản kỹ thuật số của một thách thức cơ bản đối với mọi nhiệm vụ lưu giữ hồ sơ mà con người đã thực hiện kể từ khi chúng ta phát minh ra chữ viết: Chúng ta cần phân loại thông tin để lưu trữ và sử dụng nó.
Đây là nơi mà cơ sở dữ liệu vector tỏ ra đặc biệt thú vị. Thay vì dựa vào các danh mục và danh sách riêng biệt để sắp xếp các bản ghi của chúng tôi, cơ sở dữ liệu vectơ thay vào đó đặt chúng trên bản đồ.
Vectơ và ánh xạ
Cơ sở dữ liệu vectơ sử dụng một khái niệm trong học máy Và học kĩ càng gọi điện nhúng vector. Nhúng véc tơ là một kỹ thuật trong đó các từ hoặc cụm từ trong văn bản được ánh xạ tới các véc tơ chiều cao, còn được gọi là nhúng từ. Các vectơ này được học theo cách sao cho các từ giống nhau về mặt ngữ nghĩa sẽ ở gần nhau trong không gian vectơ.
Biểu diễn này cho phép các mạng lưới thần kinh sâu xử lý dữ liệu văn bản hiệu quả hơn và đã được chứng minh là rất hữu ích trong nhiều tác vụ xử lý ngôn ngữ tự nhiên như phân loại văn bản, dịch thuật và phân tích cảm xúc.
Trong bối cảnh cơ sở dữ liệu, nhúng vectơ thực sự là một biểu diễn số của một nhóm thuộc tính mà chúng tôi muốn đo lường.
Để tạo nhúng, chúng tôi sử dụng một mô hình máy học đã được đào tạo và hướng dẫn mô hình này theo dõi các thuộc tính đó trong các mục trong tập dữ liệu.
Ví dụ, trong trường hợp chuỗi văn bản, mô hình có thể được yêu cầu ghi lại độ dài trung bình của từ, điểm phân tích tình cảm hoặc sự xuất hiện của các từ cụ thể.
Phần nhúng cuối cùng có dạng một chuỗi số tương ứng với “điểm số” được ghi trong quá trình kiểm tra các thuộc tính. Cơ sở dữ liệu vectơ lấy điểm số của các lần nhúng vectơ và vẽ chúng trên biểu đồ. Mọi thuộc tính mà chúng ta đo lường trong phép nhúng vectơ tạo thành một chiều của biểu đồ, dẫn đến biểu đồ thường có nhiều hơn ba chiều mà chúng ta có thể hình dung theo cách thông thường.
Với tất cả thông tin này được vẽ trên biểu đồ, chúng ta vẫn có thể tính toán khoảng cách “xa” giữa bất kỳ một nhúng nào với một nhúng khác giống như cách chúng ta có thể làm trong bất kỳ biểu đồ nào khác. Có lẽ quan trọng hơn, chúng ta có thể tham gia vào một cách mới để tìm kiếm dữ liệu. Bằng cách tạo một vectơ nhúng truy vấn tìm kiếm đã nhập, chúng tôi vẽ một điểm trên biểu đồ mà chúng tôi muốn nhắm mục tiêu. Sau đó, chúng tôi có thể khám phá các phần nhúng gần nhất với điểm tìm kiếm của chúng tôi.
Vector nhúng không phải là một giải pháp hoàn hảo cho mọi thứ. Chúng thường được học theo cách không được giám sát, gây khó khăn cho việc giải thích ý nghĩa của chúng và cách chúng đóng góp vào hiệu suất mô hình tổng thể. Các nội dung nhúng được đào tạo trước cũng có thể chứa các thành kiến có trong dữ liệu đào tạo, chẳng hạn như thành kiến về giới tính, chủng tộc hoặc chính trị, những thành kiến này có thể tác động tiêu cực đến hiệu suất của mô hình.
Tiềm năng của tìm kiếm vector
Cơ sở dữ liệu vectơ không dựa vào thẻ, nhãn, siêu dữ liệu hoặc các công cụ khác thường được sử dụng để cấu trúc dữ liệu. Thay vào đó, vì nhúng vectơ có thể theo dõi bất kỳ thuộc tính nào mà chúng tôi cho là có liên quan, cơ sở dữ liệu vectơ cho phép chúng tôi thu được kết quả tìm kiếm dựa trên sự tương đồng tổng thể.
Trong khi các tìm kiếm hiện tại về dữ liệu phi cấu trúc liên quan đến việc xem xét và diễn giải thủ công, cơ sở dữ liệu vectơ sẽ cho phép các tìm kiếm thực sự phản ánh nghĩa đằng sau các truy vấn của chúng tôi thay vì các thuộc tính bề ngoài như từ khóa.
Thay đổi này nhằm cách mạng hóa việc xử lý dữ liệu, lưu giữ hồ sơ và hầu hết các công việc hành chính và văn thư. Do giảm kết quả tìm kiếm “dương tính giả” và giảm nhu cầu sàng lọc trước và định dạng các truy vấn cho hệ thống, cơ sở dữ liệu vectơ có thể tăng đáng kể năng suất và hiệu quả của bất kỳ công việc nào trong nền kinh tế tri thức.
Bên cạnh lợi ích về năng suất quản trị, các khả năng tìm kiếm nâng cao này sẽ cho phép chúng tôi dựa vào cơ sở dữ liệu để tương tác hiệu quả hơn với các truy vấn mở và sáng tạo.
Đây là một sự bổ sung lý tưởng cho sự phát triển của AI sáng tạo. Do cơ sở dữ liệu vectơ giảm nhu cầu cấu trúc dữ liệu nên chúng ta có thể tăng tốc đáng kể thời gian đào tạo cho các mô hình AI tổng quát bằng cách tự động hóa phần lớn công việc xung quanh việc xử lý dữ liệu phi cấu trúc để đào tạo và sản xuất.
Do đó, nhiều tổ chức có thể chỉ cần nhập dữ liệu phi cấu trúc của họ vào cơ sở dữ liệu véc-tơ và cho nó biết họ muốn đo thuộc tính nào trong các phần nhúng của mình. Với các nhúng được tạo đó, một tổ chức có thể nhanh chóng đào tạo và triển khai một mô hình tổng quát bằng cách đơn giản cho phép tổ chức tìm kiếm cơ sở dữ liệu vectơ để thu thập thông tin cho các tác vụ.
Cơ sở dữ liệu vectơ được thiết lập để cải thiện đáng kể năng suất của chúng tôi và cách mạng hóa cách chúng tôi thực hiện các truy vấn trên máy tính. Nhìn chung, điều này làm cho cơ sở dữ liệu vectơ trở thành một trong những công nghệ mới nổi quan trọng nhất của thập kỷ tới.
Đụn rơm Hảo là đối tác tại đầu tư nhanh.
Dữ liệuNgười ra quyết định
Chào mừng bạn đến với cộng đồng VentureBeat!
DataDecisionMakers là nơi các chuyên gia, bao gồm cả những người kỹ thuật làm công việc dữ liệu, có thể chia sẻ những hiểu biết và đổi mới liên quan đến dữ liệu.
Nếu bạn muốn đọc về các ý tưởng tiên tiến và thông tin cập nhật, các phương pháp hay nhất cũng như tương lai của dữ liệu và công nghệ dữ liệu, hãy tham gia cùng chúng tôi tại DataDecisionMakers.
Bạn thậm chí có thể xem xét đóng góp một bài viết của riêng bạn!
Đọc thêm từ DataDecisionMakers
[ad_2]