Cách cải thiện bảo mật mạng với federated learning: Làm thế nào và tại sao?

Cách (và tại sao) học máy liên minh củng cố an ninh mạng #Cybersecurity #FederatedLearning #AIVietNam Tham gia bản tin hàng ngày và hàng tuần của chúng tôi để cập nhật thông tin mới nhất và nội dung độc quyền về ưu đãi AI hàng đầu trong ngành. Học thêm Mỗi năm, các cuộc tấn công mạng trở nên phổ biến hơn và việc phá vỡ dữ liệu trở nên đắt đỏ hơn. Dĩ nhiên, các doanh nghiệp muốn bảo vệ hệ thống AI của mình trong quá trình phát triển hoặc sử dụng thuật toán của mình để cải thiện tư thế bảo mật của họ, họ phải giảm thiểu rủi ro an ninh mạng. Học máy liên minh có thể làm cả hai điều. Học máy liên liên minh là một phương pháp phát triển AI trong đó nhiều bên huấn luyện một mô hình duy nhất một cách riêng biệt. Mỗi bên tải xuống thuật toán chính hiện tại từ máy chủ đám mây trung tâm. Họ đào tạo cấu hình của mình độc lập trên máy chủ địa phương, tải lên khi hoàn thành. Điều này giúp họ chia sẻ dữ liệu từ xa mà không cần tiết lộ dữ liệu gốc hoặc các tham số mô hình. Thuật toán trung tâm cân nhắc số mẫu mà nó nhận được từ mỗi cấu hình được đào tạo không giống nhau, tổng hợp chúng để tạo ra một mô hình toàn cầu duy nhất. Tất cả thông tin đều nằm trên máy chủ hoặc thiết bị địa phương của từng người tham gia – kho chứa trung tâm cân nhắc các cập nhật thay vì xử lý dữ liệu gốc. Mức độ phổ biến của học máy liên liên minh đang tăng nhanh vì nó giải quyết các lo lắng an ninh phát triển phổ biến. Nó cũng được săn đón với những ưu điểm về hiệu suất. Nghiên cứu cho thấy kỹ thuật này có thể cải thiện độ chính xác của mô hình phân loại hình ảnh lên đến 20% – một tăng đáng kể. Hiểu biết ngang học máy liên minh Có hai loại học máy liên minh. Tùy chọn truyền thống là học máy liên minh ngang. Ở phương pháp này, dữ liệu được phân chia trên các thiết bị khác nhau. Các bộ dữ liệu chia sẻ không gian đặc điểm nhưng có các mẫu khác nhau. Điều này giúp các nút cạnh nhau đào tạo một mô hình học máy mà không cần chia sẻ thông tin. Học máy liên minh dọc Trong học máy liên minh dọc, điều đối ngược đúng là các đặc trưng khác nhau, nhưng các mẫu giống nhau. Các đặc trưng được phân phối theo chiều dọc giữa các người tham gia, mỗi người sở hữu các thuộc tính khác nhau về cùng một tập thực thể. Cùng với những lợi ích nổi trội khác của việc đào tạo mô hình trung tâm thông qua các cập nhật không giống nhau bao gồm quyền riêng tư và bảo mật. Vì mỗi người tham gia làm việc độc lập, không ai cần phải chia sẻ thông tin độc quyền hoặc nhạy cảm để tiến triển việc đào tạo. Hơn nữa, càng ít chuyển dữ liệu càng tốt, nguy cơ tấn công trung gian sẽ thấp. Tất cả cập nhật được mã hóa để tổng hợp an toàn. Công nghệ tính toán đa bên ẩn chúng sau các hệ thống mã hóa khác nhau, giảm nguy cơ bị xâm phạm hoặc tấn công trung gian. Một lợi ích bị bỏ qua của học máy liên minh là tốc độ. Nó có độ trễ thấp hơn rất nhiều so với phương pháp trung tâm của mình. Vì đào tạo xảy ra địa phương thay vì trên một máy chủ trung tâm, thuật toán có thể phát hiện, phân loại và đáp ứng với các mối đe dọa nhanh chóng hơn. Độ trễ ít và truyền thông dữ liệu nhanh chóng cho phép các chuyên gia bảo mật mạng xử lý những tác nhân xấu dễ dàng hơn. Xem xét cho các chuyên gia bảo mật mạng Trước khi tận dụng kỹ thuật đào tạo này, các kỹ sư AI và các nhóm bảo mật mạng cần xem xét nhiều yếu tố kỹ thuật, bảo mật và vận hành. Sử dụng tài nguyên Phát triển AI đắt tiền. Các nhóm xây dựng mô hình của mình nên mong đợi phải tiêu từ 5 triệu đô la đến 200 triệu đô la lăn lộn, và trên 5 triệu đô la hàng năm cho việc duy trì. Cam kết tài chính quan trọng ngay cả khi chi phí được chia đều giữa nhiều bên. Lãnh đạo doanh nghiệp nên tính đến chi phí điện toán đám mây và cạnh. Học máy liên minh cũng đòi hỏi nhiều tính toán, điều này có thể dẫn đến giới hạn về băng thông, không gian lưu trữ hoặc tính toán. Mặc dù đám mây cho phép mở rộng theo yêu cầu, các đội bảo mật mạng đương mạo mất nguy cơ bị khóa vào ứng dụng nếu họ không cẩn thận. Chọn lựa phần cứng và nhà cung cấp chiến lược là vô cùng quan trọng. Niềm tin của người tham gia Mặc dù việc đào tạo không giống nhau là an toàn, nhưng thiếu minh bạch, tạo ra sự thiên vị chủ ý và tiêm nhiễm độc hại trở thành mối quan tâm. Cơ chế đồng thuận quan trọng để phê duyệt các cập nhật mô hình trước khi thuật toán trung tâm tổng hợp chúng. Điều này giúp họ giảm thiểu rủi ro tấn công mà không cần hy sinh tính riêng tư hoặc tiết lộ thông tin nhạy cảm. Bảo mật dữ liệu đào tạo Mặc dù kỹ thuật đào tạo học máy này có thể cải thiện tư thế bảo mật của một công ty, không có khái niệm 100% an toàn. Phát triển một mô hình trong đám mây đi kèm với nguy cơ thảm họa từ bên trong, lỗi của con người và mất dữ liệu. Tính dự phòng là chìa khóa. Đội ngũ nên tạo bản sao lưu để ngăn ngừa gián đoạn và quay ngược cập nhật, nếu cần. Những người ra quyết định nên xem xét nguồn gốc của tập dữ liệu đào tạo. Trong cộng đồng học máy, việc mượn nhiều tập dữ liệu xảy ra phổ dụng, tạo ra những lo ngại đúng đắn về sự giống nhau của mô hình. Trên Papers With Code, hơn 50% cộng đồng nhiệm vụ sử dụng tập dữ liệu mượn ít nhất 57,8% thời gian. Hơn nữa, 50% số tập dữ liệu đó đến từ chỉ có 12 trường đại học. Ứng dụng của học máy liên liên minh trong bảo mật mạng Sau khi thuật toán chính tổng hợp và cân nhắc cập nhật của các người tham gia, nó có thể được chia sẻ lại cho bất kỳ ứng dụng nào nó được đào tạo cho. Đội bảo mật mạng có thể sử dụng nó để phát hiện mối đe dọa. Ưu điểm ở đây là kép – trong khi các tác nhân đe dọa phải đoán bằng cách họ không thể dễ dàng đánh cắp dữ liệu, các chuyên gia thu thập thông tin cho kết quả rất chính xác. Học máy liên minh lý tưởng cho các ứng dụng kế cận như phân loại mối đe dọa hoặc phát hiện dấu hiệu của mối đe dọa. Kích thước tập dữ liệu lớn và đào tạo quy mô mở rộng năng lực kiến thức của nó, tạo ra kiến thức rộng lớn. Các chuyên gia bảo mật mạng có thể sử dụng mô hình như một cơ chế phòng thủ kết hợp để bảo vệ các bề mặt tấn công rộng lớn. Các mô hình học máy – đặc biệt là những mô hình làm dự đoán – thường dễ mất dần theo thời gian khi các khái niệm phát triển hoặc các biến trở nên ít quan trọng. Với học máy liên liên minh, các nhóm có thể định kỳ cập nhật mô hình của họ với các đặc trưng hoặc tập mẫu dữ liệu khác nhau, dẫn đến thông tin chính xác và kịp thời hơn. Tận dụng học máy liên liên minh cho bảo mật mạng Cho dù các công ty muốn bảo vệ bộ dữ liệu đào tạo của họ hay tận dụng AI cho việc phát hiện mối đe dọa, họ nên xem xét việc sử dụng học máy liên liên minh. Kỹ thuật này có thể cải thiện độ chính xác và hiệu suất và củng cố tư thế bảo mật của họ miễn là họ điều hướng một cách chiến lược qua các rủi ro tiềm ẩn hoặc mắc kẹt về lỗ hổng hay rủi ro xâm phạm. Zac Amos là biên tập viên chuyên mục của ReHack. DataDecisionMakers Chào mừng bạn đến cộng đồng VentureBeat! DataDecisionMakers là nơi các chuyên gia, bao gồm những người làm việc với dữ liệu, có thể chia sẻ cái nhìn và sáng kiến liên quan đến dữ liệu và sáng tạo. Nếu bạn muốn đọc về các ý tưởng hàng đầu và thông tin cập nhật, các phương pháp tốt nhất và tương lai của dữ liệu và công nghệ dữ liệu, hãy tham gia với chúng tôi tại DataDecisionMakers. Bạn có thể thậm chí xem xét việc đóng góp bài viết của riêng bạn! Đọc thêm: DataDecisionMakers Nguồn: https://venturebeat.com/security/how-and-why-federated-learning-enhances-cybersecurity/

Join our daily and weekly newsletters for the latest updates and exclusive content on industry-leading AI coverage. Learn More


Each year, cyberattacks become more frequent and data breaches become more expensive. Whether companies seek to protect their AI system during development or use their algorithm to improve their security posture, they must alleviate cybersecurity risks. Federated learning might be able to do both.

What is federated learning?

Federated learning is an approach to AI development in which multiple parties train a single model separately. Each downloads the current primary algorithm from a central cloud server. They train their configuration independently on local servers, uploading it upon completion. This way, they can share data remotely without exposing raw data or model parameters.

The centralized algorithm weighs the number of samples it receives from each disparately trained configuration, aggregating them to create a single global model. All information remains on each participant’s local servers or devices — the centralized repository weighs the updates instead of processing raw data.

Federated learning’s popularity is rapidly increasing because it addresses common development-related security concerns. It is also highly sought after for its performance advantages. Research shows this technique can improve an image classification model’s accuracy by up to 20% — a substantial increase.

Horizontal federated learning

There are two types of federated learning. The conventional option is horizontal federated learning. In this approach, data is partitioned across various devices. The datasets share feature spaces but have different samples. This enables edge nodes to collaboratively train a machine learning (ML) model without sharing information.

Vertical federated learning

In vertical federated learning, the opposite is true — features differ, but samples are the same. Features are distributed vertically across participants, each possessing different attributes about the same set of entities. Since just one party has access to the complete set of sample labels, this approach preserves privacy. 

How federated learning strengthens cybersecurity

Traditional development is prone to security gaps. Although algorithms must have expansive, relevant datasets to maintain accuracy, involving multiple departments or vendors creates openings for threat actors. They can exploit the lack of visibility and broad attack surface to inject bias, conduct prompt engineering or exfiltrate sensitive training data.

When algorithms are deployed in cybersecurity roles, their performance can affect an organization’s security posture. Research shows that model accuracy can suddenly diminish when processing new data. Although AI systems may appear accurate, they may fail when tested elsewhere because they learned to take bogus shortcuts to produce convincing results.

Since AI cannot think critically or genuinely consider context, its accuracy diminishes over time. Even though ML models evolve as they absorb new information, their performance will stagnate if their decision-making skills are based on shortcuts. This is where federated learning comes in.

Other notable benefits of training a centralized model via disparate updates include privacy and security. Since every participant works independently, no one has to share proprietary or sensitive information to progress training. Moreover, the fewer data transfers there are, the lower the risk of a man-in-the-middle attack (MITM).

All updates are encrypted for secure aggregation. Multi-party computation hides them behind various encryption schemes, lowering the chances of a breach or MITM attack. Doing so enhances collaboration while minimizing risk, ultimately improving security posture.

One overlooked advantage of federated learning is speed. It has a much lower latency than its centralized counterpart. Since training happens locally instead of on a central server, the algorithm can detect, classify and respond to threats much faster. Minimal delays and rapid data transmissions enable cybersecurity professionals to handle bad actors with ease.

Considerations for cybersecurity professionals

Before leveraging this training technique, AI engineers and cybersecurity teams should consider several technical, security and operational factors.

Resource usage

AI development is expensive. Teams building their own model should expect to spend anywhere from $5 million to $200 million upfront, and upwards of $5 million annually for upkeep. The financial commitment is significant even with costs spread out among multiple parties. Business leaders should account for cloud and edge computing costs.

Federated learning is also computationally intensive, which may introduce bandwidth, storage space or computing limitations. While the cloud enables on-demand scalability, cybersecurity teams risk vendor lock-in if they are not careful. Strategic hardware and vendor selection is of the utmost importance.

Participant trust

While disparate training is secure, it lacks transparency, making intentional bias and malicious injection a concern. A consensus mechanism is essential for approving model updates before the centralized algorithm aggregates them. This way, they can minimize threat risk without sacrificing confidentiality or exposing sensitive information.

Training data security

While this machine learning training technique can improve a firm’s security posture, there is no such thing as 100% secure. Developing a model in the cloud comes with the risk of insider threats, human error and data loss. Redundancy is key. Teams should create backups to prevent disruption and roll back updates, if necessary. 

Decision-makers should revisit their training datasets’ sources. In ML communities, heavy borrowing of datasets occurs, raising well-founded concerns about model misalignment. On Papers With Code, more than 50% of task communities use borrowed datasets at least 57.8% of the time. Moreover, 50% of the datasets there come from just 12 universities.

Applications of federated learning in cybersecurity

Once the primary algorithm aggregates and weighs participants’ updates, it can be reshared for whatever application it was trained for. Cybersecurity teams can use it for threat detection. The advantage here is twofold — while threat actors are left guessing since they cannot easily exfiltrate data, professionals pool insights for highly accurate output.

Federated learning is ideal for adjacent applications like threat classification or indicator of compromise detection. The AI’s large dataset size and extensive training build its knowledge base, curating expansive expertise. Cybersecurity professionals can use the model as a unified defense mechanism to protect broad attack surfaces.

ML models — especially those that make predictions — are prone to drift over time as concepts evolve or variables become less relevant. With federated learning, teams could periodically update their model with varied features or data samples, resulting in more accurate, timely insights.

Leveraging federated learning for cybersecurity

Whether companies want to secure their training dataset or leverage AI for threat detection, they should consider using federated learning. This technique could improve accuracy and performance and strengthen their security posture as long as they strategically navigate potential insider threats or breach risks.

 Zac Amos is the features editor at ReHack.

DataDecisionMakers

Welcome to the VentureBeat community!

DataDecisionMakers is where experts, including the technical people doing data work, can share data-related insights and innovation.

If you want to read about cutting-edge ideas and up-to-date information, best practices, and the future of data and data tech, join us at DataDecisionMakers.

You might even consider contributing an article of your own!

Read More From DataDecisionMakers

[ad_2]

Leave a Reply

Your email address will not be published. Required fields are marked *