Cách nhanh chóng trở thành chuyên gia phân tích dữ liệu với hướng dẫn từ chuyên gia Olivia Tanuwidjaja

#Hướng_dẫn_kỹ_thuật_nhanh_cho_nhà_phân_tích_dữ_liệu #ChatGPT #Prompt_Engineering #LLM #kỷ_nguyên_gợi_ý

Mô hình ngôn ngữ lớn (LLM) đang dần trở nên phổ biến trong lĩnh vực phân tích dữ liệu. Với sự gia tăng của ChatGPT của OpenAI, nhân viên phân tích dữ liệu cần phải tận dụng tốt công nghệ này trong công việc của mình. Nhiều kỹ thuật nhắc nhở hiện đại được sử dụng, bao gồm nhắc N-shot, lời nhắc theo chuỗi suy nghĩ (CoT) và tạo kiến thức nhắc nhở.

Người hành nghề trong lĩnh vực phân tích dữ liệu cần phải nắm vững các nguyên tắc nhắc nhở và kỹ thuật xây dựng lời nhắc để đảm bảo rằng mô hình sẽ cung cấp kết quả chất lượng cao và chính xác cho các nhiệm vụ được giao. Trong đó, việc viết hướng dẫn rõ ràng và cụ thể và cho người mẫu thời gian để “suy nghĩ” là rất quan trọng.

Các kỹ năng kỹ thuật nhanh chóng có thể giúp nhân viên phân tích dữ liệu hiểu các khả năng và hạn chế của một mô hình ngôn ngữ lớn. Tuy nhiên, để nhận được kết quả tốt nhất từ mô hình, đầu vào và lời nhắc phải phù hợp với ngữ cảnh và yêu cầu của nhiệm vụ.

Với khả năng giải quyết các bài toán phức tạp, các kỹ thuật gợi ý hiện đại như nhắc nhở N-shot, lời nhắc theo chuỗi suy nghĩ và tạo kiến thức nhắc nhở đang trở nên phổ biến trong lĩnh vực phân tích dữ liệu. Việc áp dụng kỹ thuật nhanh chóng trong việc phát triển lời nhắc sẽ giúp chúng ta hiểu được khả năng và hạn chế của một mô hình ngôn ngữ lớn và tạo ra đầu ra mong muốn cho nhiệm vụ được giao.

Nguồn: https://techtoday.co/prompt-engineering-guide-for-data-analysts-by-olivia-tanuwidjaja-may-2023/

bản tin

Sed ut perspiciatis unde.

Đặt mua

Ảnh của Emiliano Vittoriosi trên Bapt

Khai thác tối đa các mô hình LLM với tư cách là Nhà phân tích dữ liệu với Prompt Engineering

Mô hình ngôn ngữ lớn (LLM) đang gia tăng, được thúc đẩy bởi sự phổ biến của ChatGPT của OpenAI đã gây bão trên internet. Là một người hành nghề trong lĩnh vực dữ liệu, tôi tìm cách sử dụng tốt nhất công nghệ này trong công việc của mình, đặc biệt là đối với công việc sâu sắc nhưng vẫn thực tế với tư cách là Nhà phân tích dữ liệu.

LLM có thể giải quyết các nhiệm vụ mà không cần đào tạo mô hình bổ sung thông qua các kỹ thuật “nhắc nhở”, trong đó vấn đề được trình bày cho mô hình dưới dạng dấu nhắc văn bản. Đến “lời nhắc đúng” rất quan trọng để đảm bảo mô hình cung cấp kết quả chất lượng cao và chính xác cho các nhiệm vụ được giao.

Trong bài viết này, tôi sẽ chia sẻ các nguyên tắc nhắc nhở, kỹ thuật xây dựng lời nhắc và vai trò của Nhà phân tích dữ liệu trong “kỷ nguyên gợi ý” này.

Trích dẫn Ben Lorica từ Gradient Flow, “kỹ thuật nhanh chóng là nghệ thuật tạo ra các lời nhắc đầu vào hiệu quả để tạo ra đầu ra mong muốn từ các mô hình nền tảng.” Đó là quá trình lặp đi lặp lại để phát triển lời nhắc có thể tận dụng hiệu quả khả năng của các mô hình AI tổng quát hiện có để hoàn thành các mục tiêu cụ thể.

Các kỹ năng kỹ thuật nhanh chóng có thể giúp chúng tôi hiểu các khả năng và hạn chế của một mô hình ngôn ngữ lớn. Bản thân lời nhắc hoạt động như một đầu vào cho mô hình, biểu thị tác động đến đầu ra của mô hình. Một lời nhắc tốt sẽ giúp mô hình tạo ra đầu ra mong muốn, trong khi làm việc lặp đi lặp lại từ một lời nhắc tồi sẽ giúp chúng ta hiểu những hạn chế của mô hình và cách làm việc với nó.

Isa Fulford và Andrew Ng trong khóa học ChatGPT Prompt Engineering for Developers đã đề cập đến hai nguyên tắc nhắc nhở chính:

  • Nguyên tắc 1: Viết hướng dẫn rõ ràng và cụ thể
  • Nguyên tắc 2: Cho người mẫu thời gian để “suy nghĩ”

Tôi nghĩ nhắc nhở là giống như hướng dẫn cho một “đứa trẻ máy móc” ngây thơ.

Đứa trẻ rất thông minh, nhưng bạn cần phải rõ ràng về những gì bạn cần từ nó (bằng cách cung cấp giải thích, ví dụ, định dạng đầu ra được chỉ định, v.v.) và cung cấp cho nó một số không gian để tiêu hóa và xử lý nó (nêu các bước giải quyết vấn đề, yêu cầu nó từ từ xử lý nó). Đứa trẻ, do tiếp xúc với nó, cũng có thể rất sáng tạo và giàu trí tưởng tượng trong việc cung cấp câu trả lời – mà chúng tôi gọi là ảo giác về LLM. Hiểu ngữ cảnh và cung cấp lời nhắc phù hợp có thể giúp tránh được vấn đề này.

Kỹ thuật nhanh chóng là một lĩnh vực đang phát triển, với nghiên cứu về chủ đề này tăng nhanh từ năm 2022 trở đi. Một số kỹ thuật gợi ý hiện đại thường được sử dụng bao gồm nhắc nhở lần thứ hai, nhắc nhở theo chuỗi suy nghĩ (CoT) và gợi ý kiến ​​thức được tạo ra.

Một sổ ghi chép Python mẫu thể hiện các kỹ thuật này được chia sẻ dưới dự án GitHub này.

1. Nhắc N-shot (Nhắc không bắn, Nhắc vài lần)

Được biết đến với các biến thể của nó như nhắc Không bắn và nhắc Ít bắn, nhắc N trong N-shot biểu thị số lần “đào tạo” hoặc manh mối được cung cấp cho mô hình để đưa ra dự đoán.

Zero-shot nhắc nhở là nơi một mô hình đưa ra dự đoán mà không cần đào tạo thêm. Điều này hoạt động đối với các vấn đề đơn giản phổ biến như phân loại (nghĩa là phân tích tình cảm, phân loại thư rác), chuyển đổi văn bản (tức là dịch, tóm tắt, mở rộng) và tạo văn bản đơn giản mà LLM đã được đào tạo phần lớn.

Nhắc nhở không cần bắn: Hãy thẳng thắn hỏi người mẫu về tình cảm (Ảnh của Tác giả)

nhắc nhở ít bắn sử dụng một lượng dữ liệu nhỏ (thường từ hai đến năm) để điều chỉnh đầu ra của nó dựa trên những ví dụ nhỏ này. Những ví dụ này nhằm hướng mô hình đến hiệu suất tốt hơn cho một vấn đề theo ngữ cảnh cụ thể hơn.

Gợi ý ngắn gọn: Đưa ra ví dụ về cách chúng tôi mong đợi kết quả đầu ra của mô hình

2. Lời nhắc theo Chuỗi Suy nghĩ (CoT)

Lời nhắc theo chuỗi suy nghĩ đã được các nhà nghiên cứu của Google giới thiệu vào năm 2022. Trong Lời nhắc theo chuỗi suy nghĩmô hình được nhắc để đưa ra các bước lập luận trung gian trước khi đưa ra câu trả lời cuối cùng đến một vấn đề nhiều bước. Ý tưởng là một chuỗi suy nghĩ do mô hình tạo ra sẽ bắt chước một quá trình suy nghĩ trực quan khi xử lý một vấn đề lý luận gồm nhiều bước.

Lời nhắc theo chuỗi suy nghĩ giúp thúc đẩy mô hình phá vỡ các vấn đề phù hợp

Phương pháp này cho phép các mô hình phân tách các vấn đề gồm nhiều bước thành các bước trung gian, cho phép chúng giải các bài toán suy luận phức tạp không thể giải được bằng các phương pháp gợi ý tiêu chuẩn.

Một số biến thể khác của lời nhắc Chuỗi suy nghĩ bao gồm:

  • Lời nhắc tự nhất quán: Lấy mẫu nhiều con đường suy luận đa dạng và chọn câu trả lời phù hợp nhất. Bằng cách sử dụng hệ thống bỏ phiếu theo đa số, mô hình có thể đưa ra câu trả lời chính xác và đáng tin cậy hơn.
  • Nhắc nhở ít nhất đến nhiều nhất (LtM): Chỉ định chuỗi suy nghĩ để trước tiên chia một vấn đề thành một loạt các vấn đề con đơn giản hơn và sau đó giải quyết chúng theo thứ tự. Việc giải quyết từng bài toán con được hỗ trợ bởi các câu trả lời cho các bài toán con đã giải quyết trước đó. Kỹ thuật này được lấy cảm hứng từ các chiến lược giáo dục trong thế giới thực dành cho trẻ em.
  • Nhắc nhở tích cực: Mở rộng quy mô tiếp cận CoT bằng cách xác định câu hỏi nào là quan trọng và hữu ích nhất cho chú thích của con người. Đầu tiên, nó tính toán độ không chắc chắn trong số các dự đoán của LLM, sau đó chọn những câu hỏi không chắc chắn nhất và những câu hỏi này được chọn để con người chú thích trước khi đưa vào dấu nhắc CoT.

3. Tạo ra kiến ​​thức nhắc nhở

Ý tưởng đằng sau lời nhắc kiến ​​thức được tạo ra là yêu cầu LLM tạo ra thông tin hữu ích tiềm năng về một câu hỏi/lời nhắc đã cho, và sau đó đòn bẩy cung cấp kiến ​​​​thức làm đầu vào bổ sung để tạo phản hồi cuối cùng.

Ví dụ: giả sử bạn muốn viết một bài báo về an ninh mạng, đặc biệt là hành vi trộm cắp cookie. Trước khi yêu cầu LLM viết bài báo, bạn có thể yêu cầu nó tạo ra một số mối nguy hiểm và bảo vệ khỏi hành vi trộm cắp cookie. Điều này sẽ giúp LLM viết một bài đăng trên blog nhiều thông tin hơn.

Gợi ý kiến ​​thức được tạo ra: (1) Yêu cầu mô hình tạo ra một số nội dung

Nhắc nhở kiến ​​thức được tạo: (2) Sử dụng nội dung được tạo làm đầu vào cho mô hình

chiến thuật bổ sung

Ngoài các kỹ thuật được chỉ định ở trên, bạn cũng có thể sử dụng các chiến thuật dưới đây để làm cho việc nhắc nhở hiệu quả hơn

  • sử dụng dấu phân cách chẳng hạn như ba dấu gạch ngược (“`), dấu ngoặc nhọn (<>) hoặc thẻ ( ) để biểu thị các phần riêng biệt của đầu vào, giúp quá trình gỡ lỗi trở nên rõ ràng hơn và tránh tiêm nhắc.
  • Yêu cầu đầu ra có cấu trúc (tức là định dạng HTML/JSON), điều này hữu ích cho việc sử dụng đầu ra của mô hình cho một máy khác xử lý.
  • Chỉ định la giai điệu dự định của văn bản để có được âm sắc, định dạng và độ dài của đầu ra mô hình mà bạn cần. Ví dụ: bạn có thể hướng dẫn mô hình chính thức hóa ngôn ngữ, tạo không quá 50 từ, v.v.
  • Sửa đổi mô hình tham số nhiệt độ để chơi xung quanh mức độ ngẫu nhiên của mô hình. Nhiệt độ càng cao, đầu ra của mô hình sẽ ngẫu nhiên hơn là chính xác và thậm chí là ảo giác.

Một sổ ghi chép Python mẫu thể hiện các kỹ thuật này được chia sẻ dưới dự án GitHub này.

Ảnh của Camylla Battani trên Bapt

Như bạn có thể suy ra từ các ví dụ trên, kỹ thuật nhanh chóng yêu cầu một kỹ thuật giao tiếp kỹ thuật rất cụ thể. Mặc dù bạn vẫn yêu cầu bối cảnh kinh doanh và kỹ năng giải quyết vấn đề, nhưng đây vẫn là một loại thủ công mới không hoàn toàn được đề cập như một phần của bộ kỹ năng phân tích dữ liệu thông thường.

Nhà phân tích dữ liệu có thể tận dụng kiến ​​thức ngữ cảnh, kỹ năng giải quyết vấn đề và khả năng thống kê/kỹ thuật của họ, cùng với việc bổ sung khả năng giao tiếp hiệu quả cho kỹ thuật nhanh chóng. Đây là những nhiệm vụ chính liên quan đến kỹ thuật nhanh (và LLM) mà Nhà phân tích có khả năng thực hiện:

  • Chỉ định các vấn đề LLM sẽ được giải quyết. Với sự hiểu biết về các khái niệm LLM, chúng ta có thể xác định các hành động sẽ được thực hiện bởi mô hình (nghĩa là đó là vấn đề phân loại, tạo hoặc chuyển đổi văn bản) và đặt câu hỏi phù hợp với các điểm tham chiếu làm lời nhắc.
  • Nhắc lặp đi lặp lại. Khi phát triển một mô hình dữ liệu, đôi khi chúng ta trải qua một quá trình lặp đi lặp lại. Sau khi xây dựng mô hình ban đầu, chúng tôi đánh giá kết quả, tinh chỉnh và thử lại trong suốt quá trình. Tương tự như vậy đối với lời nhắc, chúng tôi phân tích nơi kết quả không cung cấp những gì bạn muốn và tinh chỉnh nó bằng hướng dẫn rõ ràng hơn, ví dụ bổ sung hoặc các bước cụ thể. Điều này đòi hỏi khả năng lập luận phản biện mà hầu hết các Nhà phân tích dữ liệu đều đã thành thạo.
  • Lập phiên bản và quản lý kịp thời. Với lời nhắc lặp đi lặp lại, bạn sẽ phải thực hiện nhiều lần nhắc, và các khả năng và/hoặc giới hạn của mô hình đã xác định. Điều quan trọng là phải theo dõi và ghi lại những phát hiện này để nhóm học tập và cải tiến liên tục, cũng như với bất kỳ phân tích dữ liệu hiện có nào khác.
  • Thiết kế nhắc nhở an toàn. Mặc dù đã thể hiện những năng lực ấn tượng nhưng LLM vẫn đang ở giai đoạn rất sơ khai và dễ mắc phải những sơ hở, hạn chế. Có vấn đề về ảo giác này khi các mô hình cung cấp thông tin gây hiểu lầm cao và nguy cơ nhận được văn bản không đáng tin cậy cũng được sử dụng như một phần của lời nhắc. Tùy thuộc vào trường hợp sử dụng của mô hình và lời nhắc, Nhà phân tích có thể tư vấn các biện pháp bảo vệ có lập trình để hạn chế việc sử dụng lời nhắc và phân tích phát hiện lời nhắc có vấn đề.

Ngoài việc tận dụng các kỹ năng hiện có, Nhà phân tích cần trau dồi kỹ năng giao tiếp và khả năng giải quyết vấn đề để cung cấp lời nhắc tốt hơn.

Các mô hình ngôn ngữ lớn đã cho thấy kết quả đầy hứa hẹn trong việc thực hiện nhiều loại nhiệm vụ ngôn ngữ và kỹ thuật nhanh chóng là chìa khóa để mở khóa các khả năng này. Kỹ thuật nhanh chóng là giao tiếp hiệu quả với AI để đạt được kết quả mong muốn.

Một số kỹ thuật có thể được sử dụng để thực hiện kỹ thuật nhanh chóng, nhưng nguyên tắc cơ bản là nhất quán. Đó là về việc cung cấp các hướng dẫn rõ ràng cho mô hình và giúp nó tiêu hóa và xử lý các hướng dẫn này. Nhà phân tích dữ liệu có thể tận dụng kiến ​​thức ngữ cảnh và kỹ năng giải quyết vấn đề của họ để đưa ra lời nhắc phù hợp và tận dụng khả năng kỹ thuật của họ để thiết kế các biện pháp bảo vệ kịp thời.

Để biết thêm tài nguyên về kỹ thuật nhanh chóng, hãy xem:

Tôi tin rằng lĩnh vực này sẽ còn phát triển hơn nữa trong vài năm tới và tôi rất vui khi được chứng kiến ​​cũng như tham gia vào quá trình phát triển đó.


Leave a Reply

Your email address will not be published. Required fields are marked *