Xây dựng niềm tin và sự an toàn cho các ứng dụng AI sáng tạo với Amazon Comprehend và LangChain

Được xuất bản lại bởi Plato

Người theo dõi: 0

Chúng ta đang chứng kiến sự gia tăng nhanh chóng trong việc áp dụng các mô hình ngôn ngữ lớn (LLM) nhằm hỗ trợ các ứng dụng AI tổng quát trong các ngành công nghiệp. LLM có khả năng thực hiện nhiều nhiệm vụ khác nhau, chẳng hạn như tạo nội dung sáng tạo, trả lời các câu hỏi thông qua chatbot, tạo mã, v.v.

Các tổ chức muốn sử dụng LLM để hỗ trợ ứng dụng của họ ngày càng cảnh giác về quyền riêng tư dữ liệu để đảm bảo duy trì sự tin cậy và an toàn trong các ứng dụng AI tổng quát của họ. Điều này bao gồm việc xử lý đúng cách dữ liệu thông tin nhận dạng cá nhân (PII) của khách hàng. Nó cũng bao gồm việc ngăn chặn nội dung lạm dụng và không an toàn được truyền tới LLM và kiểm tra xem dữ liệu do LLM tạo ra có tuân theo các nguyên tắc tương tự hay không.

Trong bài đăng này, chúng tôi thảo luận về các tính năng mới được cung cấp bởi Amazon hiểu cho phép tích hợp liền mạch để đảm bảo quyền riêng tư của dữ liệu, an toàn nội dung và an toàn nhanh chóng trong các ứng dụng AI thế hệ mới và hiện có.

Xây dựng niềm tin và sự an toàn cho các ứng dụng AI tổng hợp với Amazon Comprehend và LangChain | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Amazon Comprehend là dịch vụ xử lý ngôn ngữ tự nhiên (NLP) sử dụng máy học (ML) để khám phá thông tin trong dữ liệu phi cấu trúc và văn bản trong tài liệu. Trong bài đăng này, chúng tôi thảo luận lý do tại sao sự tin cậy và an toàn với LLM lại quan trọng đối với khối lượng công việc của bạn. Chúng tôi cũng nghiên cứu sâu hơn về cách sử dụng các khả năng kiểm duyệt mới này với khung phát triển AI tổng quát phổ biến. LangChain để giới thiệu cơ chế tin cậy và an toàn có thể tùy chỉnh cho trường hợp sử dụng của bạn.

Tại sao sự tin cậy và an toàn với LLM lại quan trọng

Sự tin cậy và an toàn là điều tối quan trọng khi làm việc với LLM do chúng có tác động sâu sắc đến nhiều ứng dụng, từ chatbot hỗ trợ khách hàng đến tạo nội dung. Khi các mô hình này xử lý lượng lớn dữ liệu và tạo ra phản hồi giống con người, khả năng sử dụng sai hoặc dẫn đến kết quả ngoài ý muốn sẽ tăng lên. Việc đảm bảo rằng các hệ thống AI này hoạt động trong phạm vi ranh giới đạo đức và đáng tin cậy là rất quan trọng, không chỉ đối với danh tiếng của các doanh nghiệp sử dụng chúng mà còn để duy trì niềm tin của người dùng cuối và khách hàng.

Hơn nữa, khi LLM ngày càng được tích hợp nhiều hơn vào trải nghiệm kỹ thuật số hàng ngày của chúng ta, thì ảnh hưởng của chúng đối với nhận thức, niềm tin và quyết định của chúng ta sẽ tăng lên. Việc đảm bảo sự tin cậy và an toàn với LLM không chỉ dừng lại ở các biện pháp kỹ thuật; nó nói lên trách nhiệm rộng lớn hơn của những người thực hành và tổ chức AI trong việc duy trì các tiêu chuẩn đạo đức. Bằng cách ưu tiên sự tin cậy và an toàn, các tổ chức không chỉ bảo vệ người dùng của mình mà còn đảm bảo sự phát triển bền vững và có trách nhiệm của AI trong xã hội. Nó cũng có thể giúp giảm nguy cơ tạo ra nội dung có hại và giúp tuân thủ các yêu cầu quy định.

Trong lĩnh vực tin cậy và an toàn, kiểm duyệt nội dung là một cơ chế giải quyết các khía cạnh khác nhau, bao gồm nhưng không giới hạn ở:

Quyền riêng tư – Người dùng có thể vô tình cung cấp văn bản chứa thông tin nhạy cảm, gây nguy hiểm cho quyền riêng tư của họ. Việc phát hiện và xử lý lại bất kỳ PII nào là điều cần thiết.
Độc tính – Việc nhận biết và lọc ra những nội dung có hại, chẳng hạn như lời nói căm thù, đe dọa hoặc lạm dụng, là điều vô cùng quan trọng.
Ý định của người dùng – Việc xác định xem đầu vào của người dùng (lời nhắc) là an toàn hay không an toàn là rất quan trọng. Lời nhắc không an toàn có thể thể hiện rõ ràng hoặc ngầm ý định độc hại, chẳng hạn như yêu cầu thông tin cá nhân hoặc riêng tư và tạo ra nội dung xúc phạm, phân biệt đối xử hoặc bất hợp pháp. Lời nhắc cũng có thể ngầm thể hiện hoặc yêu cầu tư vấn về y tế, pháp lý, chính trị, gây tranh cãi, cá nhân hoặc tài chính.

Kiểm duyệt nội dung với Amazon Comprehend

Trong phần này, chúng ta thảo luận về lợi ích của việc kiểm duyệt nội dung với Amazon Comprehend.

Giải quyết quyền riêng tư

Amazon Comprehend đã giải quyết vấn đề quyền riêng tư thông qua khả năng phát hiện và xử lý PII hiện có thông qua Phát hiện PIIThực thể và ChứaPIIentities API. Hai API này được hỗ trợ bởi các mô hình NLP có thể phát hiện một số lượng lớn thực thể PII như số An sinh xã hội (SSN), số thẻ tín dụng, tên, địa chỉ, số điện thoại, v.v. Để biết danh sách đầy đủ các thực thể, hãy tham khảo Các loại thực thể phổ quát PII. DetectPII cũng cung cấp vị trí cấp ký tự của thực thể PII trong văn bản; ví dụ: vị trí ký tự bắt đầu của thực thể NAME (John Doe) trong câu “Tên tôi là Jôi Doe” là 12 và vị trí ký tự cuối là 19. Những khoảng lệch này có thể được sử dụng để thực hiện che giấu hoặc loại bỏ các giá trị, do đó giảm rủi ro khi truyền dữ liệu riêng tư vào LLM.

Giải quyết độc tính và an toàn kịp thời

Hôm nay, chúng tôi sẽ công bố hai tính năng mới của Amazon Comprehend dưới dạng API: Phát hiện độc tính thông qua DetectToxicContent API và phân loại an toàn nhanh chóng thông qua ClassifyDocument API. Lưu ý rằng DetectToxicContent là một API mới, trong khi đó ClassifyDocument là một API hiện có hỗ trợ phân loại an toàn nhanh chóng.

Phát hiện độc tính

Với tính năng phát hiện độc tính của Amazon Comprehend, bạn có thể xác định và gắn cờ nội dung có thể gây hại, xúc phạm hoặc không phù hợp. Khả năng này đặc biệt có giá trị đối với các nền tảng nơi người dùng tạo nội dung, chẳng hạn như các trang truyền thông xã hội, diễn đàn, chatbot, phần bình luận và ứng dụng sử dụng LLM để tạo nội dung. Mục tiêu chính là duy trì một môi trường tích cực và an toàn bằng cách ngăn chặn việc phổ biến nội dung độc hại.

Về cốt lõi, mô hình phát hiện độc tính sẽ phân tích văn bản để xác định khả năng văn bản đó có chứa nội dung thù địch, đe dọa, tục tĩu hoặc các dạng văn bản có hại khác. Mô hình này được đào tạo trên các bộ dữ liệu khổng lồ chứa các ví dụ về cả hàm lượng độc hại và không độc hại. API độc tính đánh giá một đoạn văn bản nhất định để cung cấp phân loại độc tính và điểm tin cậy. Sau đó, các ứng dụng AI tổng hợp có thể sử dụng thông tin này để thực hiện các hành động thích hợp, chẳng hạn như ngăn văn bản truyền sang LLM. Theo văn bản này, các nhãn được phát hiện bởi API phát hiện độc tính là HATE_SPEECH, GRAPHIC, HARRASMENT_OR_ABUSE, SEXUAL, VIOLENCE_OR_THREAT, INSULTvà PROFANITY. Đoạn mã sau minh họa lệnh gọi API bằng Python Boto3 để phát hiện độc tính của Amazon Comprehend:

import boto3
client = boto3.client('comprehend')
response = client.detect_toxic_content( TextSegments=[{"Text": "What is the capital of France?"}, {"Text": "Where do I find good baguette in France?"}], LanguageCode='en')
print(response)

Phân loại an toàn kịp thời

Phân loại an toàn nhanh chóng bằng Amazon Comprehend giúp phân loại lời nhắc văn bản đầu vào là an toàn hoặc không an toàn. Khả năng này rất quan trọng đối với các ứng dụng như chatbot, trợ lý ảo hoặc công cụ kiểm duyệt nội dung, nơi hiểu được tính an toàn của lời nhắc có thể xác định phản hồi, hành động hoặc truyền bá nội dung tới LLM.

Về bản chất, phân loại an toàn kịp thời sẽ phân tích thông tin đầu vào của con người để tìm ra bất kỳ mục đích độc hại rõ ràng hoặc tiềm ẩn nào, chẳng hạn như yêu cầu thông tin cá nhân hoặc riêng tư và tạo ra nội dung xúc phạm, phân biệt đối xử hoặc bất hợp pháp. Nó cũng gắn cờ các lời nhắc tìm kiếm lời khuyên về các chủ đề y tế, pháp lý, chính trị, gây tranh cãi, cá nhân hoặc tài chính. Phân loại nhanh chóng trả về hai lớp, UNSAFE_PROMPT và SAFE_PROMPT, đối với văn bản được liên kết, kèm theo điểm tin cậy liên quan cho từng văn bản. Điểm tin cậy nằm trong khoảng từ 0–1 và tổng hợp sẽ bằng 1. Ví dụ: trong chatbot hỗ trợ khách hàng, văn bản “Làm thế nào để thiết lập lại mật khẩu của tôi?” báo hiệu ý định tìm kiếm hướng dẫn về quy trình đặt lại mật khẩu và được gắn nhãn là SAFE_PROMPT. Tương tự, một tuyên bố như “Tôi ước điều gì đó tồi tệ xảy ra với bạn” có thể bị gắn cờ vì có mục đích gây hại tiềm ẩn và được gắn nhãn là UNSAFE_PROMPT. Điều quan trọng cần lưu ý là việc phân loại an toàn kịp thời chủ yếu tập trung vào việc phát hiện ý định từ thông tin đầu vào của con người (lời nhắc), chứ không phải văn bản do máy tạo ra (đầu ra LLM). Đoạn mã sau đây trình bày cách truy cập tính năng phân loại an toàn nhanh chóng bằng ClassifyDocument API:

import boto3
client = boto3.client('comprehend')
response = self.client.classify_document( Text=prompt_value, EndpointArn=endpoint_arn)
print(response)

Lưu ý rằng endpoint_arn trong đoạn mã trước là do AWS cung cấp Số tài nguyên Amazon (ARN) của mẫu arn:aws:comprehend:<region>:aws:document-classifier-endpoint/prompt-safety, Nơi <region> là Khu vực AWS bạn chọn, nơi Amazon Comprehend có sẵn.

Để chứng minh những khả năng này, chúng tôi đã xây dựng một ứng dụng trò chuyện mẫu trong đó chúng tôi yêu cầu LLM trích xuất các thực thể PII như địa chỉ, số điện thoại và SSN từ một đoạn văn bản nhất định. LLM tìm và trả về các thực thể PII thích hợp, như minh họa trong hình bên trái.

Với việc kiểm duyệt Amazon Comprehend, chúng tôi có thể điều chỉnh lại đầu vào cho LLM và đầu ra từ LLM. Trong hình ảnh bên phải, giá trị SSN được phép chuyển tới LLM mà không cần chỉnh sửa. Tuy nhiên, mọi giá trị SSN trong phản hồi của LLM đều bị loại bỏ.

Sau đây là ví dụ về cách ngăn chặn hoàn toàn lời nhắc chứa thông tin PII tiếp cận LLM. Ví dụ này minh họa người dùng đặt câu hỏi có chứa thông tin PII. Chúng tôi sử dụng kiểm duyệt Amazon Comprehend để phát hiện các thực thể PII trong lời nhắc và hiển thị lỗi bằng cách làm gián đoạn luồng.

Các ví dụ trò chuyện trước đây trình bày cách kiểm duyệt của Amazon Comprehend áp dụng các hạn chế đối với dữ liệu được gửi tới LLM. Trong các phần sau, chúng tôi sẽ giải thích cách triển khai cơ chế kiểm duyệt này bằng LangChain.

Tích hợp với LangChain

Với khả năng vô tận của việc ứng dụng LLM vào nhiều trường hợp sử dụng khác nhau, việc đơn giản hóa việc phát triển các ứng dụng AI tổng quát trở nên quan trọng không kém. LangChain là một framework mã nguồn mở phổ biến giúp phát triển các ứng dụng AI có tính sáng tạo dễ dàng. Việc kiểm duyệt của Amazon Comprehend mở rộng khung LangChain để cung cấp khả năng nhận dạng và xử lý PII, phát hiện độc tính và khả năng phân loại an toàn kịp thời thông qua AmazonComprehendModerationChain.

AmazonComprehendModerationChain là một triển khai tùy chỉnh của Chuỗi cơ sở LangChain giao diện. Điều này có nghĩa là các ứng dụng có thể sử dụng chuỗi này với Chuỗi LLM để áp dụng mức kiểm duyệt mong muốn cho lời nhắc đầu vào cũng như văn bản đầu ra từ LLM. Chuỗi có thể được xây dựng bằng cách hợp nhất nhiều chuỗi hoặc bằng cách trộn các chuỗi với các thành phần khác. Bạn có thể dùng AmazonComprehendModerationChain với các chuỗi LLM khác để phát triển các ứng dụng AI phức tạp theo cách mô-đun và linh hoạt.

Để giải thích thêm, chúng tôi cung cấp một số mẫu trong các phần sau. Mã nguồn của AmazonComprehendModerationChain việc thực hiện có thể được tìm thấy trong Kho lưu trữ mã nguồn mở LangChain. Để có tài liệu đầy đủ về giao diện API, hãy tham khảo tài liệu API LangChain để biết Chuỗi kiểm duyệt của Amazon Compreh. Việc sử dụng chuỗi kiểm duyệt này cũng đơn giản như việc khởi tạo một phiên bản của lớp với cấu hình mặc định:

from langchain_experimental.comprehend_moderation import AmazonComprehendModerationChain comprehend_moderation = AmazonComprehendModerationChain()

Phía sau, chuỗi kiểm duyệt thực hiện ba lần kiểm tra kiểm duyệt liên tiếp, cụ thể là PII, độc tính và an toàn kịp thời, như được giải thích trong sơ đồ sau. Đây là quy trình mặc định cho việc kiểm duyệt.

Đoạn mã sau đây hiển thị một ví dụ đơn giản về việc sử dụng chuỗi kiểm duyệt với Amazon FalconLite LLM (là phiên bản lượng tử hóa của Mẫu Falcon 40B SFT OASST-TOP1) được lưu trữ trong Hugging Face Hub:

from langchain import HuggingFaceHub
from langchain import PromptTemplate, LLMChain
from langchain_experimental.comprehend_moderation import AmazonComprehendModerationChain template = """Question: {question}
Answer:"""
repo_id = "amazon/FalconLite"
prompt = PromptTemplate(template=template, input_variables=["question"])
llm = HuggingFaceHub(
repo_id=repo_id, model_kwargs={"temperature": 0.5, "max_length": 256}
)
comprehend_moderation = AmazonComprehendModerationChain(verbose=True)
chain = ( prompt | comprehend_moderation | { "input" : (lambda x: x['output']) | llm } | comprehend_moderation
) try: response = chain.invoke({"question": "An SSN is of the format 123-45-6789. Can you give me John Doe's SSN?"})
except Exception as e: print(str(e))
else: print(response['output'])

Trong ví dụ trước, chúng tôi tăng cường chuỗi của mình bằng comprehend_moderation cho cả văn bản đi vào LLM và văn bản do LLM tạo ra. Thao tác này sẽ thực hiện kiểm duyệt mặc định nhằm kiểm tra PII, độc tính và nhanh chóng phân loại an toàn theo trình tự đó.

Tùy chỉnh kiểm duyệt của bạn với cấu hình bộ lọc

Bạn có thể sử dụng AmazonComprehendModerationChain với các cấu hình cụ thể, mang đến cho bạn khả năng kiểm soát những biện pháp kiểm duyệt mà bạn muốn thực hiện trong ứng dụng dựa trên AI tổng quát của mình. Về cốt lõi của cấu hình, bạn có sẵn ba cấu hình bộ lọc.

Kiểm duyệtPiiConfig – Dùng để cấu hình bộ lọc PII.
Kiểm duyệtĐộc tínhCấu hình – Dùng để cấu hình bộ lọc nội dung độc hại.
Kiểm duyệtIntentConfig – Được sử dụng để cấu hình bộ lọc ý định.

Bạn có thể sử dụng từng cấu hình bộ lọc này để tùy chỉnh hoạt động kiểm duyệt của mình. Cấu hình của mỗi bộ lọc có một vài tham số chung và một số tham số duy nhất mà chúng có thể được khởi tạo. Sau khi xác định cấu hình, bạn sử dụng BaseModerationConfig lớp để xác định trình tự mà các bộ lọc phải áp dụng cho văn bản. Ví dụ: trong đoạn mã sau, trước tiên chúng tôi xác định ba cấu hình bộ lọc và sau đó chỉ định thứ tự chúng phải áp dụng:

from langchain_experimental.comprehend_moderation import (BaseModerationConfig, ModerationPromptSafetyConfig, ModerationPiiConfig, ModerationToxicityConfig) pii_config = ModerationPiiConfig(labels=["SSN"], redact=True, mask_character="X")
toxicity_config = ModerationToxicityConfig(threshold=0.6)
prompt_safety_config = ModerationPromptSafetyConfig(threshold=0.8)
moderation_config = BaseModerationConfig(filters=[ toxicity_config, pii_config, prompt_safety_config])
comprehend_moderation = AmazonComprehendModerationChain(moderation_config=moderation_config)

Hãy đi sâu hơn một chút để hiểu cấu hình này đạt được những gì:

Đầu tiên, đối với bộ lọc độc tính, chúng tôi chỉ định ngưỡng 0.6. Điều này có nghĩa là nếu văn bản chứa bất kỳ nhãn hoặc thực thể độc hại nào có sẵn có điểm lớn hơn ngưỡng, toàn bộ chuỗi sẽ bị gián đoạn.
Nếu không tìm thấy nội dung độc hại trong văn bản thì kiểm tra PII là. Trong trường hợp này, chúng tôi quan tâm đến việc kiểm tra xem văn bản có chứa các giá trị SSN hay không. Bởi vì redact tham số được đặt thành True, chuỗi sẽ che dấu các giá trị SSN được phát hiện (nếu có) trong đó điểm tin cậy của thực thể SSN lớn hơn hoặc bằng 0.5, với ký tự mặt nạ được chỉ định (X). Nếu như redact được thiết lập để False, chuỗi sẽ bị gián đoạn nếu phát hiện bất kỳ SSN nào.
Cuối cùng, chuỗi thực hiện phân loại an toàn kịp thời và sẽ ngăn nội dung lan truyền xuống chuỗi nếu nội dung được phân loại bằng UNSAFE_PROMPT với điểm tin cậy lớn hơn hoặc bằng 0.8.

Sơ đồ sau minh họa quy trình làm việc này.

Trong trường hợp chuỗi kiểm duyệt bị gián đoạn (trong ví dụ này, áp dụng cho các bộ lọc phân loại an toàn kịp thời và độc tính), chuỗi sẽ đưa ra yêu cầu Ngoại lệ Python, về cơ bản là dừng chuỗi đang diễn ra và cho phép bạn bắt ngoại lệ (trong khối thử bắt) và thực hiện bất kỳ hành động liên quan nào. Ba loại ngoại lệ có thể có là:

ModerationPIIError
ModerationToxicityError
ModerationPromptSafetyError

Bạn có thể định cấu hình một bộ lọc hoặc nhiều bộ lọc bằng cách sử dụng BaseModerationConfig. Bạn cũng có thể có cùng loại bộ lọc với các cấu hình khác nhau trong cùng một chuỗi. Ví dụ: nếu trường hợp sử dụng của bạn chỉ liên quan đến PII, bạn có thể chỉ định cấu hình phải ngắt chuỗi nếu trong trường hợp phát hiện thấy SSN; mặt khác, nó phải thực hiện việc chỉnh sửa đối với các thực thể PII tuổi và tên. Cấu hình cho điều này có thể được định nghĩa như sau:

pii_config1 = ModerationPiiConfig(labels=["SSN"], redact=False)
pii_config2 = ModerationPiiConfig(labels=["AGE", "NAME"], redact=True, mask_character="X")
moderation_config = BaseModerationConfig(filters=[ pii_config1, pii_config2])
comprehend_moderation = AmazonComprehendModerationChain(moderation_config=moderation_config)

Sử dụng lệnh gọi lại và số nhận dạng duy nhất

Nếu bạn quen với khái niệm quy trình công việc, bạn cũng có thể quen với gọi lại. Lệnh gọi lại trong quy trình làm việc là các đoạn mã độc lập chạy khi đáp ứng một số điều kiện nhất định trong quy trình làm việc. Lệnh gọi lại có thể chặn hoặc không chặn quy trình làm việc. Về bản chất, chuỗi LangChain là quy trình công việc dành cho LLM. AmazonComprehendModerationChain cho phép bạn xác định các chức năng gọi lại của riêng bạn. Ban đầu, việc triển khai chỉ giới hạn ở các hàm gọi lại không đồng bộ (không chặn).

Điều này có nghĩa là nếu bạn sử dụng lệnh gọi lại với chuỗi kiểm duyệt, chúng sẽ chạy độc lập với hoạt động của chuỗi mà không chặn chuỗi đó. Đối với chuỗi kiểm duyệt, bạn có các tùy chọn để chạy các đoạn mã, với bất kỳ logic nghiệp vụ nào, sau mỗi lần kiểm duyệt được chạy, độc lập với chuỗi.

Bạn cũng có thể tùy ý cung cấp một chuỗi định danh duy nhất tùy ý khi tạo một AmazonComprehendModerationChain để cho phép ghi nhật ký và phân tích sau này. Ví dụ: nếu bạn đang vận hành một chatbot được hỗ trợ bởi LLM, bạn có thể muốn theo dõi những người dùng thường xuyên lạm dụng hoặc cố tình hoặc vô tình tiết lộ thông tin cá nhân. Trong những trường hợp như vậy, cần phải theo dõi nguồn gốc của những lời nhắc đó và có thể lưu trữ chúng trong cơ sở dữ liệu hoặc ghi lại chúng một cách thích hợp để thực hiện hành động tiếp theo. Bạn có thể chuyển một ID duy nhất xác định rõ ràng người dùng, chẳng hạn như tên người dùng hoặc email của họ hoặc tên ứng dụng đang tạo lời nhắc.

Sự kết hợp giữa lệnh gọi lại và số nhận dạng duy nhất cung cấp cho bạn một cách mạnh mẽ để triển khai chuỗi kiểm duyệt phù hợp với trường hợp sử dụng của bạn theo cách gắn kết hơn nhiều với ít mã hơn và dễ bảo trì hơn. Trình xử lý gọi lại có sẵn thông qua BaseModerationCallbackHandler, với ba lệnh gọi lại có sẵn: on_after_pii(), on_after_toxicity()và on_after_prompt_safety(). Mỗi hàm gọi lại này được gọi không đồng bộ sau khi thực hiện kiểm tra kiểm duyệt tương ứng trong chuỗi. Các hàm này cũng nhận được hai tham số mặc định:

kiểm duyệt_đèn hiệu – Một từ điển chứa các thông tin chi tiết như văn bản nơi quá trình kiểm duyệt được thực hiện, đầu ra JSON đầy đủ của API Amazon Comprehend, loại kiểm duyệt và liệu các nhãn được cung cấp (trong cấu hình) có được tìm thấy trong văn bản hay không
duy nhất_id – ID duy nhất mà bạn đã chỉ định khi khởi tạo phiên bản của AmazonComprehendModerationChain.

Sau đây là ví dụ về cách triển khai với tính năng gọi lại. Trong trường hợp này, chúng tôi đã xác định một lệnh gọi lại mà chúng tôi muốn chuỗi chạy sau khi thực hiện kiểm tra PII:

from langchain_experimental.comprehend_moderation import BaseModerationCallbackHandler class MyModCallback(BaseModerationCallbackHandler): async def on_after_pii(self, output_beacon, unique_id): import json moderation_type = output_beacon['moderation_type'] chain_id = output_beacon['moderation_chain_id'] with open(f'output-{moderation_type}-{chain_id}.json', 'w') as file: data = { 'beacon_data': output_beacon, 'unique_id': unique_id } json.dump(data, file) ''' # implement this callback for toxicity async def on_after_toxicity(self, output_beacon, unique_id): pass # implement this callback for prompt safety async def on_after_prompt_safety(self, output_beacon, unique_id): pass ''' my_callback = MyModCallback()

Sau đó chúng tôi sử dụng my_callback đối tượng trong khi khởi tạo chuỗi kiểm duyệt và cũng chuyển một unique_id. Bạn có thể sử dụng lệnh gọi lại và số nhận dạng duy nhất có hoặc không có cấu hình. Khi bạn phân lớp BaseModerationCallbackHandler, bạn phải triển khai một hoặc tất cả các phương thức gọi lại tùy thuộc vào bộ lọc bạn định sử dụng. Để ngắn gọn, ví dụ sau đây trình bày cách sử dụng lệnh gọi lại và unique_id không có bất kỳ cấu hình nào:

comprehend_moderation = AmazonComprehendModerationChain(
moderation_callback = my_callback,
unique_id = 'john.doe@email.com')

Sơ đồ sau đây giải thích cách hoạt động của chuỗi kiểm duyệt này với các lệnh gọi lại và số nhận dạng duy nhất. Cụ thể, chúng tôi đã triển khai lệnh gọi lại PII để ghi tệp JSON với dữ liệu có sẵn trong moderation_beacon và unique_id đã được thông qua (email của người dùng trong trường hợp này).

Trong những điều sau đây Sổ ghi chép Python, chúng tôi đã biên soạn một số cách khác nhau để bạn có thể định cấu hình và sử dụng chuỗi kiểm duyệt với nhiều LLM khác nhau, chẳng hạn như LLM được lưu trữ bằng Khởi động Amazon SageMaker và được lưu trữ trong Trung tâm khuôn mặt ôm. Chúng tôi cũng đã đưa vào ứng dụng trò chuyện mẫu mà chúng tôi đã thảo luận trước đó với các ứng dụng sau: Sổ ghi chép Python.

Kết luận

Tiềm năng biến đổi của các mô hình ngôn ngữ lớn và AI có tính tổng quát là không thể phủ nhận. Tuy nhiên, việc sử dụng có trách nhiệm và có đạo đức lại phụ thuộc vào việc giải quyết các mối lo ngại về sự tin cậy và an toàn. Bằng cách nhận ra những thách thức và tích cực thực hiện các biện pháp giảm thiểu rủi ro, các nhà phát triển, tổ chức và xã hội nói chung có thể khai thác lợi ích của những công nghệ này trong khi vẫn duy trì được niềm tin và sự an toàn làm nền tảng cho sự tích hợp thành công của họ. Sử dụng Amazon Comprehend ContentModerationChain để thêm các tính năng tin cậy và an toàn vào bất kỳ quy trình làm việc LLM nào, bao gồm cả quy trình làm việc Thế hệ tăng cường truy xuất (RAG) được triển khai trong LangChain.

Để biết thông tin về cách xây dựng các giải pháp dựa trên RAG bằng cách sử dụng công nghệ máy học (ML) có độ chính xác cao của LangChain và Amazon Kendra tìm kiếm thông minh, nhìn thấy - Nhanh chóng xây dựng các ứng dụng AI Sáng tạo có độ chính xác cao trên dữ liệu doanh nghiệp bằng Amazon Kendra, LangChain và các mô hình ngôn ngữ lớn. Bước tiếp theo, hãy tham khảo mẫu mã chúng tôi đã tạo để sử dụng kiểm duyệt Amazon Comprehend với LangChain. Để có tài liệu đầy đủ về API chuỗi kiểm duyệt Amazon Comprehend, hãy tham khảo LangChain Tài liệu API.

Giới thiệu về tác giả

Wrick Talukdar là Kiến trúc sư cấp cao của nhóm Amazon Comprehend Service. Anh ấy làm việc với các khách hàng của AWS để giúp họ áp dụng công nghệ máy học trên quy mô lớn. Ngoài công việc, anh ấy thích đọc sách và chụp ảnh.

Anjan Biswas là Kiến trúc sư giải pháp dịch vụ AI cấp cao, tập trung vào AI/ML và Phân tích dữ liệu. Anjan là thành viên của nhóm dịch vụ AI trên toàn thế giới và làm việc với khách hàng để giúp họ hiểu và phát triển các giải pháp cho các vấn đề kinh doanh với AI và ML. Anjan có hơn 14 năm kinh nghiệm làm việc với các tổ chức chuỗi cung ứng, sản xuất và bán lẻ toàn cầu, đồng thời đang tích cực giúp khách hàng bắt đầu và mở rộng quy mô trên các dịch vụ AI của AWS.

Nikhil Jha là Giám đốc tài khoản kỹ thuật cấp cao tại Amazon Web Services. Các lĩnh vực trọng tâm của anh ấy bao gồm AI / ML và phân tích. Khi rảnh rỗi, anh ấy thích chơi cầu lông với con gái và khám phá các hoạt động ngoài trời.

Chín Rane là một Kiến trúc sư Giải pháp Chuyên gia về AI / ML tại Amazon Web Services. Cô ấy đam mê toán học ứng dụng và máy học. Cô tập trung vào việc thiết kế các giải pháp xử lý tài liệu thông minh cho khách hàng AWS. Ngoài giờ làm việc, cô thích khiêu vũ salsa và bachata.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/machine-learning/build-trust-and-safety-for-generative-ai-applications-with-amazon-comprehend-and-langchain/

Dấu thời gian: Tháng Mười Một 10, 2023

Dấu thời gian: Tháng Tám 11, 2022

Được xuất bản lại bởi Plato

Hội nghị ML vượt trội với Amazon SageMaker Edge và Ambarella CV25

Cung cấp nhiều mô hình với Amazon SageMaker và Triton Inference Server

Cách Sophos đào tạo một trình phát hiện phần mềm độc hại PDF nhẹ, mạnh mẽ ở quy mô cực lớn với Amazon SageMaker

Đường ống tăng cường hình ảnh cho Amazon Lookout for Vision

Xây dựng máy phát hiện bất thường về chất lượng không khí bằng Amazon Lookout for Metrics

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản