1. Quản lý tri thức
Đây là chức năng quan trọng bậc nhất của hệ thống, tại đây quản trị hệ thống sẽ vận hành và xử lý những tài liệu được quản trị viên đưa vào và biến chúng thành những tri thức phục vụ hỏi đáp.
RAG là công nghệ cốt lõi giúp AI Agent có khả năng tìm kiếm và trả lời dựa trên nội dung tài liệu nội bộ. Màn hình "Quản lý RAG" là trung tâm điều khiển quá trình này, cho phép quản trị viên quản lý việc Phân đoạn (Chunking) và Embedding tài liệu.
Phân đoạn (Chunking): Là quá trình chia nhỏ một tài liệu lớn thành các đoạn văn bản (chunks) nhỏ hơn, có ý nghĩa. Việc này giúp AI dễ dàng tìm thấy thông tin liên quan một cách chính xác.
Embedding: Là quá trình chuyển đổi mỗi đoạn văn bản (chunk) thành một chuỗi số (vector). Quá trình này giúp hệ thống có thể so sánh và tìm kiếm sự tương đồng về mặt ngữ nghĩa giữa câu hỏi của người dùng và nội dung trong tài liệu.
1.1. Màn hình Quản lý RAG - Chunking Document
Đây là giao diện chính để quản trị viên theo dõi và thực hiện các hành động liên quan đến việc phân đoạn và embedding cho từng tài liệu trong hệ thống.
Hướng dẫn truy cập:
1. Từ menu điều hướng bên trái, nhấp vào mục "Quản lý RAG".
2. Một menu con sẽ hiện ra, nhấp vào "Chunking document" (được tô sáng trong hình).
Các thành phần chính trên màn hình:
Thanh tìm kiếm và bộ lọc: Cho phép tìm kiếm và lọc tài liệu theo tên, nhóm, trạng thái phân đoạn, và trạng thái embedding.
Bảng danh sách tài liệu:
Cột Phân đoạn: Hiển thị trạng thái chunking của tài liệu.
Chưa phân đoạn (màu cam): Tài liệu chưa được xử lý.
Đã phân đoạn (màu xanh lá): Tài liệu đã được chia thành các chunks.
Cột Embedding: Hiển thị trạng thái embedding của các chunks.
Chưa embedding (màu cam): Các chunks chưa được chuyển đổi thành vector.
Đã embedding (màu xanh lá): Các chunks đã sẵn sàng để được tìm kiếm.
Cột Hành động: Chứa các nút thao tác tương ứng với trạng thái của tài liệu.

1.2. Màn hình chi tiết Phân đoạn tài liệu
Sau khi nhấp vào "Xem phân đoạn", cửa sổ này sẽ hiện ra, cho phép quản trị viên xem, chỉnh sửa và quản lý từng chunk riêng lẻ của một tài liệu.
Hướng dẫn quản lý từng chunk:
1. Xem danh sách các chunks:
Màn hình hiển thị danh sách các đoạn đã được phân tách từ tài liệu gốc (ví dụ: Phân đoạn #1, Phân đoạn #2, ...).
Bạn có thể xem nội dung đầy đủ của từng chunk.
Trạng thái Đã Embedding cho biết chunk này đã được xử lý và sẵn sàng cho việc tìm kiếm.
2. Để chỉnh sửa nội dung một chunk:
Tìm đến chunk bạn muốn chỉnh sửa.
Nhấp vào nút Sửa.
Một ô soạn thảo văn bản sẽ hiện ra, cho phép bạn thay đổi nội dung của chunk.
Lưu lại sau khi hoàn tất. Thao tác này rất hữu ích để làm sạch hoặc tối ưu hóa nội dung cho AI.
3. Để xóa một chunk:
Tìm đến chunk bạn muốn xóa.
Nhấp vào nút Xóa màu đỏ.
Chunk đó sẽ bị loại bỏ khỏi cơ sở tri thức.
4. Để thêm một chunk mới thủ công:
Nhấp vào nút + Thêm phân đoạn ở góc trên bên trái cửa sổ.
Một ô soạn thảo sẽ hiện ra để bạn nhập nội dung cho chunk mới.
Chunk mới này sau đó cũng cần được Embedding để có thể sử dụng.
5. Tìm kiếm và lọc các chunks:
Sử dụng ô Tìm phân đoạn... để tìm kiếm nội dung trong các chunks.
Sử dụng các tab bộ lọc (Tất cả, Đang hoạt động, Đã embedding...) để lọc danh sách.
6. Đóng cửa sổ:
Sau khi hoàn tất việc quản lý, nhấp vào nút Đóng màu xanh dương ở góc dưới bên phải để quay lại màn hình Quản lý RAG chính.

1.3. Quy trình xử lý tài liệu
Quy trình xử lý một tài liệu mới để AI có thể sử dụng bao gồm 2 bước chính: Phân đoạn và Embedding.
Bước 1: Phân đoạn tài liệu (Chunking)
Mô tả: Đây là bước đầu tiên, nhằm chia nhỏ tài liệu thành các chunks. Hướng dẫn thực hiện:
1. Từ màn hình Quản lý RAG, tìm tài liệu có trạng thái "Chưa phân đoạn" (màu cam).
2. Nhấp vào nút Phân đoạn màu xanh dương trong cột "Hành động".
3. Cửa sổ "Cấu hình phân đoạn tài liệu" sẽ xuất hiện.
Cấu hình phân đoạn tài liệu:
Cấu hình Embedding (cho quá trình phân đoạn):
Loại Embedding: Chọn phương pháp, ví dụ: "Sentence Transformers".
Mô hình: Chọn mô hình cụ thể để xử lý, ví dụ: "paraphrase-multilingual-MiniLM-L12-v2".
Ngôn ngữ: Chọn ngôn ngữ của tài liệu, ví dụ: "Tiếng Việt".
Ngưỡng tương đồng (Threshold): Thanh trượt để đặt ngưỡng giống nhau về ngữ nghĩa khi tìm kiếm (giá trị từ 0 đến 1).
Cấu hình kích thước phân đoạn:
Độ dài tối thiểu câu: Số lượng từ tối thiểu để một câu được xem xét.
Kích thước chunk tối thiểu: Số lượng từ/ký tự tối thiểu cho mỗi chunk.
Kích thước chunk tối đa: Số lượng từ/ký tự tối đa cho mỗi chunk.
Kích thước overlap: Số lượng từ/ký tự mà hai chunk liên tiếp sẽ trùng nhau để đảm bảo ngữ cảnh không bị mất.
Làm sạch văn bản: Tùy chọn để tự động loại bỏ các khoảng trắng thừa và ký tự không cần thiết.
4. Sau khi đã thiết lập các thông số phù hợp, nhấp vào nút Phân đoạn tài liệu ở góc dưới bên phải.
5. Hệ thống sẽ bắt đầu xử lý. Sau khi hoàn tất, trạng thái của tài liệu sẽ chuyển thành "Đã phân đoạn" (màu xanh lá).

Bước 2: Tạo Embedding cho các chunks
Mô tả: Sau khi tài liệu đã được phân đoạn, bạn cần tạo embedding (vector) cho các chunks đó để hệ thống có thể tìm kiếm. Hướng dẫn thực hiện:
1. Tìm tài liệu có trạng thái "Đã phân đoạn" và "Chưa embedding".
2. Nhấp vào nút Embedding trong cột "Hành động".
3. Cửa sổ "Cấu hình Embedding" sẽ xuất hiện.
Cấu hình Embedding:
Model Type: Chọn loại mô hình, ví dụ: "Online" (sử dụng API) hoặc "Local" (sử dụng mô hình cài đặt trên máy chủ).
Nhà cung cấp mô hình: Chọn nhà cung cấp của mô hình online (ví dụ: OpenAI, Google).
Tên mô hình: Chọn tên mô hình cụ thể sẽ dùng để tạo embedding.
API Key: Nhập khóa API nếu hệ thống không tự động nhận diện được.
Batch Size: Số lượng chunks sẽ được xử lý trong mỗi lô để tối ưu hiệu suất.
4. Sau khi điền đầy đủ thông tin, nhấp vào nút Embedding ở góc dưới bên phải.
5. Hệ thống sẽ tiến hành tạo vector. Khi hoàn tất, trạng thái embedding của tài liệu sẽ chuyển thành "Đã embedding" (màu xanh lá). Lúc này, tài liệu đã hoàn toàn sẵn sàng để AI sử dụng.

Last updated