Bỏ qua, đến nội dung

Hướng dẫn cài đặt và sử dụng — AI Knowledge Base

Yêu cầu hệ thống

  • Plugin plugin-ai đã được kích hoạt và cấu hình ít nhất một LLM provider
  • LLM provider phải hỗ trợ embedding model (ví dụ: OpenAI text-embedding-3-small)
  • (Tuỳ chọn) PostgreSQL với extension pgvector cho hiệu suất tìm kiếm vector tốt hơn

Bước 1: Kích hoạt plugin

Vào Settings → Plugin Manager, tìm plugin-ai-knowledge-base và bật. Plugin này phụ thuộc vào plugin-ai — đảm bảo plugin AI đã hoạt động trước.

Bước 2: Tạo Knowledge Base

Vào Settings → AI → Knowledge Bases, nhấn Create:

TrườngMô tảVí dụ
NameTên knowledge base"Chính sách nhân sự"
DescriptionMô tả nội dung và phạm vi"Tất cả quy định về nghỉ phép, lương thưởng..."
Embedding ModelModel tạo vector embeddingtext-embedding-3-small (khuyến nghị)

Chọn Embedding Model

  • text-embedding-3-small: Cân bằng giữa chi phí và chất lượng, phù hợp hầu hết trường hợp
  • text-embedding-3-large: Chất lượng tốt hơn, chi phí cao hơn gấp 5 lần
  • Model local (qua Ollama): Miễn phí nhưng chất lượng phụ thuộc model

Bước 3: Thêm tài liệu

  1. Nhấn Add Documents trong knowledge base đã tạo
  2. Upload file — các định dạng được hỗ trợ:
Định dạngGhi chú
PDFHỗ trợ cả text-based và scanned (cần OCR)
DOCXMicrosoft Word
TXTPlain text
MDMarkdown
CSVDữ liệu dạng bảng
  1. Hệ thống tự động xử lý theo pipeline:
  1. Theo dõi trạng thái xử lý:
    • processing — đang xử lý (chunking + embedding)
    • ready — hoàn tất, sẵn sàng tìm kiếm
    • failed — lỗi, kiểm tra log để xử lý

Bước 4: Cấu hình Chunking

Chunking quyết định cách tài liệu được chia nhỏ trước khi embedding:

Tham sốMặc địnhMô tảKhuyến nghị
Chunk Size1000Số ký tự mỗi chunk500–1500 tuỳ loại tài liệu
Chunk Overlap200Số ký tự chồng lấp giữa các chunks10–20% chunk size
SeparatorparagraphCách chia: paragraph, sentence, fixedparagraph cho tài liệu dài

Lưu ý về Chunk Size

  • Chunk quá lớn → tìm kiếm kém chính xác (nhiều thông tin không liên quan)
  • Chunk quá nhỏ → mất ngữ cảnh, câu trả lời không đầy đủ
  • Bắt đầu với mặc định 1000, điều chỉnh dựa trên kết quả thực tế

Bước 5: Gán Knowledge Base vào AI Bot

  1. Vào Settings → AI → Bots → Edit bot
  2. Trong phần Skills, thêm knowledge base đã tạo
  3. Bot sẽ tự động truy vấn knowledge base khi nhận câu hỏi liên quan

Cơ chế RAG (Retrieval Augmented Generation)

Cập nhật tài liệu

  • Thêm tài liệu mới: Upload trực tiếp — hệ thống tạo chunks và embeddings bổ sung
  • Cập nhật tài liệu: Xoá bản cũ → upload bản mới (hệ thống tự tạo lại toàn bộ)
  • Incremental update: Khi dữ liệu collection thay đổi, plugin tự động cập nhật index

Lưu ý quan trọng

  • Chất lượng câu trả lời phụ thuộc trực tiếp vào chất lượng tài liệu — tài liệu rõ ràng, có cấu trúc cho kết quả tốt hơn
  • Tài liệu lớn (> 100 trang) mất thời gian xử lý — theo dõi qua trạng thái processing
  • Nên tạo nhiều knowledge base theo chủ đề thay vì gộp tất cả vào một — giúp tìm kiếm chính xác hơn
  • Embedding model ảnh hưởng trực tiếp đến độ chính xác của retrieval
  • File tối đa 50MB — chia file lớn hơn thành nhiều phần
  • Chi phí embedding tính theo số token — tài liệu lớn sẽ tốn nhiều API calls