Hướng dẫn cài đặt và sử dụng — AI Knowledge Base

Yêu cầu hệ thống

Plugin plugin-ai đã được kích hoạt và cấu hình ít nhất một LLM provider
LLM provider phải hỗ trợ embedding model (ví dụ: OpenAI text-embedding-3-small)
(Tuỳ chọn) PostgreSQL với extension pgvector cho hiệu suất tìm kiếm vector tốt hơn

Bước 1: Kích hoạt plugin

Vào Settings → Plugin Manager, tìm plugin-ai-knowledge-base và bật. Plugin này phụ thuộc vào plugin-ai — đảm bảo plugin AI đã hoạt động trước.

Bước 2: Tạo Knowledge Base

Vào Settings → AI → Knowledge Bases, nhấn Create:

Trường	Mô tả	Ví dụ
Name	Tên knowledge base	"Chính sách nhân sự"
Description	Mô tả nội dung và phạm vi	"Tất cả quy định về nghỉ phép, lương thưởng..."
Embedding Model	Model tạo vector embedding	`text-embedding-3-small` (khuyến nghị)

Chọn Embedding Model

text-embedding-3-small: Cân bằng giữa chi phí và chất lượng, phù hợp hầu hết trường hợp
text-embedding-3-large: Chất lượng tốt hơn, chi phí cao hơn gấp 5 lần
Model local (qua Ollama): Miễn phí nhưng chất lượng phụ thuộc model

Bước 3: Thêm tài liệu

Nhấn Add Documents trong knowledge base đã tạo
Upload file — các định dạng được hỗ trợ:

Định dạng	Ghi chú
PDF	Hỗ trợ cả text-based và scanned (cần OCR)
DOCX	Microsoft Word
TXT	Plain text
MD	Markdown
CSV	Dữ liệu dạng bảng

Hệ thống tự động xử lý theo pipeline:

Theo dõi trạng thái xử lý:
- processing — đang xử lý (chunking + embedding)
- ready — hoàn tất, sẵn sàng tìm kiếm
- failed — lỗi, kiểm tra log để xử lý

Bước 4: Cấu hình Chunking

Chunking quyết định cách tài liệu được chia nhỏ trước khi embedding:

Tham số	Mặc định	Mô tả	Khuyến nghị
Chunk Size	1000	Số ký tự mỗi chunk	500–1500 tuỳ loại tài liệu
Chunk Overlap	200	Số ký tự chồng lấp giữa các chunks	10–20% chunk size
Separator	paragraph	Cách chia: `paragraph`, `sentence`, `fixed`	`paragraph` cho tài liệu dài

Lưu ý về Chunk Size

Chunk quá lớn → tìm kiếm kém chính xác (nhiều thông tin không liên quan)
Chunk quá nhỏ → mất ngữ cảnh, câu trả lời không đầy đủ
Bắt đầu với mặc định 1000, điều chỉnh dựa trên kết quả thực tế

Bước 5: Gán Knowledge Base vào AI Bot

Vào Settings → AI → Bots → Edit bot
Trong phần Skills, thêm knowledge base đã tạo
Bot sẽ tự động truy vấn knowledge base khi nhận câu hỏi liên quan

Cơ chế RAG (Retrieval Augmented Generation)

Cập nhật tài liệu

Thêm tài liệu mới: Upload trực tiếp — hệ thống tạo chunks và embeddings bổ sung
Cập nhật tài liệu: Xoá bản cũ → upload bản mới (hệ thống tự tạo lại toàn bộ)
Incremental update: Khi dữ liệu collection thay đổi, plugin tự động cập nhật index

Lưu ý quan trọng

Chất lượng câu trả lời phụ thuộc trực tiếp vào chất lượng tài liệu — tài liệu rõ ràng, có cấu trúc cho kết quả tốt hơn
Tài liệu lớn (> 100 trang) mất thời gian xử lý — theo dõi qua trạng thái processing
Nên tạo nhiều knowledge base theo chủ đề thay vì gộp tất cả vào một — giúp tìm kiếm chính xác hơn
Embedding model ảnh hưởng trực tiếp đến độ chính xác của retrieval
File tối đa 50MB — chia file lớn hơn thành nhiều phần
Chi phí embedding tính theo số token — tài liệu lớn sẽ tốn nhiều API calls