Quy trình — AI Delivery Playbook

Khám phá & Khoanh vùng

› Khách thực sự muốn gì, và làm sao biết ta đã giao đúng?

Vấn đề trong một câu: "<người dùng> muốn <làm X> để <kết quả>."
Thu thập 5–10 cặp ví dụ vào → ra lý tưởng. Đây là bộ eval của bạn.
Ghi rõ cái gì ngoài phạm vi. Thống nhất tiêu chí thành công đo được + ràng buộc (ngân sách, độ trễ, ngôn ngữ, bảo mật).

Cổng: có bản phạm vi một trang + các cặp ví dụ vào/ra. Không viết nổi ví dụ? Bạn chưa hiểu vấn đề.

↓

Dữ liệu & Tri thức

› Có kiến thức nào model cần mà nó chưa được học không?

Kiểm kê nguồn: tài liệu, FAQ, ticket, một DB, một API, hay không có gì.
Gắn nhãn mỗi nguồn ổn định (chính sách, sổ tay) vs động (tồn kho, giá, trạng thái đơn).
Kiểm tra chất lượng (chính xác, mới, một ngôn ngữ, máy đọc được) và ước lượng khối lượng.

Cổng: bạn biết chính xác câu trả lời phụ thuộc vào kiến thức nào và nó ở đâu. Điều này quyết định GĐ 3.

↓

Cách tiếp cận — prompt, RAG, hay fine-tune

› Kiến thức cần thiết đến với model bằng cách nào?

Dùng cây quyết định ở trang Chọn LLM. Thiên hướng mặc định: prompt < long-context < RAG < fine-tune.

Cổng: cách tiếp cận đã được ghi lại kèm lý do.

↓

Chọn Model

› Đâu là model rẻ nhất vượt qua eval?

Mặc định dùng họ Claude; bắt đầu ở bậc rẻ nhất, chỉ leo khi bị bắt buộc.
Chỉ định tuyến riêng bước khó cho model mạnh hơn trước khi nâng cấp toàn bộ.
Dùng model mạnh hơn làm giám khảo eval so với model bạn triển khai.

Cổng: chọn model vì eval đã đậu ở bậc đó — không phải vì cảm thấy an toàn. Chi tiết ở trang Chọn LLM.

↓

Dựng lát cắt mỏng

› Phiên bản đầu-cuối nhỏ nhất xử lý được một ví dụ thật là gì?

Nối toàn bộ pipeline cho MỘT đầu vào: vào → (truy hồi) → prompt → model → ra.
Thêm rào chắn sớm: từ chối / "tôi không biết" khi câu trả lời không có trong KB; không bao giờ bịa sự kiện, giá, hay hành động.
Giữ prompt trong version control.

Cổng: một ví dụ thật chạy thông đầu-cuối và cho ra câu trả lời hợp lý, bám nguồn.

↓

Đánh giá (Eval)

› Làm sao chứng minh nó hoạt động — cho ta và cho khách?

Biến ví dụ ở GĐ 1 thành bộ chuẩn (đầu vào + câu trả lời lý tưởng).
Chấm tự động: kiểm tra từ khóa/khớp chính xác + một LLM giám khảo (độ đúng + độ bám nguồn: mọi khẳng định đều có ngữ cảnh truy hồi chống lưng).
Theo dõi bảng điểm; quan sát chi phí & độ trễ song song với chất lượng — cả ba đều là sản phẩm.

Cổng: có bảng điểm và đạt tiêu chí thành công của GĐ 1. Eval chưa xanh thì chưa ra mắt.

↓

Triển khai, Giám sát & Bàn giao

› Đã chạy, được giám sát, và người khác (không phải tác giả) bảo trì được chưa?

Ra mắt qua bề mặt nhỏ nhất mà chạy được (CLI, API nội bộ, webhook, widget).
Log mọi request: đầu vào, ngữ cảnh truy hồi, đầu ra, model, token, chi phí, độ trễ. Thêm tín hiệu phản hồi.
Đặt cảnh báo ngân sách. Viết runbook một trang. Lên lịch eval lại — kho tri thức sẽ cũ đi.

Cổng: đã chạy production, có log, có cảnh báo ngân sách, tài liệu đủ để bàn giao.

Vòng lặp

Giai đoạn 4–6 là một vòng lặp, không phải đường thẳng: chọn model → dựng → eval → (yếu quá? leo một bậc hoặc thêm RAG; đắt quá? hạ một bậc hoặc rút gọn prompt) → eval lại. Bạn thoát ra khi eval xanh và chi phí vừa ngân sách. Vòng lặp đó chính là toàn bộ công việc.