Một phương pháp lặp lại được cho đội ngũ: bảy giai đoạn mà mọi dự án AI đều đi qua, những câu hỏi cụ thể cần trả lời ở mỗi giai đoạn, và một dự án mẫu chạy thật — từ đề bài của khách đến chọn model, quyết định RAG hay không, và chứng minh nó hoạt động.
Chúng ta bán dịch vụ AI với giá thấp. Điều đó chỉ khả thi nếu phương pháp lặp lại được và không ai phải nghĩ lại từ đầu cho mỗi dự án. Model mạnh hơn, RAG, fine-tuning, thêm hạ tầng — mỗi thứ là một chi phí, phải biện minh bằng một con số trên bảng điểm eval, không phải bằng cảm tính.
Vấn đề trong một câu. 5–10 ví dụ vào/ra (đây sẽ là bộ eval). Cái gì nằm ngoài phạm vi.
Câu trả lời cần kiến thức gì, nó ổn định hay thay đổi liên tục, và nằm ở đâu?
Chỉ prompt, long-context, RAG, hay fine-tune? Theo cây quyết định, rẻ nhất trước.
Bắt đầu ở bậc rẻ nhất. Chỉ leo lên khi eval bắt buộc. Dùng model mạnh hơn để chấm điểm.
Phiên bản đầu-cuối nhỏ nhất cho một ví dụ thật — kèm rào chắn ngay từ ngày đầu.
Bộ chuẩn + LLM chấm điểm về độ đúng & độ bám nguồn. Eval chưa xanh thì chưa ra mắt.
Bề mặt nhỏ nhất hữu ích, log mọi request, cảnh báo ngân sách, runbook, lịch eval lại. Người khác (không phải tác giả) bảo trì được.