Đây là hai lựa chọn junior sai nhiều nhất. Quyết cả hai bằng sơ đồ và eval — không bằng cảm tính. Rẻ nhất trước, mỗi lần nâng cấp phải biện minh bằng một con số.
RAG = trước khi trả lời, lấy vài đoạn liên quan nhất trong kiến thức của khách và đưa vào prompt. Đi cây này từ trên xuống và dừng ở nhánh khớp đầu tiên.
prompt < long-context < RAG < fine-tune. Phần lớn dự án doanh nghiệp dừng ở RAG. Fine-tuning hiếm — nó dạy hành vi, không phải sự kiện, và RAG + prompt tốt thường thắng với công sức ít hơn nhiều.
Bảng giá & phương pháp nhỏ + ổn định → ghim vào prompt (long-context); dự án cũ tăng dần và độ tương đồng quan trọng → RAG trên chúng; đây là sự kiện chứ không phải phong cách viết (không fine-tune). → ghim + RAG.
sentence-transformers chạy local (vd all-MiniLM-L6-v2). Chạy CPU, $0 mỗi lần gọi, không khóa nhà cung cấp. Đủ tốt cho KB nhỏ/vừa.Mặc định dùng họ Claude và chọn theo bậc. Kiểm tra giá hiện hành trong tài liệu Anthropic trước khi báo giá cho khách — ID và bậc bên dưới, giá có thể đổi.
| Bậc | Model ID | Khi nào dùng |
|---|---|---|
| rẻ / nhanh | claude-haiku-4-5-20251001 | Mặc định của ta. Khối lượng lớn, phạm vi rõ: phân loại, trích xuất, trả lời RAG bám nguồn, soạn nháp. |
| cân bằng | claude-sonnet-4-6 | Suy luận khó hơn, nhiều bước, đầu vào mơ hồ, vòng lặp agent. Cũng là giám khảo eval tốt. |
| mạnh nhất | claude-opus-4-8 | Suy luận khó nhất / agent / ca biên — hoặc làm giám khảo eval nghiêm khắc cho model rẻ hơn đang dùng. |
Ta bắt đầu trên Haiku và chạy eval — nó cấu trúc đề xuất kém và bám sai con số ước lượng. Soạn một đề xuất mạch lạc, bám nguồn là suy luận thực sự, nên ta leo một bậc lên claude-sonnet-4-6 và chấm bằng claude-opus-4-8. Eval quyết định, không phải cảm tính.