Nội dung chính
- 1 Tổng quan luồng dự án
- 2 1) Lên ý tưởng & xác định scope
- 3 2) Thiết kế dữ liệu (Data plan)
- 4 3) Thu thập & chuẩn hóa dữ liệu
- 5 4) Exploratory Data Analysis (EDA)
- 6 5) Pipeline tiền xử lý (production-ready)
- 7 6) Chọn model & chiến lược training
- 8 7) Huấn luyện & theo dõi (experiments)
- 9 8) Đánh giá model, debug lỗi, validation
- 10 9) Tối ưu model & export
- 11 10) Xây dựng API phục vụ model (Flask / FastAPI)
- 12 11) Đóng gói & triển khai (Docker, VPS, K8s)
- 13 12) CI/CD, monitoring, model versioning
- 14 13) Privacy / Ethics / Legal checklist
- 15 14) Checklist triển khai cuối cùng (pre-release)
- 16 15) Hình ảnh / Sơ đồ: cách tạo & mã để sinh
- 17 16) Ví dụ dự án minh họa: cây nhận diện (quick-repro)
- 18 17) Những lỗi hay gặp và cách debug nhanh
- 19 18) Tài liệu & nguồn học tham khảo (ngắn gọn)
- 20 Kết luận (ngắn)
Tổng quan luồng dự án
User → (Upload / Data collection) → Preprocess → Train → Eval → Export model → Serve via API → Client (Web/Mobile) → Feedback → Retrain.
Sơ đồ luồng (ASCII)
1) Lên ý tưởng & xác định scope

Mục tiêu rõ ràng
-
Xác định bài toán: classification/regression/detection/segmentation.
-
Ví dụ: “Nhận diện tên cây cảnh (multi-class classification) từ ảnh RGB một cây trong khung”.
-
Xác định output: tên cây + confidence. Không thêm chăm sóc/tư vấn (theo yêu cầu).
Yêu cầu phi chức năng (non-functional)
-
Response time mục tiêu (local demo): <1s inference (model nhẹ).
-
Mức accuracy mục tiêu (ban đầu): >= 85% trên tập test thực tế.
-
Triển khai ban đầu: chạy local bằng Flask.
Deliverables
-
Dataset chuẩn, scripts train, model export, Flask API, README + hướng dẫn cài đặt.
2) Thiết kế dữ liệu (Data plan)
Xác định classes & số lượng cần cho mỗi class
-
Bắt đầu với 20–50 loài phổ biến.
-
Mỗi class tối thiểu 100 ảnh (tốt nhất 300–1000 ảnh/class nếu được).
Metadata cần thu
-
filename, class_label, source, date_collected, camera_exif (nếu có), location (opt-in), user_feedback.
Lưu trữ
-
Dùng cấu trúc thư mục chuẩn:
-
Dùng object storage (S3/minio) nếu dữ liệu lớn.
3) Thu thập & chuẩn hóa dữ liệu
Thu thập
-
Tự chụp, lấy từ iNaturalist/Flickr/Kaggle (chú ý license), crowdsourcing.
-
Viết script scraper (requests + selenium nếu cần) hoặc dùng
google-images-download/bing-image-downloader.
Kiểm tra & lọc
-
Loại bỏ ảnh mờ, watermark, quá nhỏ. Dùng script kiểm tra resolution/size.
-
Mở từng class kiểm tra chất lượng.

Be the first to comment