Bài crawl
Ở phiên bản admin hiện tại, Bài crawl không còn chỉ là một danh sách record đã crawl. Màn này đã trở thành bảng điều phối toàn bộ workspace crawl: theo dõi URL, parse run, staging summary và cả cấu hình nguồn crawl.

Ảnh minh họa chụp từ môi trường local ngày 14/03/2026. Workspace crawl hiện đã có URL, parse run và staging summary mẫu để bạn hình dung đúng cách đọc pipeline thực tế.
Màn này dùng để làm gì?
- theo dõi tổng số URL đang có trong workspace crawl
- lọc URL theo nguồn, trạng thái hoặc loại dữ liệu
- xem chất lượng staging trước khi đưa dữ liệu sang bước sau
- cấu hình và điều phối nguồn crawl ở phần
Control Workspace
Các khu vực chính
Bộ lọc nâng cao: lọc theosource,status,typehoặc từ khóa URLThẻ thống kê: tổng URL, URL đã parse, URL lỗi, URL bị chặn, số parse run và số staging itemURL inventory: danh sách URL trung tâm để bạn biết pipeline đang xử lý đến đâuRecent parse runs: lịch sử các lần parser chạy gần đâyStaging summary: tóm tắt entity đã bóc tách và mức chất lượng trung bìnhControl Workspace: nơi quản lýSources,Rules,Review Queue,BundlesvàPublish Logs
Cách đọc nhanh một workspace crawl
- Nhìn hàng thống kê trước để biết workspace đang hoạt động tốt hay đang có nhiều URL lỗi.
- Dùng bộ lọc để thu hẹp danh sách theo nguồn hoặc trạng thái cần xử lý.
- Mở
URL inventoryđể xem URL nào đã parse, URL nào còn treo hoặc lỗi. - Xem
Recent parse runsnếu nghi ngờ pipeline vừa chạy lỗi. - Kiểm tra
Staging summaryđể biết dữ liệu bóc tách đã đủ sạch chưa. - Nếu cần chỉnh lại nguồn, vào
Control Workspace.
Khi nào nên xuống Control Workspace?
- cần thêm nguồn crawl mới
- cần sửa URL seed
- cần đổi ngưỡng hoặc logic review
- cần kiểm tra bundle đã sẵn sàng publish hay chưa
Lưu ý khi vận hành
- không nên đẩy quá nhiều URL mới nếu chưa rà lại
sourcevàseed - nếu số
Failed URLshoặcBlocked URLstăng nhanh, nên kiểm tra lại nguồn trước - khi
Staging summarycho thấy chất lượng thấp, nên review kỹ rồi mới đồng bộ tiếp
Đây là màn điều phối kỹ thuật nhiều hơn màn biên tập
Nếu mục tiêu của bạn là biên tập một bài cụ thể, hãy dùng Crawl bài viết hoặc mở record chi tiết. Bài crawl phù hợp hơn cho việc theo dõi pipeline và nguồn crawl theo lô.

