Bài crawl

Ở phiên bản admin hiện tại, Bài crawl không còn chỉ là một danh sách record đã crawl. Màn này đã trở thành bảng điều phối toàn bộ workspace crawl: theo dõi URL, parse run, staging summary và cả cấu hình nguồn crawl.

Bài crawl

Ảnh minh họa chụp từ môi trường local ngày 14/03/2026. Workspace crawl hiện đã có URL, parse run và staging summary mẫu để bạn hình dung đúng cách đọc pipeline thực tế.

Màn này dùng để làm gì?

  • theo dõi tổng số URL đang có trong workspace crawl
  • lọc URL theo nguồn, trạng thái hoặc loại dữ liệu
  • xem chất lượng staging trước khi đưa dữ liệu sang bước sau
  • cấu hình và điều phối nguồn crawl ở phần Control Workspace

Các khu vực chính

  • Bộ lọc nâng cao: lọc theo source, status, type hoặc từ khóa URL
  • Thẻ thống kê: tổng URL, URL đã parse, URL lỗi, URL bị chặn, số parse run và số staging item
  • URL inventory: danh sách URL trung tâm để bạn biết pipeline đang xử lý đến đâu
  • Recent parse runs: lịch sử các lần parser chạy gần đây
  • Staging summary: tóm tắt entity đã bóc tách và mức chất lượng trung bình
  • Control Workspace: nơi quản lý Sources, Rules, Review Queue, BundlesPublish Logs

Cách đọc nhanh một workspace crawl

  1. Nhìn hàng thống kê trước để biết workspace đang hoạt động tốt hay đang có nhiều URL lỗi.
  2. Dùng bộ lọc để thu hẹp danh sách theo nguồn hoặc trạng thái cần xử lý.
  3. Mở URL inventory để xem URL nào đã parse, URL nào còn treo hoặc lỗi.
  4. Xem Recent parse runs nếu nghi ngờ pipeline vừa chạy lỗi.
  5. Kiểm tra Staging summary để biết dữ liệu bóc tách đã đủ sạch chưa.
  6. Nếu cần chỉnh lại nguồn, vào Control Workspace.

Khi nào nên xuống Control Workspace?

  • cần thêm nguồn crawl mới
  • cần sửa URL seed
  • cần đổi ngưỡng hoặc logic review
  • cần kiểm tra bundle đã sẵn sàng publish hay chưa

Lưu ý khi vận hành

  • không nên đẩy quá nhiều URL mới nếu chưa rà lại sourceseed
  • nếu số Failed URLs hoặc Blocked URLs tăng nhanh, nên kiểm tra lại nguồn trước
  • khi Staging summary cho thấy chất lượng thấp, nên review kỹ rồi mới đồng bộ tiếp

Đây là màn điều phối kỹ thuật nhiều hơn màn biên tập

Nếu mục tiêu của bạn là biên tập một bài cụ thể, hãy dùng Crawl bài viết hoặc mở record chi tiết. Bài crawl phù hợp hơn cho việc theo dõi pipeline và nguồn crawl theo lô.