Chi tiết bài crawl

Chi tiết bài crawl là màn đi sâu vào một URL hoặc record crawl cụ thể. Đây là nơi phù hợp cho QA crawler, reviewer kỹ thuật hoặc người phụ trách nguồn dữ liệu khi cần biết pipeline đã bóc tách được gì.

Trên màn này thường có gì?

  • thông tin URL nguồn và trạng thái tổng quát
  • các chỉ số đếm như số staging item, số entity group, bundle và review item liên quan
  • bảng staging items
  • entity summary
  • bundle projection
  • review queue
  • các URL liên quan và lịch sử parse gần đây

Khi nào cần vào màn này?

  • màn Bài crawl chưa đủ để kết luận một record đã sẵn sàng chưa
  • URL crawl bị lỗi, thiếu trường hoặc chất lượng staging thấp
  • cần xem dữ liệu pipeline đã tách ra theo từng entity
  • cần biết bundle nào đã được build hoặc publish từ record này

Cách đọc theo thứ tự dễ hiểu

  1. Xem header và phần chỉ số tổng quát.
  2. Kiểm tra staging items để xem dữ liệu đã bóc tách ra sao.
  3. So entity summary để biết nhóm dữ liệu nào đầy đủ, nhóm nào còn thiếu.
  4. Xem review queue nếu record còn điểm cần duyệt.
  5. Kiểm tra bundle projection và trạng thái publish nếu URL đã đi xa trong pipeline.

Đây là màn nghiệp vụ sâu

Không phải editor nào cũng cần dùng màn này hằng ngày. Nó phù hợp hơn cho người phụ trách crawl, QA dữ liệu hoặc người đang xử lý sự cố pipeline.