Chi tiết bài crawl
Chi tiết bài crawl là màn đi sâu vào một URL hoặc record crawl cụ thể. Đây là nơi phù hợp cho QA crawler, reviewer kỹ thuật hoặc người phụ trách nguồn dữ liệu khi cần biết pipeline đã bóc tách được gì.
Trên màn này thường có gì?
- thông tin URL nguồn và trạng thái tổng quát
- các chỉ số đếm như số staging item, số entity group, bundle và review item liên quan
- bảng
staging items entity summarybundle projectionreview queue- các URL liên quan và lịch sử parse gần đây
Khi nào cần vào màn này?
- màn Bài crawl chưa đủ để kết luận một record đã sẵn sàng chưa
- URL crawl bị lỗi, thiếu trường hoặc chất lượng staging thấp
- cần xem dữ liệu pipeline đã tách ra theo từng entity
- cần biết bundle nào đã được build hoặc publish từ record này
Cách đọc theo thứ tự dễ hiểu
- Xem header và phần chỉ số tổng quát.
- Kiểm tra
staging itemsđể xem dữ liệu đã bóc tách ra sao. - So
entity summaryđể biết nhóm dữ liệu nào đầy đủ, nhóm nào còn thiếu. - Xem
review queuenếu record còn điểm cần duyệt. - Kiểm tra
bundle projectionvà trạng thái publish nếu URL đã đi xa trong pipeline.
Đây là màn nghiệp vụ sâu
Không phải editor nào cũng cần dùng màn này hằng ngày. Nó phù hợp hơn cho người phụ trách crawl, QA dữ liệu hoặc người đang xử lý sự cố pipeline.

