Crawl bài viết

Crawl bài viết giúp bạn lấy nội dung từ một URL bên ngoài, bóc dữ liệu cơ bản và, nếu muốn, dịch sang tiếng Việt trước khi đưa về quy trình biên tập trong CMS.

Crawl bài viết

Ảnh minh họa chụp từ môi trường local ngày 14/03/2026. Đây là màn nhập URL nguồn và chọn công cụ dịch trước khi hệ thống bắt đầu lấy dữ liệu.

Khi nào nên dùng màn này?

  • cần nhập nhanh bài từ nguồn báo chí hoặc website đối tác
  • muốn lấy khung nội dung ban đầu để biên tập lại thay vì copy thủ công
  • cần dịch nháp sang tiếng Việt trước khi editor rà nội dung cuối

Cách sử dụng từng bước

  1. Dán URL bài nguồn vào ô nhập.
  2. Chọn công cụ dịch đang được phép dùng, ví dụ ChatGPT.
  3. Nếu muốn hệ thống dịch nội dung sang tiếng Việt, bật Dịch tiếng Việt.
  4. Bấm Lấy dữ liệu.
  5. Chờ hệ thống lấy tiêu đề, mô tả, ảnh và nội dung.
  6. Kiểm tra lại kết quả trước khi lưu hoặc chuyển sang bước biên tập tiếp theo.

Kết quả bạn nên rà lại sau khi crawl

  • tiêu đề có bị quá dài hoặc sai ngữ cảnh không
  • ảnh đại diện có lấy đúng ảnh chính không
  • nội dung có bị dư quảng cáo, watermark hoặc đoạn giới thiệu thừa không
  • các heading và đoạn văn có bị đứt câu sau khi dịch không

Tình huống không nên dùng

  • URL nguồn bị chặn bot hoặc yêu cầu đăng nhập
  • bài có bố cục quá đặc thù, nhiều block tương tác hoặc script động
  • nội dung cần biên tập nghiêm ngặt theo brand voice ngay từ đầu

Crawl xong không có nghĩa là có thể publish ngay

Màn này giúp lấy dữ liệu ban đầu nhanh hơn. Sau bước crawl, bạn vẫn nên rà tiêu đề, category, thumbnail, trích đoạn và nội dung trước khi đưa sang bước lưu hoặc publish.