Scraping là kỹ thuật không có luật chuyên biệt ở VN — phải đánh giá theo nhiều luật khác. Tóm tắt từng loại risk:
1. Vi phạm hợp đồng (ToS)
Mọi website có ToS cấm scraping. Vi phạm ToS = vi phạm hợp đồng. Linkedin v. hiQ (Mỹ) là case nổi tiếng — Tòa cuối cùng phán LinkedIn không thể ngăn scraping public data, nhưng hiQ đã tốn vài năm + nhiều triệu USD.
2. Bản quyền
Content trong scrape thường có bản quyền. Crawl về cho nghiên cứu có thể OK (điều 25 SHTT), nhưng tái sử dụng/redistribute không phép = vi phạm.
3. Bảo vệ dữ liệu cá nhân
Nghị định 13/2023/NĐ-CP (BV DLCN): xử lý dữ liệu cá nhân cần có sự đồng ý của chủ thể. Scrape Facebook profile = thu thập DLCN không đồng ý = vi phạm. Phạt 5%-2 tỷ doanh thu theo NĐ 13.
4. Luật An ninh mạng
Điều 17 Luật An ninh mạng: truy cập trái phép vào hệ thống = tội phạm. Bypass anti-bot, login giả... có thể bị truy cứu hình sự.
5. Truy cập có ý nghĩa nào?
Public data + tuân thủ robots.txt + rate limit hợp lý = thường OK. Scrape sau login, ignore robots.txt, hammer server = risk cao.
Cách an toàn
(1) Dùng API chính thức nếu có (Twitter API, Reddit API, Google API). (2) Mua dataset thương mại từ Kaggle, Hugging Face, Common Crawl. (3) Scrape open data chính phủ (data.gov.vn, các dataset CC).