Tôi scrape data từ Shopee, Lazada, Facebook để train AI/làm dataset, có vi phạm không?

Scraping ở vùng xám pháp lý — phụ thuộc vào loại dữ liệu, ToS website, cách dùng, và quốc gia. Có rủi ro bản quyền + Luật An ninh mạng + Luật Bảo vệ dữ liệu cá nhân.

Scrape data cho AI/ML có vi phạm pháp luật? — BanQuyen.ai

Scraping là kỹ thuật không có luật chuyên biệt ở VN — phải đánh giá theo nhiều luật khác. Tóm tắt từng loại risk:

1. Vi phạm hợp đồng (ToS)

Mọi website có ToS cấm scraping. Vi phạm ToS = vi phạm hợp đồng. Linkedin v. hiQ (Mỹ) là case nổi tiếng — Tòa cuối cùng phán LinkedIn không thể ngăn scraping public data, nhưng hiQ đã tốn vài năm + nhiều triệu USD.

2. Bản quyền

Content trong scrape thường có bản quyền. Crawl về cho nghiên cứu có thể OK (điều 25 SHTT), nhưng tái sử dụng/redistribute không phép = vi phạm.

3. Bảo vệ dữ liệu cá nhân

Nghị định 13/2023/NĐ-CP (BV DLCN): xử lý dữ liệu cá nhân cần có sự đồng ý của chủ thể. Scrape Facebook profile = thu thập DLCN không đồng ý = vi phạm. Phạt 5%-2 tỷ doanh thu theo NĐ 13.

4. Luật An ninh mạng

Điều 17 Luật An ninh mạng: truy cập trái phép vào hệ thống = tội phạm. Bypass anti-bot, login giả... có thể bị truy cứu hình sự.

5. Truy cập có ý nghĩa nào?

Public data + tuân thủ robots.txt + rate limit hợp lý = thường OK. Scrape sau login, ignore robots.txt, hammer server = risk cao.

Cách an toàn

(1) Dùng API chính thức nếu có (Twitter API, Reddit API, Google API). (2) Mua dataset thương mại từ Kaggle, Hugging Face, Common Crawl. (3) Scrape open data chính phủ (data.gov.vn, các dataset CC).

Factors to consider

Vi phạm 4 luật cùng lúc

ToS (hợp đồng) + SHTT (bản quyền) + NĐ 13/2023 (DLCN) + Luật An ninh mạng. Risk tổng hợp cao.

Phạt DLCN nặng

NĐ 13/2023: phạt 1-5% doanh thu (cap 2 tỷ). Áp dụng cả startup AI.

Train AI = sao chép có hệ thống

AI nuốt toàn bộ data → tạo model là tác phẩm phái sinh. Risk vi phạm bản quyền lớn.

API chính thức tồn tại

Hầu hết platform lớn có API. Trả phí ít hơn rủi ro lawsuit nhiều.

Dataset thương mại

Common Crawl, LAION, Kaggle... có dataset to lớn, ready-to-use, license rõ ràng.

Recommended actions

AI/ML startup cần compliance check

Khi raise vốn, investor sẽ DD về dataset. Cần proof of compliance.

💬 Consult lawyer →

Ghi nhận model/algorithm của bạn

Output của AI (model weights, fine-tuning) là tác phẩm có thể được bảo vệ.

📄 Register your work →

Common Crawl, LAION dataset

commoncrawl.org, laion.ai — dataset open license dùng cho AI training.

BanQuyen.ai provides reference information only and does not replace formal legal advice. For specific opinions, please contact VDD LAWYERS.

Scrape dữ liệu từ website khác cho dự án AI/ML