Nghiên cứu của các nhóm học thuật cho thấy, với những prOmpt được thiết kế cẩn thận, một số mô hình ngôn ngữ lớn có thể xuất ra gần như toàn bộ nội dung của các cuốn sách nổi tiếng, từ Harry Potter cho đến 1984 hay Frankenstein. Có trường hợp, chỉ cần vài token đầu tiên như “Mr. and Mrs. D”, mô hình Llama 3.1‑70B có thể tiếp tục chính xác câu mở đầu của Harry Potter rồi “lăn” tiếp cho đến khi tái tạo gần trọn cuốn sách, chỉ thiếu vài câu ngắn. Đây không phải là chuyện “tình cờ trùng lặp vài câu”. Trong nhiều trường hợp, hàng nghìn, thậm chí hàng chục nghìn chữ được tái tạo lại gần như nguyên xi, và một số nghiên cứu còn ước tính rằng trung bình 8–15% văn bản do LLM tạo ra trùng hệt với nội dung đã tồn tại trên web.
Điều này mâu thuẫn trực tiếp với tuyên bố lâu nay của các công ty AI rằng mô hình “không chứa bản sao của dữ liệu huấn luyện”. Thực tế cho thấy, nếu không phải là bản sao theo nghĩa truyền thống, thì đó cũng là một dạng sao chép có thể kích hoạt được, chỉ là được “nén” và ẩn sâu trong tham số mô hình.
Để hiểu rõ hơn chuyện này, cần bỏ qua ẩn dụ “AI học như con người”, vốn rất hấp dẫn về mặt truyền thông, và nhìn vào cách các kỹ sư mô tả chính công nghệ của họ: lossy compression, tức nén mất dữ liệu.
Hãy nghĩ đến file JPEG hay MP3. Khi anh em nén một bức ảnh hay một bài nhạc, anh em không giữ nguyên toàn bộ dữ liệu gốc, nhưng thuật toán vẫn giữ lại đủ thông tin để tái tạo lại một phiên bản rất giống bản ban đầu. AI hoạt động theo cách tương tự: nó “nuốt” một lượng dữ liệu khổng lồ, sau đó nén lại thành một mô hình nhỏ hơn rất nhiều, nhưng vẫn có khả năng tạo ra các đầu ra trông quen thuộc một cách đáng ngờ. Với mô hình tạo sinh ảnh như Stable Diffusion, điều này thể hiện rất rõ: chỉ với một caption trùng với mô tả gốc, mô hình có thể sinh ra hình ảnh gần như giống hệt poster phim, ảnh promo trên web hoặc tranh minh họa của nghệ sĩ, đôi khi chỉ khác ở vài chi tiết nhỏ và một lớp “nhiễu” mờ kiểu JPEG.
Điểm khác biệt quan trọng là: con người học thông qua trải nghiệm, cảm giác, suy luận và ý thức. Khi đọc một cuốn sách, con người không thể “phun” lại từng câu chữ chính xác sau hàng năm trời. AI thì khác. Nó không có trải nghiệm, không có cảm xúc, không có phán đoán thẩm mỹ. Nó chỉ lưu trữ các mối liên hệ thống kê giữa những mảnh ngôn ngữ và ngữ cảnh, và khi điều kiện đủ chính xác, những mối liên hệ đó dẫn thẳng đến văn bản gốc, giống như giải nén một file nén chất lượng thấp chứ không phải “hiểu” nội dung theo nghĩa thông thường.