AI Memorization: khi mô hình không chỉ học mà còn tái tạo nguyên văn nội dung gốc

Trang chủ > Tin tức > Chuyên mục Ngày

AI Memorization: khi mô hình không chỉ học mà còn tái tạo nguyên văn nội dung gốc

11/02/2026 17:14

Trong nhiều năm qua, các công ty AI luôn kể cho anh em một câu chuyện rất dễ nghe: các mô hình AI hiện đại “học” giống con người, chúng không ghi nhớ từng cuốn sách hay bài viết cụ thể, mà chỉ rút ra “mẫu hình ngôn ngữ” trừu tượng. Nhưng những nghiên cứu mới đây, trong đó có một nghiên cứu của nhóm Stanford và Yale về khả năng trích xuất sách từ các mô hình thương mại, đang làm nứt vỡ câu chuyện đó.

Thực tế khó chịu hơn nhiều: các mô hình AI không chỉ học, chúng lưu trữ, và trong những điều kiện nhất định, chúng có thể phun ngược lại những đoạn văn rất dài từ dữ liệu huấn luyện ban đầu, từ Harry Potter, 1984, The Great Gatsby cho đến các bài luận nổi tiếng. Và đây không phải là một chi tiết kỹ thuật vô hại, mà là một cơn ác mộng về pháp lý, kinh tế và kiểm soát hình ảnh cho cả ngành công nghiệp AI, nhất là khi nhiều công ty từng cam đoan với cơ quan quản lý rằng “mô hình không chứa bản sao dữ liệu huấn luyện”.

“Memorization” ở đây thực sự là gì?

Khi các nhà nghiên cứu nói về “memorization”, sự ghi nhớ, họ không có ý nói rằng AI nhớ theo kiểu con người nhớ một kỷ niệm hay một câu chuyện. Ở đây, “ghi nhớ” có nghĩa rất cụ thể: trong mô hình tồn tại những cấu trúc đủ chi tiết để khi được gợi đúng cách, nó có thể tái tạo lại những đoạn văn gần như nguyên vẹn từ các cuốn sách, bài báo hay tác phẩm nghệ thuật mà nó từng được huấn luyện.

Nghiên cứu của các nhóm học thuật cho thấy, với những prOmpt được thiết kế cẩn thận, một số mô hình ngôn ngữ lớn có thể xuất ra gần như toàn bộ nội dung của các cuốn sách nổi tiếng, từ Harry Potter cho đến 1984 hay Frankenstein. Có trường hợp, chỉ cần vài token đầu tiên như “Mr. and Mrs. D”, mô hình Llama 3.1‑70B có thể tiếp tục chính xác câu mở đầu của Harry Potter rồi “lăn” tiếp cho đến khi tái tạo gần trọn cuốn sách, chỉ thiếu vài câu ngắn. Đây không phải là chuyện “tình cờ trùng lặp vài câu”. Trong nhiều trường hợp, hàng nghìn, thậm chí hàng chục nghìn chữ được tái tạo lại gần như nguyên xi, và một số nghiên cứu còn ước tính rằng trung bình 8–15% văn bản do LLM tạo ra trùng hệt với nội dung đã tồn tại trên web.

Điều này mâu thuẫn trực tiếp với tuyên bố lâu nay của các công ty AI rằng mô hình “không chứa bản sao của dữ liệu huấn luyện”. Thực tế cho thấy, nếu không phải là bản sao theo nghĩa truyền thống, thì đó cũng là một dạng sao chép có thể kích hoạt được, chỉ là được “nén” và ẩn sâu trong tham số mô hình.

Nén mất dữ liệu và sự khác biệt với cách con người học

Để hiểu rõ hơn chuyện này, cần bỏ qua ẩn dụ “AI học như con người”, vốn rất hấp dẫn về mặt truyền thông, và nhìn vào cách các kỹ sư mô tả chính công nghệ của họ: lossy compression, tức nén mất dữ liệu.

Hãy nghĩ đến file JPEG hay MP3. Khi anh em nén một bức ảnh hay một bài nhạc, anh em không giữ nguyên toàn bộ dữ liệu gốc, nhưng thuật toán vẫn giữ lại đủ thông tin để tái tạo lại một phiên bản rất giống bản ban đầu. AI hoạt động theo cách tương tự: nó “nuốt” một lượng dữ liệu khổng lồ, sau đó nén lại thành một mô hình nhỏ hơn rất nhiều, nhưng vẫn có khả năng tạo ra các đầu ra trông quen thuộc một cách đáng ngờ. Với mô hình tạo sinh ảnh như Stable Diffusion, điều này thể hiện rất rõ: chỉ với một caption trùng với mô tả gốc, mô hình có thể sinh ra hình ảnh gần như giống hệt poster phim, ảnh promo trên web hoặc tranh minh họa của nghệ sĩ, đôi khi chỉ khác ở vài chi tiết nhỏ và một lớp “nhiễu” mờ kiểu JPEG.

Điểm khác biệt quan trọng là: con người học thông qua trải nghiệm, cảm giác, suy luận và ý thức. Khi đọc một cuốn sách, con người không thể “phun” lại từng câu chữ chính xác sau hàng năm trời. AI thì khác. Nó không có trải nghiệm, không có cảm xúc, không có phán đoán thẩm mỹ. Nó chỉ lưu trữ các mối liên hệ thống kê giữa những mảnh ngôn ngữ và ngữ cảnh, và khi điều kiện đủ chính xác, những mối liên hệ đó dẫn thẳng đến văn bản gốc, giống như giải nén một file nén chất lượng thấp chứ không phải “hiểu” nội dung theo nghĩa thông thường.

Cách các mô hình ngôn ngữ giữ lại sách vở

Về mặt kỹ thuật, văn bản trong sách không được đưa vào AI dưới dạng “nguyên khối”. Chúng bị bẻ nhỏ thành các token, có thể là từ, mảnh từ, dấu câu hay khoảng trắng. Mô hình sẽ áp dụng thuật toán để xác định trong ngữ cảnh A, token nào có khả năng xuất hiện tiếp theo.

Sau hàng tỷ ví dụ như vậy, mô hình trở thành một “bản đồ xác suất” khổng lồ. Khi tạo văn bản, nó đơn giản là đi dọc theo bản đồ này, chọn token có xác suất cao nhất tại mỗi bước. Vấn đề nằm ở chỗ: với những tác phẩm phổ biến, xuất hiện nhiều lần và có cấu trúc ngôn ngữ đặc thù, bản đồ này dày đặc đến mức nó chứa cả con đường hoàn chỉnh của tác phẩm gốc. Ở cấp độ nghiên cứu, người ta có thể nhìn vào các xác suất nội bộ này và thấy rằng đường đi “tối ưu” qua không gian token của mô hình thực chất chính là văn bản của một cuốn sách hay bài luận cụ thể.

Chỉ cần đưa vào vài token mở đầu chính xác, mô hình có thể “trượt” theo con đường đó và tái tạo lại gần như toàn bộ văn bản. Việc thêm một chút ngẫu nhiên trong quá trình sinh văn bản – thứ thường được quảng bá là để tăng “sáng tạo” – thực chất cũng giúp che giấu việc sao chép này, chứ không loại bỏ nó; khi giảm hoặc loại bỏ ngẫu nhiên và khéo “mớm” đầu vào, mô hình bộc lộ rõ mức độ ghi nhớ.

Và vì thế, đây là vấn đề pháp lý và kinh tế lớn

Vậy thì, nếu AI có thể tái tạo tác phẩm có bản quyền, câu hỏi pháp lý trở nên rất nhạy cảm. Thứ nhất, người ta có thể lập luận rằng bản thân mô hình đã là một bản sao bất hợp pháp, dù là ở dạng nén, hoặc là một tập “hướng dẫn” có khả năng tạo lại bản sao theo yêu cầu. Nếu tòa án chấp nhận cách hiểu này, hậu quả không chỉ là tiền phạt, mà còn có thể buộc các công ty phải hủy và huấn luyện lại toàn bộ mô hình bằng dữ liệu có bản quyền hợp lệ.

Thứ hai, ngay cả khi coi mô hình chỉ là “công cụ tạo bản sao theo yêu cầu”, việc không thể đảm bảo rằng người dùng sẽ không khai thác khả năng này cũng đủ để khiến sản phẩm bị yêu cầu rút khỏi thị trường. Những biện pháp chặn hiện tại tỏ ra mong manh, dễ bị lách bằng cách thay đổi câu chữ hoặc cố tình viết sai chính tả, giống như cách một số người lách hạn chế của Sora bằng cách yêu cầu video “crossing aminal” thay vì “Animal Crossing” để mô hình vẫn tạo ra nội dung rất giống game thật. Một tòa án ở Đức trong vụ GEMA đã đi xa hơn, xem việc dùng lời bài hát để huấn luyện ChatGPT là hành vi xâm phạm, và ví cách mô hình lưu trữ lời bài hát với các dạng nén mất dữ liệu như MP3.

Về mặt kinh tế, toàn bộ ngành AI đang dựa vào giả định rằng việc huấn luyện trên kho tri thức nhân loại là hợp pháp và không cần đền bù tương xứng. Nếu giả định này sụp đổ, mô hình kinh doanh hiện tại sẽ lung lay tận gốc, vì các công ty có thể phải trả phí bản quyền rất lớn, hoặc giới hạn đáng kể loại dữ liệu họ được phép sử dụng.

Kiểm soát câu chuyện và nghiên cứu bị kìm hãm

Một chi tiết đáng lo ngại khác là: nghiên cứu về memorization dường như không được khuyến khích phát triển. Nhiều nhà nghiên cứu cho biết các công ty AI có xu hướng né tránh, gây áp lực pháp lý hoặc trực tiếp cản trở những công trình đào sâu vào vấn đề này; một số người chỉ dám chia sẻ ẩn danh vì lo sợ bị trả đũa.

Trong khi đó, câu chuyện “AI học như con người” vẫn được lặp đi lặp lại, với những so sánh như “dạy trẻ em viết văn” được viện dẫn cả trong tòa án, bởi nó giúp xoa dịu công chúng, thuyết phục tòa án, và giữ cho bánh xe đầu tư tiếp tục quay. Các lãnh đạo như Sam Altman còn nói về “quyền được học” của AI từ sách báo, như một cách gắn mô hình với hình ảnh con người đọc sách, dù thực tế mô hình đang nén và tái tạo lại nội dung chứ không “học” bằng trải nghiệm. Khi một công nghệ trị giá hàng nghìn tỷ đô phụ thuộc vào một ẩn dụ đẹp đẽ nhưng sai lệch, việc bóp nghẹt những câu hỏi khó trở thành điều dễ hiểu, dù không thể chấp nhận về mặt đạo đức khoa học.

Kết luận

Thật ra, cuộc khủng hoảng “memorization” không chỉ là một tranh cãi kỹ thuật. Nó buộc loài người phải nhìn thẳng vào bản chất của AI hiện đại: không phải một trí tuệ đang học hỏi như con người, mà là một hệ thống nén và tái tạo thông tin ở quy mô chưa từng có, đôi khi đến mức có thể khôi phục gần trọn vẹn cả một cuốn sách hay một bài luận từ vài gợi ý ngắn. Khi hiểu đúng điều đó, những câu hỏi về bản quyền, công bằng, và tương lai của sáng tạo trở nên không thể né tránh, đặc biệt khi các vụ kiện như của The New York Times tố GPT‑4 sao chép gần nguyên văn nhiều bài báo cho thấy vấn đề không chỉ nằm trong phòng thí nghiệm mà đã xuất hiện ngay trên sản phẩm thương mại.

Có lẽ điều nguy hiểm nhất không phải là việc AI ghi nhớ, mà là việc ngành công nghiệp cố gắng khiến chúng ta tin rằng nó không làm vậy, đồng thời dùng ngôn ngữ “học hỏi”, “sáng tạo” để làm mờ ranh giới giữa nén‑sao chép và hiểu‑sáng tác. Và chỉ khi câu chuyện được kể lại một cách trung thực hơn, xã hội mới có thể đưa ra những quyết định đúng đắn về việc cho phép công nghệ này đi xa đến đâu.

Tin xem thêm

Nubia sẽ ra mắt điện thoại thông minh tích hợp trợ lý ảo đầu tiên trên thế giới.

Chuyên mục Ngày

09/07/2026 09:55

MXH mygo - Nubia sẽ ra mắt điện thoại thông minh tích hợp trợ lý ảo đầu tiên trên thế giới.

Apple sẽ ngừng hỗ trợ ổ đĩa Mac OS Extended được mã hóa vào năm tới

Chuyên mục Ngày

08/07/2026 23:34

MXH mygo - Apple đã công bố một tài liệu hỗ trợ mới cảnh báo rằng macOS 28 sẽ không còn hỗ trợ các ổ đĩa Mac OS Extended (HFS+) được mã hóa, có nghĩa là các ổ đĩa ngoài b...

iPhone gập - bắt nguồn từ niềm cảm hứng Samsung?

Chuyên mục Ngày

08/07/2026 23:12

MXH mygo - Thiết bị được mong chờ nhất của Apple năm nay đánh dấu vị thế dẫn đầu ngành của Samsung và ifan sẽ có được một thiết kế mà Samsung đã dành nhiều năm để xây dựn...

Samsung dự kiến lợi nhuận tăng gấp 18 lần nhờ nhu cầu bộ nhớ AI tăng vọt

Chuyên mục Ngày

07/07/2026 10:08

MXH mygo - Sự bùng nổ về bộ nhớ của Samsung tiếp tục tăng trưởng mạnh mẽ, nhưng phép tính cộng thêm có thể làm phức tạp con số tổng quan.

Microsoft tiếp tục làn sóng nhân viên, mảng Xbox bị ảnh hưởng nặng nề..

Chuyên mục Ngày

07/07/2026 09:51

MXH mygo - Microsoft sa thải gần 5.000 nhân viên trên toàn bộ mảng Xbox và bán hàng thương mại.

Anthropic khởi động các chương trình nghiên cứu liên quan tới mảng dược phẩm

Chuyên mục Ngày

06/07/2026 15:30

MXH mygo - Anthropic khởi động các chương trình nghiên cứu phát hiện thuốc riêng để giải quyết các bệnh mà các công ty dược phẩm lớn cho là không sinh lời.

Alibaba được cho là cấm nhân viên sử dụng Claude Code

Chuyên mục Ngày

06/07/2026 15:09

MXH mygo - Theo nhiều nguồn tin, Alibaba (Trung Quốc) sẽ cấm nhân viên sử dụng Claude Code – công cụ lập trình của Anthropic – bắt đầu từ ngày 10 tháng 7.

Vivo X500 Pro Max sẽ được nâng cấp camera lớn nhất trong nhiều năm qua.

Chuyên mục Ngày

05/07/2026 23:01

MXH mygo - Thông số kỹ thuật camera chi tiết bị rò rỉ của Vivo X500 Pro Max hé lộ về bản nâng cấp camera lớn nhất của Vivo trong nhiều năm qua.

Vì sao bạn không thể tắt âm thanh chụp ảnh trên iPhone phiên bản Nhật Bản?

Chuyên mục Ngày

05/07/2026 22:32

MXH mygo - Không nhiều người biết: Vì sao bạn không thể tắt âm thanh chụp ảnh trên iPhone phiên bản Nhật Bản?

nội dung mới