
Agent là gì, khác Agentic chỗ nào, rồi AI với Chatbot AI khác biệt ra sao? Training dataset là cái gì mà người ta hay nhắc tới cùng với LLM, rồi đã có model xong lại còn có multimodal là sao,…. Là những câu hỏi mà mình hay gặp các bạn đặt ra khi vô tình đọc ở đâu đó trong các nội dung nói về AI, về mô hình ngôn ngữ lớn, machine learning,… Trong bài viết này, mình xin tổng hợp lại các thuật ngữ AI một cách đơn giản và ngắn gọn nhất cho bạn nào lỡ quên có thể theo dõi ha.
Agents: hệ thống AI có thể tự động hoàn thành các tác vụ theo ý muốn của người dùng.
Agentic: một bước tiến xa hơn của agent. Nó sẽ là một tập hợp những agent để tự động thích nghi, biết sử dụng công cụ,… tự nói chuyện với nhau để thực hiện nhiều nhiệm vụ một cách linh hoạt.
AR - Augmented Reality: hình ảnh do máy tính tạo ra "nằm trên" hình ảnh của thế giới ngoài đời thật.
AlphaQubit: một bộ decoder (giải mã) có khả năng nhận diện chính xác lỗi tính toán lượng tử.
Alignment - Định hướng: Một quy trình xây dựng các model AI bằng cách mã hóa các giá trị và đạo đức của con người.
Chatbot: Phần mềm được thiết kế để mô phỏng một cuộc hội thoại online. Thí dụ ChatGPT, Gemini Chatbot,…
Computer Vision: một nhánh AI cho phép máy tính "nhìn" và hiểu hình ảnh, video.
Datasets (hoặc training sets): Một lượng lớn dữ liệu đầu vào (có thể là văn bản, hình ảnh, video, số liệu) đưa vào trong model AI.
Deep Learning: Một cách tiếp cận của Machine Learning, sử dụng cấu trúc mô phỏng lại hoạt động của mạng nơ ron thần kinh trong não người để giải quyết vấn đề.
Distillation - chưng cất: Tạo ra một phiên bản nhỏ hơn của một LLM có sẵn, model này sẽ có ít tham số hơn nên sẽ giúp sinh ra câu trả lời nhanh hơn.
Encoder: Một hệ thống machine learning biến đổi dữ liệu đầu vào.
Feedback loop: Một trạng thái mà khi đó, những dự đoán của model gây ảnh hưởng lên tập dữ liệu huấn luyện ở model đó hoặc một model khác.
Foundation Model: các model AI tạo sinh được huấn luyện trên lượng cực lớn dữ liệu "nền tảng" để dạy chúng các đặc điểm và tính chất ẩn chứa trong dữ liệu đó.
Generative Adversarial Network (GAN): Một hệ thống với 2 thành phần A và B, A sẽ tạo ra dữ liệu giả để cố gắng đánh lừa B tưởng dữ liệu đó là thật. Thông qua kiểu huấn luyện liên tục như thế này, A sẽ cải thiện khả năng tạo ra dữ liệu giống thật, trong khi B sẽ được tăng cường khả năng đánh giá.
Generative AI - AI tạo sinh: Một dạng Ai sử dụng các model foundation để tạo ra những nội dung mới như văn bản, hình ảnh, âm thanh hoặc video. Bằng cách học tập đặc điểm và tính chất ẩn chứa bên dưới tập dữ liệu huấn luyện, model sẽ tạo ra các đầu ra bằng cách lắp ghép những gì nó đã học được từ dữ liệu huấn luyện.
GPT (Generative Pre-trained Transformer): Một nhóm mô hình ngôn ngữ lớn được phát triển bởi OpenAI. Nhóm này là các model decoder.
Hallucianation - ảo giác AI: Những dữ liệu, thông tin do GenAI tạo ra trông rất hợp lý nhưng không có thật.
Integration: Quá trình tích hợp công nghệ và các tính năng AI vào những hệ thống, ứng dụng hoặc workflow sẵn có để tăng cường khả năng, hiệu quả và quá trình ra quyết định.
JAX: một ngôn ngữ cho phép bạn viết code tính toán số học (giống NumPy) nhưng nó sẽ tự động biến code đó thành phiên bản siêu nhanh, có khả năng tính đạo hàm và chạy hiệu quả trên các phần cứng mạnh mẽ như GPU/TPU.
Keras: một thư viện mã nguồn mở thuộc framework phát triển các model machine learning viết bằng Python bởi Google và được tích hợp vào trong TensorFlow.
Large Language Model (LLM): một dạng AI, giống như GPT hay Gemini, được huấn luyện dựa trên hàng tỷ văn bản và nhiều nội dung khác để được dùng nhằm xử lý các tác vụ.
Machine Learning: Một chương trình hoặc hệ thống huấn luyện một model từ dữ liệu đầu vào. Các model đã huấn luyện có thể tạo ra những dự đoán từ những dữ liệu lấy từ nguồn tương tự như dữ liệu huấn luyện, nhưng các dữ liệu này model chưa từng thấy.
Multimodal - đa phương thức hoặc đa kiểu dữ liệu: các hệ thống có khả năng hiểu và xử lý thông tin từ nhiều loại dữ liệu khác nhau ( cả văn bản, hình ảnh, video, âm thanh,… ) cùng một lúc, giống như cách con người cảm nhận thế giới.
Neural network: một hệ thống machine learning được thiết kế bằng cách mô phỏng một cách dơn giản hóa não người, sử dụng nhiều lớp chứa các node liên kết đan xen nhau.
Offline inference - suy luận local: Một chuỗi những dự đoán có thể được cache lại để truy cập mà không cần mạng.
Personalisatuon: biến đổi các câu trả lời hay dự đoán của AI duwajwj vào dữ liệu và thói quen sử dụng của người dùng.
prOmpt: Một câu hỏi hoặc câu lệnh đưa vào cho LLM để kích hoạt quá trình tạo ra phản hồi.
RAG - Retrieval augmented generation: Một kỹ thuật giúp cải thiện độ chính xác của các phản hồi của LLM bằng cách cung cấp thêm cho các LLM đã dược huấn luyện các thông tin trích xuất từ những nguồn, văn bản tin cậy đã kiểm chứng bởi con người.
Tokens: Để Ai xử lý văn bản, nó phải bẻ văn bản nhỏ ra thành những đơn vị gọi là token.
Tensor Processing Unit: các nhân xử lý được thiết kế để chạy các workload machine learning.
Transformer: một kiến trúc manjhg nơ ron để xử lý dữ liệu tuần tự bằng cách hiểu ngữ cảnh của nó. Đây là kiến trúc được các nhà nghiên cứu Google giới thiệu hồi năm 2017 và chính là một trong những cội nguồn quan trọng nhất của GenAI mà chúng ta biết bây giờ.
Unsupervised machine learning - học không giám sát: một model được thiết kế để tìm ra đặc tính của một tập dữ liệu không được gắn nhãn trước.
XLA: một trình biên dịch machine learning mã nguồn mở, còn được gọi là Accelerarated Linear Algebra - Tăng tốc đại số tuyến tính, được thiết kế để tối ưu hóa các model AI.
Zero-shot learning: trạng thái các model suy luận ra một dự đoán để hoàn thành một tác vụ mà nó chưa được huấn luyện trước đó.