NPU so với TPU: Sự khác biệt, ứng dụng thực tế và các bộ tăng tốc AI khác

Cập nhật lần cuối: Diễu 13, 2026
tác giả: Isaac
  • NPU ưu tiên suy luận AI tiết kiệm năng lượng ở vùng biên, trong khi TPU tập trung vào tính toán tensor quy mô lớn trên đám mây.
  • CPU và GPU vẫn là nền tảng: chúng điều phối hệ thống và tăng tốc quá trình học sâu, nhưng các bộ tăng tốc (NPU, TPU, DSP, VPU) tối ưu hóa các tác vụ cụ thể.
  • Điện thoại di động, máy tính xách tay, thiết bị NAS, ô tô và máy ảnh hiện đã tích hợp NPU, DSP và VPU để chạy AI cục bộ mà không cần luôn phụ thuộc vào điện toán đám mây.
  • Việc lựa chọn giữa NPU, TPU, GPU hay DSP phụ thuộc vào môi trường: điện toán đám mây hay điện toán biên, huấn luyện hay suy luận, khối lượng dữ liệu và các hạn chế về điện năng.

So sánh NPU và TPU

La sự bùng nổ của trí tuệ nhân tạo Nó đã mang đến rất nhiều từ viết tắt mới cho thế giới phần cứng: CPU, GPU, NPU, TPU, DSP, VPU… và mọi thứ có thể trở nên rất dễ gây nhầm lẫn. Nếu bạn đang thắc mắc tất cả các bộ phận này làm gì trong máy tính, điện thoại di động hoặc trên đám mây của mình, và đặc biệt là sự khác biệt giữa chúng là gì… NPU và TPUTại đây, bạn sẽ tìm thấy câu trả lời cho các câu hỏi của mình một cách bình tĩnh và không sử dụng thuật ngữ chuyên ngành không cần thiết.

Trong những dòng tiếp theo, chúng ta sẽ phân tích... Mỗi loại bộ xử lý là gì, chúng được sử dụng để làm gì và trong những trường hợp nào chúng phát huy hiệu quả nhất.Bạn sẽ thấy chúng được sử dụng như thế nào trong máy chủ, ở vùng biên, trong các thiết bị NAS như của QNAP, trong máy tính xách tay Windows, trong điện thoại di động và thậm chí cả trong ô tô tự lái. Ý tưởng là, đến cuối khóa học, bạn sẽ hiểu rõ nên chọn gì hoặc nên yêu cầu gì khi mọi người nói với bạn về AI, bộ tăng tốc và hiệu năng.

CPU, GPU, NPU và TPU: sơ đồ tổng quan về các bộ xử lý.

Trước khi đi sâu vào NPU và TPU, điều hữu ích là làm rõ và ghi nhớ chức năng của từng thành phần: CPU như một bộ não đa năngGPU như một cỗ máy xử lý song song mạnh mẽ, và Máy gia tốc AI (NPU, TPU, DSP, VPU) là những chuyên gia được tối ưu hóa cực cao.

CPU (Bộ xử lý trung tâm) Đây là bộ xử lý trung tâm, "bộ não" kinh điển của bất kỳ máy tính, máy chủ hoặc NAS nào. Nó bao gồm tương đối ít nhưng các lõi rất mạnh mẽ, có khả năng thực hiện các lệnh đa năng theo trình tự hoặc song song hạn chế, lý tưởng cho... hệ điều hành, ứng dụng văn phòng, máy chủ web, cơ sở dữ liệu và logic phức tạp không thể dễ dàng chia thành hàng nghìn phần độc lập.

Bên trong CPU, chúng ta tìm thấy các thành phần quan trọng như... bộ điều khiển (CU), có chức năng điều khiển luồng hướng dẫn và dữ liệu, đơn vị logic số học (ALU), thực hiện các phép toán và logic, và bộ nhớ cacheĐiều này giúp lưu trữ tạm thời các dữ liệu được sử dụng thường xuyên nhất, làm cho mọi thứ chạy nhanh hơn nhiều. Sự kết hợp này làm cho CPU cực kỳ linh hoạt, mặc dù không hiệu quả lắm khi thực hiện các phép tính song song quy mô lớn, điển hình của học sâu.

Bộ xử lý đồ họa (GPU) Nó ra đời để tăng tốc đồ họa 3D, video và hoạt hình, nhưng ngày nay nó là nữ hoàng của... tính toán song song đa năngGPU hiện đại tập hợp hàng trăm hoặc hàng nghìn đơn vị tính toán nhỏ (ALU hoặc lõi), có khả năng thực hiện cùng một thao tác trên lượng lớn dữ liệu đồng thời. Điều này làm cho nó trở nên hoàn hảo cho việc Dựng cảnh 3D, chỉnh sửa video, phát trực tuyến, khai thác tiền điện tử và huấn luyện mạng nơ-ron sâu..

Khác với CPU, GPU thường tích hợp các thành phần riêng của nó. bộ nhớ tốc độ cao (ví dụ: GDDR hoặc HBM), với băng thông khổng lồ so với RAM của hệ thống. Nhờ đó, nó có thể di chuyển khối lượng dữ liệu lớn (hình ảnh, tensor, ma trận) rất hiệu quả, giúp tăng tốc đáng kể cả các tác vụ đồ họa, trí tuệ nhân tạo và phân tích khoa học.

Bộ xử lý thần kinh (NPU) Đây là một loại bộ xử lý tương đối mới, được thiết kế đặc biệt cho mục đích này. Tăng tốc các mạng nơ-ron và các tác vụ AIThay vì hướng đến tính linh hoạt như CPU ​​hay sự cân bằng như GPU, NPU tập trung vào một tập hợp các phép toán rất cụ thể (phép nhân ma trận, phép cộng dồn, phép tích chập, suy luận mạng sâu) và thực hiện chúng một cách mạnh mẽ, song song và với mức tiêu thụ điện năng rất thấp.

Bộ xử lý tensor (TPU)Được Google tạo ra, đây cũng là một chương trình tăng tốc khởi nghiệp chuyên biệt, nhưng tập trung rất rõ ràng vào... tính toán tensor quy mô lớnNó được thiết kế để huấn luyện và chạy các mô hình học máy cực kỳ nhanh chóng, đặc biệt là trong... Google CloudTrong nhiều tác vụ suy luận mạng nơ-ron, các nghiên cứu của Google đã chỉ ra rằng TPU có thể mang lại nhiều lợi ích. hiệu suất cao hơn từ 15 đến 30 lần So với CPU và GPU cùng thế hệ, chúng có giá thành cao hơn, nhưng bù lại, chúng ta đang nói đến phần cứng rất đặc thù và đắt tiền, với nguồn cung hạn chế.

Sự khác biệt giữa NPU và TPU

CPU, GPU, NPU và TPU được sử dụng như thế nào trong trí tuệ nhân tạo?

Trong trí tuệ nhân tạo không có một yếu tố thần kỳ duy nhất; điều tồn tại là... sự kết hợp bộ xử lýMỗi công cụ đều thực hiện những gì nó làm tốt nhất. Tùy thuộc vào kích thước dữ liệu, giai đoạn dự án (huấn luyện hay suy luận) và môi trường (đám mây, biên, di động, NAS, v.v.), công cụ này hoặc công cụ khác sẽ phù hợp hơn.

Trong học máy, CPU vẫn là nền tảng. Bộ xử lý trung tâm (CPU) là bộ phận quan trọng của hệ thống. Nó vận hành hệ điều hành, điều phối các thiết bị, khởi chạy các quy trình huấn luyện và điều hành việc sử dụng GPU, NPU hoặc TPU. Đối với các tác vụ AI đơn giản, tập dữ liệu nhỏ hoặc các thuật toán khó song song hóa (ví dụ: một số suy luận thời gian thực hoặc các mô hình tuần tự cao), một CPU mạnh mẽ có thể đủ, mặc dù nó có thể không phải là lựa chọn tiết kiệm chi phí hoặc năng lượng nhất.

  Định dạng của hình ảnh vector là gì?

các GPU được sử dụng rộng rãi trong học sâu. Vì mạng nơ-ron sâu chứa đầy các phép toán ma trận lặp đi lặp lại, nên kiến ​​trúc song song của chúng rất lý tưởng. Việc huấn luyện các mô hình thị giác máy tính, nhận dạng giọng nói, các mô hình ngôn ngữ lập trình cỡ trung bình, hoặc phân tích dữ liệu lớn là những lĩnh vực mà GPU vẫn gần như là tiêu chuẩn, đặc biệt là trong môi trường gia đình và phát triển, vì đây là bộ tăng tốc dễ tiếp cận nhất.

các TPUs phát huy tác dụng khi bạn cần huấn luyện hoặc chạy các mô hình có quy mô lớn.Đặc biệt là trong hệ sinh thái của Google. Chúng cực kỳ mạnh mẽ cho điện toán tensor: huấn luyện các mô hình ngôn ngữ lớn (LLM), hệ thống đề xuất, công cụ tìm kiếm hoặc các ứng dụng thị giác và giọng nói phức tạp trên khối lượng dữ liệu khổng lồ. Ưu điểm chính của chúng là được thiết kế để xử lý các khối lượng công việc quy mô lớn này với hiệu suất cực cao trên mỗi watt.

các Các bộ xử lý thần kinh (NPU) đặc biệt xuất sắc trong việc suy luận thời gian thực. Và trong các thiết bị có hạn chế về năng lượng: điện thoại di động, máy tính bảng, máy tính xách tay, IoT, hệ thống giám sát video, ô tô kết nối, v.v. Chúng cho phép chạy các mạng nơ-ron đã được huấn luyện trước trực tiếp trên thiết bị, mà không cần phụ thuộc vào đám mây, giúp giữ mức tiêu thụ thấp và giải phóng CPU và GPU khỏi tải.

Kiến trúc và hoạt động của một NPU

Kiến trúc của NPU được thiết kế để Để, theo một cách nào đó, giống như một bộ nãoNhiều thành phần nhỏ hoạt động song song trên dữ liệu được kết nối với nhau. Nó không hoàn toàn sao chép bộ não con người, nhưng nó mô phỏng ý tưởng về khả năng xử lý quy mô lớn, phân tán và hiệu quả.

Một trong những chìa khóa là các đơn vị tính toán chuyên dụng cho phép nhân cộng dồn (MAC)Các khối phần cứng chuyên dụng liên tục thực hiện phép nhân và phép cộng. Các phép toán này là nền tảng cho việc huấn luyện và suy luận trong mạng nơ-ron: mỗi nơ-ron tính toán các tổ hợp có trọng số của đầu vào, dẫn đến hàng nghìn hoặc hàng triệu phép toán MAC mỗi giây.

Một trụ cột khác là bộ nhớ trên chip tốc độ caoCác bộ xử lý thần kinh (NPU) tích hợp bộ nhớ SRAM (bộ nhớ tốc độ cao) gần các đơn vị tính toán để lưu trữ trọng số và kích hoạt, giảm thiểu việc truy cập vào RAM bên ngoài, vốn chậm hơn và tiêu tốn nhiều năng lượng hơn. Điều này giúp giảm thiểu tắc nghẽn và duy trì luồng dữ liệu liên tục.

Hơn nữa, thiết kế nội thất là một kiến trúc song song caoCó khả năng thực hiện hàng nghìn phép toán đồng thời trên các lô dữ liệu. Một số NPU sử dụng các cấu trúc như mảng song song (systolic arrays), trong đó dữ liệu chảy qua một mạng lưới các đơn vị tính toán thực hiện các phép toán theo trình tự, cho phép song song hóa cực độ.

Để tiết kiệm năng lượng hơn nữa, nhiều NPU hoạt động với định dạng độ chính xác thấp (ví dụ: 8 bit hoặc ít hơn) thay vì sử dụng số thực dấu phẩy động 32 bit. Trong AI, điều này thường đủ để duy trì chất lượng kết quả và tiết kiệm tài nguyên là rất lớn. Trong một số trường hợp, NPU có thể được Nhanh hơn GPU hàng chục, thậm chí hơn 100 lần. trong các tác vụ suy luận, duy trì mức tiêu thụ tương tự.

Các bộ xử lý thần kinh (NPU) trong thực tế: điện thoại di động, máy tính xách tay, ô tô và NAS.

Vẻ đẹp của NPU không nằm ở lý thuyết, mà nằm ở... Những ứng dụng thực tế mà bạn đã sử dụng mà không hề nhận ra.Từ việc mở khóa điện thoại bằng khuôn mặt đến việc hiệu chỉnh camera trong các cuộc gọi video, bộ xử lý thần kinh (NPU) luôn hoạt động ngầm.

Trong phân khúc điện thoại thông minh tầm trung và cao cấp, các nhà sản xuất như... Apple, Samsung, Huawei, Google hoặc Qualcomm Họ tích hợp các khối NPU (hoặc các khối tương đương với tên gọi khác) vào SoC của mình. Các khối này được sử dụng cho các chức năng như nhận diện khuôn mặt, hiệu ứng camera nâng cao, thực tế ảo tăng cường, dịch thuật thời gian thực, trợ lý giọng nói và phát hiện đối tượng trong ảnh và video.

Ví dụ, Apple mang theo sản phẩm của mình. Bộ xử lý thần kinh của Apple (ANE) Trên các iPhone sử dụng chip A11 Bionic và máy Mac sử dụng chip Apple Silicon (M1, M2, M3, v.v.), bộ xử lý thần kinh này cung cấp sức mạnh xử lý AI chuyên dụng lên đến vài TFLOPS và được sử dụng cho Face ID, cải thiện ảnh, nhận dạng văn bản trong hình ảnh, đọc chính tả, thực tế tăng cường và hầu như mọi chức năng AI trong hệ sinh thái của Apple. Các nhà phát triển cũng có thể truy cập vào nó thông qua các API chuyên dụng.

Về phần mình, Google tích hợp một TPU thích ứng với môi trường di động Trong các SoC Tensor của Google dành cho Pixel. Mặc dù tên gọi là TPU, chức năng của nó trong SoC tương tự như một NPU tích hợp: tăng tốc các tác vụ AI trên chính thiết bị (xử lý hình ảnh, giọng nói, dịch thuật, nhiếp ảnh tính toán…) mà không cần luôn phụ thuộc vào đám mây.

  Có bao nhiêu cổng logic?

Trên cả máy tính để bàn và máy tính xách tay, cả hai Intel như AMD Họ đã bắt đầu tích hợp NPU vào bộ xử lý x86-64 của mình. Intel làm điều này với chip Meteor Lake và các thế hệ sau, được thiết kế cho máy tính xách tay chạy Windows, trong khi AMD ra mắt giải pháp của riêng mình. Trí tuệ nhân tạo Ryzen Trong dòng Ryzen 7040, các NPU này được sử dụng cho các tính năng như làm mờ nền trong cuộc gọi video, hiệu chỉnh mắt, tự động căn chỉnh khung hình, và ngày càng phổ biến hơn, để chạy các mô hình AI cục bộ được nhúng trong Windows (ví dụ: các tính năng liên kết với Copilot hoặc các ứng dụng của bên thứ ba).

Ngoài ra, các đối thủ cạnh tranh như Qualcomm với Snapdragon X Hướng đến thị trường máy tính xách tay ARM chạy Windows, tập trung mạnh vào việc cung cấp các bộ xử lý thần kinh (NPU) mạnh mẽ cho phép chạy các trợ lý AI và mô hình ngôn ngữ ngay trên máy tính, với thời lượng pin dài.

Các NAS QNAP Đây là một ví dụ điển hình khác về vai trò của NPU ở biên mạng. Một số mẫu tích hợp bộ xử lý với NPU để tăng tốc công cụ QNAP AI Core, cung cấp sức mạnh cho các ứng dụng như QuMagie (album ảnh thông minh với nhận dạng hình ảnh), Qsirch (tìm kiếm hình ảnh với OCR), QVR Face Insight (nhận dạng khuôn mặt) và QVR Human (đếm người trong video). Các mẫu như TS-AI642, với NPU của ĐỒNG HỒChúng có thể thực hiện nhận diện khuôn mặt trong khoảng 0,2 giây mỗi hình ảnh và cải thiện hiệu suất AI OCR khoảng 20% ​​so với các thiết bị NAS tương tự không có NPU.

TPU là gì và nó khác với NPU như thế nào?

Một loại TPU, hoặc Bộ xử lý căngĐây là một bộ tăng tốc phần cứng được Google thiết kế để thực hiện các phép tính cực nhanh. tenxơ và ma trậnĐây là nền tảng toán học của hầu hết các thuật toán học sâu. Chúng xuất hiện lần đầu vào năm 2016 để hỗ trợ các hệ thống tìm kiếm, đề xuất và các dịch vụ nội bộ khác.

Không giống như GPU, vốn vẫn giữ vai trò khá đa năng trong điện toán song song quy mô lớn, TPU có nhiều chức năng hơn. chuyên về các hoạt động học máy điển hìnhChẳng hạn như phép nhân ma trận và vectơ hàng loạt, phép tích chập và các phép toán tensor với độ chính xác giảm. Mục tiêu là tối đa hóa hiệu suất cho việc huấn luyện và suy luận các mô hình AI trong trung tâm dữ liệu.

TPU cũng được tổ chức theo kiến ​​trúc song song cao, với các mảng xử lý song song lớn và bộ nhớ trong cho phép truyền dữ liệu hiệu quả trên toàn mạng máy tính. Chúng được tối ưu hóa để hoạt động với các định dạng số thích ứng với máy học (như bfloat16 và các loại độ chính xác thấp khác), tạo ra tốc độ xử lý khổng lồ với mức tiêu thụ năng lượng tương đối thấp so với khối lượng dữ liệu mà chúng xử lý.

Một điểm khác biệt thực tế quan trọng là... TPU có liên hệ chặt chẽ với hệ sinh thái Google Cloud.Mặc dù các thẻ vật lý và hệ thống chuyên dụng tồn tại trong các trung tâm dữ liệu của Google, hầu hết các nhà phát triển truy cập TPU như một dịch vụ đám mây, chủ yếu thông qua TensorFlow, nhưng cũng hỗ trợ các framework như PyTorch hoặc JAX.

Trong nhiều bài kiểm tra nội bộ, Google đã chứng minh rằng TPU có thể đạt được hiệu năng từ... Hiệu năng cao hơn từ 15 đến 30 lần so với CPU và GPU. Vào thời điểm đó, TPUs được sử dụng cho một số tác vụ suy luận nhất định với mạng nơ-ron, điều này đã biến nó thành một phần chiến lược trong cơ sở hạ tầng AI quy mô lớn của nó.

NPU so với TPU: Những điểm khác biệt chính về mục đích, kiến ​​trúc và cách sử dụng

Mặc dù cả NPU và TPU đều như nhau Chúng được thiết kế để tăng tốc mạng nơ-ron và học sâu.Trên thực tế, chúng giải quyết những vấn đề và môi trường khá khác nhau. Rất dễ nhầm lẫn chúng vì chúng có nhiều phép toán chung, nhưng việc phân biệt rõ vai trò của chúng là điều cần thiết.

Khi đến Mục đích chínhTPU được tạo ra để tăng tốc xử lý tensor trong các tác vụ học sâu quy mô lớn, đặc biệt là trong thị giác máy tính và các mô hình tích chập hoặc transformer khổng lồ. Mặt khác, NPU được thiết kế để tăng tốc xử lý mạng nơ-ron sâu, nhưng tập trung rất mạnh vào... suy luận thời gian thực và hiệu quả năng lượngDo đó, chúng phổ biến hơn ở các thiết bị đầu cuối so với các trung tâm dữ liệu lớn.

Ở cấp độ của kiến trúc vật lýCác TPU của Google thường được triển khai dưới dạng các hệ thống trên chip (SoC) lớn hoặc các mô-đun hoàn chỉnh trong các giá đỡ máy chủ, với số lượng lớn các lõi xử lý song song và mạng kết nối chuyên dụng để mở rộng quy mô trong các cụm. Mặt khác, NPU thường được tích hợp như... một khối bên trong SoC Chúng có thể được tích hợp trong điện thoại di động, bộ xử lý máy tính xách tay hoặc chip IoT, mặc dù chúng cũng có thể tồn tại dưới dạng các bộ tăng tốc riêng biệt trong các mô-đun PCIe hoặc USB.

Nếu chúng ta nhìn vào hiệu suất và hiệu quảTPU thể hiện xuất sắc trong các tác vụ có khối lượng công việc rất lớn, nơi bạn có thể tận dụng hàng trăm hoặc hàng nghìn chip được phân bổ trên đám mây, mang lại tỷ lệ hiệu năng trên điện năng ấn tượng cho việc huấn luyện và suy luận quy mô lớn. Mặt khác, NPU hướng đến... hiệu suất trên mỗi watt trong các thiết bị cụ thểMặc dù chúng không đạt được hiệu năng thô như TPU trong trung tâm dữ liệu, nhưng chúng tiêu thụ rất ít năng lượng, lý tưởng cho điện thoại thông minh, máy ảnh, ô tô hoặc NAS cần xử lý AI liên tục mà không làm tăng đột biến mức tiêu thụ năng lượng.

  Làm thế nào để chuyển ảnh từ Google Photos sang thẻ nhớ?

Ở cấp độ của ứng dụngCó thể nói rằng TPU rất phù hợp cho: huấn luyện các tập dữ liệu lớn, phát triển các mô hình ngôn ngữ quy mô lớn, triển khai các hệ thống đề xuất phức tạp hoặc thực hiện suy luận quy mô lớn trên đám mây. Mặt khác, NPU lại phù hợp hơn khi bạn muốn nhận diện khuôn mặt trên thiết bị di động, trợ lý giọng nói cục bộ, đếm người trong hệ thống giám sát video, phân tích nhanh hình ảnh y tế trong bệnh viện hoặc trí tuệ nhân tạo thời gian thực trong xe tự hành.

Các bộ tăng tốc liên quan khác: DSP và VPU

Ngoài NPU và TPU, các chip chuyên dụng khác cũng xuất hiện trong hệ sinh thái AI, chẳng hạn như... DSP (Bộ xử lý tín hiệu kỹ thuật số)VPU (Bộ xử lý thị giác)Điều này giúp hoàn thiện bức tranh về các công cụ tăng tốc tùy thuộc vào loại dữ liệu bạn đang làm việc.

Un DSP Đây là bộ xử lý tín hiệu số được thiết kế để xử lý các hoạt động thời gian thực. dữ liệu âm thanh, video và cảm biếnĐiểm mạnh của nó nằm ở các phép toán nhanh và lặp đi lặp lại, chẳng hạn như lọc, nén, biến đổi và xử lý tín hiệu liên tục. Nó dựa trên các lệnh cụ thể và kiến ​​trúc được tối ưu hóa để giảm thiểu độ trễ, điều này rất quan trọng trong truyền thông, hệ thống âm thanh chuyên nghiệp, xử lý hình ảnh trong một số máy ảnh và thiết bị y tế.

Trong lĩnh vực trí tuệ nhân tạo, DSP thường được sử dụng để tín hiệu tiền xử lýChúng có thể làm sạch âm thanh trước khi gửi đến mạng nơ-ron, nén hoặc biến đổi video, hoặc chuẩn bị dữ liệu cảm biến sẽ được chuyển tiếp đến NPU hoặc GPU để phân tích phức tạp hơn. Chúng có thể chạy một số mô hình AI, nhưng không hiệu quả bằng NPU hoặc TPU đối với các mạng nơ-ron sâu và quy mô lớn.

một VPU (Bộ xử lý thị giác)Về phần mình, nó được thiết kế đặc biệt cho tầm nhìn máy tínhNó xử lý hình ảnh và video rất hiệu quả, thực hiện các tác vụ như phát hiện đối tượng, nhận diện khuôn mặt, theo dõi chuyển động và phân tích cảnh. Nó thực hiện điều này trong thời gian thực và với mức tiêu thụ tài nguyên rất thấp, giảm tải các tác vụ này khỏi CPU và GPU.

VPU được sử dụng trong camera thông minh, máy bay không người lái, xe tự hành, hệ thống giám sát và các thiết bị AR/VR, nơi bạn cần xử lý nhiều luồng video đồng thời với độ trễ rất thấp. Chúng cũng rất quan trọng khi bạn muốn chạy các mô hình thị giác trên chính thiết bị, mà không cần liên tục gửi hình ảnh lên đám mây vì lý do bảo mật hoặc băng thông.

GPU so với NPU: Card đồ họa của tôi chẳng phải đã đủ rồi sao?

Thật hợp lý khi tự hỏi liệu, khi sở hữu một GPU mạnh mẽ dành cho AICần có một bộ xử lý thần kinh (NPU) riêng biệt. Xét cho cùng, GPU rất giỏi trong các phép toán dấu phẩy động, chính xác là điều cần thiết để huấn luyện và chạy mạng nơ-ron.

Sự khác biệt chính là ở chỗ GPU vẫn giữ vai trò đa năng hơn. Trong điện toán song song, nó có thể hoạt động tuyệt vời trong đồ họa, mô phỏng vật lý, khoa học dữ liệu, trí tuệ nhân tạo, và nhiều lĩnh vực khác. Mặt khác, NPU bị hạn chế hơn nhiều trong tập hợp các phép toán cần thiết cho suy luận mạng nơ-ron, hy sinh tính linh hoạt để đổi lấy... hiệu quả và kích thướcĐiều này cho phép nó được tích hợp vào các SoC nhỏ và tối ưu hóa đến mức tối đa cho trí tuệ nhân tạo.

Một ví dụ điển hình là Lõi Tensor NVIDIAĐây là các đơn vị chuyên dụng bên trong GPU được thiết kế cho các phép toán ma trận và tensor, có khái niệm rất giống với các khối của NPU. Theo một cách nào đó, chúng ta có thể nói rằng một GPU hiện đại chứa các "mảnh" rất giống với NPU, nhưng nó vẫn bao gồm nhiều phần cứng hơn cho các tác vụ khác (rasterization, texturing, đồ họa cổ điển, v.v.).

Xu hướng hiện nay là mỗi phần của con chip đều như vậy. Hãy làm tốt công việc được giao.CPU xử lý các logic tổng quát, GPU thực hiện xử lý song song mạnh mẽ và đồ họa, NPU xử lý trí tuệ nhân tạo (AI), DSP xử lý tín hiệu và VPU xử lý hình ảnh. Sự phân chia nhiệm vụ này cho phép cải thiện hiệu suất tổng thể và mức tiêu thụ điện năng, đó là lý do tại sao chúng ta thấy ngày càng nhiều NPU được tích hợp vào bộ xử lý và SoC, thay vì chỉ dựa vào các GPU rời lớn.

Toàn bộ hệ sinh thái các bộ xử lý và bộ tăng tốc chuyên dụng này đang hội tụ về một kịch bản trong đó... Trí tuệ nhân tạo được triển khai ở những nơi nó mang lại giá trị cao nhất.Trên đám mây với TPU cho các khối lượng công việc khổng lồ, trên máy chủ và máy trạm với GPU, và ở biên với NPU, DSP và VPU được tích hợp vào điện thoại di động, máy tính xách tay, thiết bị NAS hoặc ô tô. Hiểu rõ chức năng của từng thành phần cho phép bạn lựa chọn phần cứng tốt hơn, định cỡ dự án và trên hết, tránh trả thêm tiền cho điện năng bạn không sử dụng.

Thẻ bổ sung CXL (AIC) là gì?
Bài viết liên quan:
Thẻ mở rộng CXL (AIC) là gì và nó thay đổi khả năng mở rộng bộ nhớ như thế nào?