TPU是一款自主的、高性能的、通用深度學(xué)習(xí)加速棒。同時支持X86平臺、ARM平臺、MIPS平臺等主流平臺的運行。內(nèi)置CNN網(wǎng)絡(luò)加速引擎,可以實現(xiàn)高性能、低功耗的CNN網(wǎng)絡(luò)模型的加速。TPU架構(gòu)設(shè)計先進,可以高效完成多路動態(tài)視頻流的人臉檢測、跟蹤、特征提取和識別,高效支持墨鏡、口罩、性別、年齡等屬性檢測。提供強大的可編程運算能力,滿足CNN算法實時性處理的運算要求。芯片有自定義指令集和編程框架,除可運行人臉識別算法外,還支持其他主流的 CNN算法移植,包括服裝識別、表情識別、背包識別等。同時也支持其他計算機視覺CNN 算法移植和應(yīng)用。
借助TPU,計算機視覺和人工智能可以輕松地部署到物聯(lián)網(wǎng)和邊緣設(shè)備上。無論開發(fā)者研發(fā)智能相機、無人機、工業(yè)機器人、智能家居設(shè)備或是實現(xiàn)邊緣計算項目,TPU都能讓原型設(shè)備運行得更加快速、更加智能。此外,借助TPU生態(tài)系統(tǒng),開發(fā)者現(xiàn)在可以將他們的TPU原型移植到其他產(chǎn)品上,并實現(xiàn)設(shè)計的產(chǎn)品化。TPU的優(yōu)點是不需要額外的硬件,因此用戶可以快速轉(zhuǎn)換并將計算機訓(xùn)練模型無縫部署到各種各樣的設(shè)備上,并且無需網(wǎng)絡(luò)或云端連接。也就是說,開發(fā)者只要一臺筆記本電腦和TPU,僅需數(shù)分鐘就可以讓其AI 應(yīng)用程序運轉(zhuǎn)。
TPU實現(xiàn)了深度學(xué)習(xí)異構(gòu)計算,可以在標準的USB3.0串行通信口上進行計算機視覺與人工智能的推理加速。TPU支持多路圖片和視頻的編解碼,并可以實現(xiàn)多路的視頻和圖片編解碼。TPU的AI加速核心共有4個,每個加速核心提供0.5TPOS的計算算力,并可以根據(jù)實際需求設(shè)定加速核心的個數(shù)從而調(diào)節(jié)TPU的運行功率。TPU還支持目前AI領(lǐng)域的主流框架:Mxnet、Tensorflow、Pytorch 和Caffe。在AI加速項目部署功能方面還支持Graph模式,以數(shù)據(jù)流的方式,提供跨平臺(主控和TPU)的數(shù)據(jù)流水處理。Graph 提供直觀的編程模式,支持json 配置文件創(chuàng)建,在主控端直接調(diào)用TPU上的NodeClass 算子,大大提高解決方案設(shè)計效率。
這些強大的功能背后的實現(xiàn)依賴的是TPU上的強大的固件系統(tǒng)和穩(wěn)定的硬件設(shè)備,通過標準的USB3.0接口把多路視頻流或者圖片傳輸?shù)?/span>TPU上的主控芯片上,由TPU內(nèi)部進行視頻解碼或者圖片解碼。使用提供的desdk api進行基于TPU的項目開發(fā),由編譯工具鏈把項目編譯,完成后下載到固件系統(tǒng)上部 署,如設(shè)定好要使用的加速算子、業(yè)務(wù)流程、調(diào)用的加速核心數(shù)量、輸入的圖片大小和模型等等,項目運行后就可以通過USB3.0端口進行數(shù)據(jù)交換,從而獲得經(jīng)過TPU加速計算后的數(shù)據(jù)。
處理器內(nèi)核 :
? 32 位超高性能嵌入式 CPU 處理器;
? 支持 16/32 位混合編碼的 RISC 指令集;
? L1 I/D 32KByte,L2 128KByte,主頻最高支持 1.0GHz;
? 單位性能最高支持 2.5DMIPS/MHz;
? 支持大端和小端模式;
? 支持 MMU,MMU 支持軟件動態(tài)配置地址映射表;
? 內(nèi)部硬件調(diào)試模塊支持片上硬件調(diào)試;
? 支持內(nèi)核省電和動態(tài)頻率調(diào)整等低功耗技術(shù);
神經(jīng)網(wǎng)絡(luò)處理器 NNP:
? 內(nèi)含四核 NNP 神經(jīng)網(wǎng)絡(luò)處理器,主頻最高支持 750Mhz;
? 自定義神經(jīng)網(wǎng)絡(luò)處理器指令集和架構(gòu);
? 支持 INT16/INT12/INT8 數(shù)據(jù)類型;
? 支持 CNN 算法所需的指令集;
? 支持 weight 參數(shù)壓縮;
? 支持 feature map 壓縮;
? 支持 caffe/tensorflow/mxnet 等主流深度學(xué)習(xí)框架;
? 支持 Invasive 和 non-Invasive 的通用 Debug 架構(gòu);
? 支持處理器級聯(lián)擴展、支持協(xié)處理器擴展;
? 時鐘門控、電源門控、多電壓等典型低功耗技術(shù);
DSP 處理器 :
? 雙核 Vision Processor DSP,主頻最高支持 550Mhz;
? 32KB I-Cache/64KB ITCM/256KB DTCM;
? 支持小端方式; 加速運算子 ACC :
? 支持色彩空間轉(zhuǎn)換;
? 支持視頻縮放;
? 支持梯度統(tǒng)計;
? 支持直方圖統(tǒng)計;
? 支持 FFT 運算;
視頻解碼 :
? 支持多路 H.264 解碼,性能為 4KP30;
? 支持多路 H.265 解碼,性能為 4KP30,同時支持參考幀壓縮功能;
? 支持 I 幀/P 幀/B 幀解碼;
? 支持 MPEG4/MPEG2/MPEG1 解碼;
? 支持 JPEG 解碼,解碼 IMAGE SIZE 支持 48x48 to 16Kx16K;
? 支持 Clock gating 功能;
? 支持 Powerdown 功能;
視頻 JPEG 編碼 :
? 支持 YCbCr4:2:0 Planar、YCbCr4:2:0 semi-planar、YCrCb4:2:0 semiplanar 格式輸入; ? 支持 RGB565、RGB888 和 RGB101010 格式輸入;
? 支持輸入圖像分辨率范圍 96x32 to 8192x8192,像素尺寸步進為 4;
? 支持 RGB to YCbCr4:2:0 色彩空間轉(zhuǎn)換;
? 支持 YCbCr4:2:2 to YCbCr4:2:0 色彩空間轉(zhuǎn)換;
? 支持 8Kx8K@2fps 編碼性能;
MIPI CSI :
? 支持 MIPI CSI1.2 RX 4 Lane 輸入接口,最高性能為 4K30;
? 可支持的 YUV 數(shù)據(jù)類型:YUV420/YUV422,支持 8bit;
? 支持 RAW8 格式輸入;
? 符合標準 MIPI CSI-2 協(xié)議 V1.2,向下兼容 V1.1 和 V1.0;
USB :
? 支持 USB 3.0/USB 2.0 標準協(xié)議,支持 super-speed, high-speed, fullspeed, low-speed
? 支持 HOST 模式、DEVICE 模式,HOST 和 DEVICE 模式可軟件配置切換,在 上電時配置切換, ? 不支持使用中動態(tài)切換;
? HOST 和 DEVICE 模式都支持協(xié)議規(guī)定的 CTRL/BULK/ISO/INTR 傳輸類型;
? 不支持 OTG 功能;
BT1120 :
? 支持 BT1120 視頻輸入接口,性能最高支持 1080p@60fps;
? 1 根時鐘線,16 根數(shù)據(jù)線,數(shù)據(jù)傳輸只支持并口模式;
? 只支持逐行模式,支持典型的 720p/1080p 時序;
DDR :
? DDR4 支持最高速率 2667Mbps;
? 外接 DDR 2GByte;
? 支持 ODT 功能;
? 支持 QOS 功能;
? 支持動態(tài) Training 功能;
芯片處理能力 :
? 芯片提供 2.0Tops 峰值算力:滿足視覺 AI 算法實時性處理的運算要求;
? 支持每秒最大 1200 張人臉跟蹤能力;
其它說明 :
? 內(nèi)含 2 個 Temp_sensor,支持功耗動態(tài)管理;
? 支持版本在線升級;
Tag: AI
