Nov 15, 2021

NLP Transformers 模型部署

起因

畢業之後，在實驗室協助學長部屬要給聯合報使用的自然語言處理系統，由於速度過慢，因此首要任務便是提高模型的處理速度

常見的模型加速方法

使用更好的硬體(GPU、CPU(AVX512)、FPGA)
使用專門的運行環境 (ONNX)
調整推理方式(降低無用的計算)

我的解法

使用 ONNX 及支援 AVX512 的 CPU，並不使用 batch 計算，降低 batch 計算時出現的無用 padding

結果

將模型的 throughput 提高 9 倍， latency 降低至原本的 1/6

參考資料

comments powered by Disqus