NLP Transformers 模型部署
起因
畢業之後,在實驗室協助學長部屬要給聯合報使用的自然語言處理系統,由於速度過慢,因此首要任務便是提高模型的處理速度
常見的模型加速方法
- 使用更好的硬體(GPU、CPU(AVX512)、FPGA)
- 使用專門的運行環境 (ONNX)
- 調整推理方式(降低無用的計算)
我的解法
使用 ONNX 及 支援 AVX512 的 CPU,並不使用 batch 計算,降低 batch 計算時出現的無用 padding
結果
將模型的 throughput 提高 9 倍, latency 降低至原本的 1/6