最近,面向高吞吐、实时应用的专用小语言模型(Small Language Models,SLMs)越来越受到关注。但我们似乎遇到了一个瓶颈:我们很擅长微调这些模型,却还不太擅长长期维护它们。 部署一个 LLM,有点像管理一个 API 依赖;但如果要部署多个面向特定领域的小语言模型,那就完全是另一回事了。比如,一个模型负责去除个人身份信息(PII),一个模型负责意图识别,另一个模型负责基于结构的数据 ...