-这是中医大省医院的一个项目, 他们的数据库需要做一个数据治理;由于很多医生的开药习惯不同,他们的数据库中存储了很多药品的非标准名,实际上一个药品在只有一个通用的标准名字;这就导致数据库的数据很难被复用,他们就希望我们把非标准名都统一为标准名称;就是这么个需求 -前前后后从医院拿到33万条标注好的文本数据,有三千多个标准名,简单做了一些数据预处理;这个项目我把它定性为一个特征比对问题,因为药品名无穷无尽,只做分类的话,增加新药品就得重新训练网络。网络模型方案选择了以下几种,第一种是1d卷积改写的 resnet50,第二种是改写的 mobilenetv2,第三种是 transformer;取部分样本做交叉验证,transformer的分类效果最好,最终采取的方案是 transformer+arcloss; -在训练的时候,先要对文本做字向量编码,采用的是维基百科训练好的的字向量;和医院负责人沟通后,确认了非标准名中字的顺序改变不会改变非标和标准药品名的对应关系,所以就没有加位置编码 -这个特征提取网络训练后的分类 F1指标是 -然后就是测试医院方给的新数据,先将所有标准名输入到网络中得到标准名特征库,然后将非标准名输入到网络中得到特征向量,将

↑. [2015-05-07]. (原始内容存档于2015-05-07). ↑. [2015-05-07]. (原始内容存档于2015-05-07).