news 2026/5/13 15:24:01

[ACL 2022]Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[ACL 2022]Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding

论文网址:Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding - ACL Anthology

论文代码:https://github.com/GanjinZero/ICD-MSMN

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Approach

2.3.1. Code Synonyms

2.3.2. Encoding

2.3.3. Multi-synonyms Attention

2.3.4. Classification

2.3.5. Training

2.4. Experiments

2.4.1. Dataset

2.4.2. Implementation Details

2.4.3. Baselines

2.4.4. Main Results

2.4.5. Discussion

2.4.6. Memory Complexity

2.5. Related Work

2.6. Conclusions

1. 心得

(1)感觉创新一般般,正文内容偏少

2. 论文逐段精读

2.1. Abstract

①作者认为现在大家都在关注标签相似度,但作者也想关注同义词编码

②作者想把ICD标签和UMLS知识库对齐以收集同义词

2.2. Introduction

①作者觉得需要匹配同义词如“甲状腺功能减退”=“低的t4指标”

②作者提出Multiple Synonyms Matching Network (MSMN)去解决同义词问题

2.3. Approach

①设自由诊断文本为,其中的单词集是

②任务:多标签分类

③MSMN框架图:

2.3.1. Code Synonyms

①先把每个ICD标签对齐UMLS的概念唯一标识符(CUIs)

②将同义词去掉连字符和NOS(Not Otherwise Specified)之后与ICD标签连接

③每个词组都由很多单词组成:

hyphen n.连字符

2.3.2. Encoding

①以前的工作觉得BERT不能帮助ICD分类所以作者选了LSTM作为文本编码器??这,这样写真的好吗

②作者使用一个层的双向LSTM去编码每个单词:

③对同义词也采用同样的编码方式:

2.3.3. Multi-synonyms Attention

①受多头自注意力的启发,将原始标签特征拆分成个(契合多头的不同头)

分别对每个头把同义词标签组和文本特征实行点积计算相似度,然后把每个头算出的相似度分别和文本特征乘起来:

只要至少一个同义词匹配到了相关文本,该特征就会被保留。增强了模型对表达多样性的鲁棒性。

2.3.4. Classification

①使用biaffine transformation计算相似度用于分类:

减少了计算量

2.3.5. Training

①交叉熵损失:

2.4. Experiments

2.4.1. Dataset

①数据集:MIMIC-III full和MIMIC III 50

②数据集统计:

2.4.2. Implementation Details

①同义词数量:在MIMIC III full中,在在MIMIC III 50中

②同义词是随机挑选的同个数,如果数量不够就一直重复

③文本嵌入是用的别的文章的,CBOW什么的

④使用R-Drop且

⑤嵌入后的Dropout rate:

⑥一些超参数:

2.4.3. Baselines

①基线:CAML、MSATT-KG、MultiResCNN、HyperCore、LAAT%JointLAAT

2.4.4. Main Results

①在MIMIC III full上的对比实验:

②在MIMIC III 50上的对比实验:

2.4.5. Discussion

①尝试不同的同义词数量和不同的文本-标签匹配方式:

②同义词表征空间:

2.4.6. Memory Complexity

①使用Einstein 求和优化来少求注意力得分的中间内存

2.5. Related Work

①举例一些机器学习,RNN/CNN,标签注意力,图卷积,知识图谱

2.6. Conclusions

~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 1:33:01

Diskinfo下载官网日志分析TensorRT异常退出原因

Diskinfo下载官网日志分析TensorRT异常退出原因 在AI推理系统部署的实战中,一个看似简单的“容器启动后立即退出”问题,往往让开发者耗费数小时排查。尤其是当使用NVIDIA官方提供的TensorRT镜像时,进程静默终止、无明显错误输出的情况屡见不…

作者头像 李华
网站建设 2026/5/10 15:19:16

压缩解压缩算法 BFP-8bit

整个算法设计基于ORAN协议中的BFP压缩算法;对于压缩处理,首先记录无符号最大值的最高有效位(0~14),根据最高有效比特位确定压缩处理过程中的压缩因子;压缩处理过程用于完成对数据的压缩,输出压缩…

作者头像 李华
网站建设 2026/5/11 6:16:12

山东港口科技借助 TDengine 构建智慧港口“数据基石”

作者:山东港口, 张艳明 小T导读:在智慧港口的建设过程中,面对海量物联网设备产生的时序数据(如设备状态、能耗、作业效率等)的高效接入与实时分析需求,山东港口科技选择采用 TDengine TSDB 时序数据库作为…

作者头像 李华
网站建设 2026/5/11 6:16:12

如何将LobeChat与自有GPU资源结合实现低成本高并发?

如何将LobeChat与自有GPU资源结合实现低成本高并发? 在AI应用从“能用”迈向“好用”的今天,越来越多企业开始重新审视自己的技术选型:当一个客服机器人每天要处理上千次对话时,调用OpenAI这类云端API的成本是否可持续&#xff1f…

作者头像 李华
网站建设 2026/5/11 6:16:11

论文AI率爆表?实测这款降AI工具,10分钟把AIGC从95%降到安全线以内!

✅ 一文看懂如何降低ai率、稳过论文检测 后台不少人问我: “论文的AI率太高怎么办?导师说要降低ai率,但我试了好几个免费降ai率工具都不太行。” 我当时也焦虑过。首稿检测AI率95%,直接被退回来。后来陆续试了十几款论文降aigc、a…

作者头像 李华
网站建设 2026/5/13 6:50:41

ubuntu编译安装FreeRDP Version 3.x.x 版本

一次性把依赖装齐 sudo apt install -y \build-essential git cmake ninja-build pkg-config \libssl-dev libx11-dev libxext-dev libxinerama-dev \libxcursor-dev libxdamage-dev libxv-dev libxkbfile-dev \libasound2-dev libcups2-dev libpulse-dev libjpeg-dev \libusb-…

作者头像 李华