专注于知识图谱构建与应用开发,提供一站式定制化服务,帮助企业和科研机构高效管理知识资源、挖掘隐性关系、实现智能决策。服务内容包括:
- 知识图谱构建:从数据采集、实体抽取、关系识别到图谱建模,全流程专业处理,确保图谱高质量与可扩展性。
- 知识图谱代做:提供定制化代做服务,快速交付符合行业标准的知识图谱,支持科研、企业管理、推荐系统等应用场景。
- 查询与问答系统开发:基于知识图谱构建高效语义查询和智能问答系统,实现自然语言交互与精准信息检索。
- 推荐系统构建:结合图数据库与机器学习技术,实现个性化推荐、兴趣挖掘与关联分析。
- 知识图谱可视化:通过图形化展示实体及关系网络,提供直观、交互式数据洞察,便于分析与决策。
- Neo4j图数据库构建:专业设计图数据库架构,实现高效存储、快速查询及大规模图数据管理。
拥有丰富的知识图谱实践经验,能够根据不同业务需求提供专业、高效、可落地的解决方案。无论是科研、教育、金融还是企业管理,都能助力您快速实现知识智能化。
概括
想象一下你正生活在19世纪上半叶,你感到腹部一阵剧烈疼痛,几乎令人麻痹。此时你面临一个选择:要么学会忍受这种疼痛终生(这可能只需几周或几个月,取决于疼痛的根源),要么冒险去看医生,这可能是一场噩梦般的经历,需要接受放血、泻药、催吐或吞服水银等痛苦的治疗(Hager 52)。
由于人们对疾病传播方式一无所知,进入拥挤的医院可能意味着接触天花和霍乱。如果你不幸需要手术(或者医生给你开了不必要的手术——同样,人们对疾病传播途径几乎一无所知),你将无法接受麻醉。找到最好的外科医生很可能意味着找到速度最快的医生,他/她能够尽可能快地完成手术,以最大限度地减少护理人员在你于手术台上尖叫扭动时需要控制你的时间。即使你侥幸活过了手术,你仍然很有可能死于感染,因为当时人们对细菌理论一无所知,因此也没有无菌技术。
医疗保健是如何取得这些进步的?为什么如今医疗保健领域仍然吸引着不成比例的人工智能投资?这不仅仅是数据质量的提升,更是知识结构优化的结果。早在计算机出现之前,医学界就开始构建对疾病和因果关系的共识,建立受控词汇表来描述现实世界中的实体,并制定数据标准以确保观察结果的实证性和可重复性。这些框架共同构成了我们现在所说的知识图谱。
从宏观层面来看,知识图谱解决了一系列随着领域规模扩大而不可避免的反复出现的问题:
- 跨碎片化系统、格式和术语的搜索和检索
- 复杂、相互关联的系统中的发现与设计
- 现有知识和资产的再利用和重新利用
- 在不确定性下进行可解释推理的决策支持
- 基于领域语义的推荐和个性化
- **治理、**可追溯性和监管合规性
医疗保健领域成熟的领域知识图谱使得药物可以针对特定疾病进行设计,使得医生能够了解某种药物在日本的副作用(即使它在日本的名称不同),使得医生能够汇总和学习数百万次临床诊疗和实验的观察结果(通常是实时的)。
在这个分为三部分的系列文章中,我希望提供一些背景信息和见解,介绍知识图谱(及其先例)在医疗保健领域的应用,医疗保健行业如何成为知识图谱领域的领导者,并为其他面临类似挑战的行业分享一些潜在的经验教训。
什么是知识图谱?
知识图谱是一个分层的知识系统,其中本体定义意义,受控词汇表对实体进行分类,观察数据提供证据——随着理解的加深,知识得以积累、发展和推理。
本体定义了类别及其之间的关系;它是知识图谱的理论基础。在医学领域,类别指的是病原体、疾病和药物等。本体定义了这些事物之间关系的约束条件和因果假设。例如,病原体是能够引起疾病的生物体。药物是能够靶向病原体并可能抑制疾病的化学物质。本体处理的是类别而非实例——它并不告诉你哪些病原体引起哪些疾病,也不告诉你哪些药物抑制哪些病原体。
这些实例被定义为受控词汇表。受控词汇表是本体中定义的类的实例目录。例如,已知有数千种病原体可以引起人类疾病:从病毒到细菌再到寄生虫,应有尽有。此外,还有数千种药物和数千种疾病。这些类的实例由专家进行编目和维护,并随着我们对它们了解的加深而定期更新。医疗保健领域的一些受控词汇表被称为“组学”,因为它们涉及以“组学”后缀结尾的领域,例如基因组学、蛋白质组学和代谢组学。
***注:***本文中,“受控词汇表”一词用作统称,涵盖分类法、术语表、词典、参考资料和同义词库。这些概念之间存在差异,但为了便于本文的概括性讨论,我们统一使用“受控词汇表”一词。
我们了解世界的方式是通过观察,而在医疗保健领域,这些观察结果被视为证据。临床试验和实验室实验产生的观察数据可以证实、完善或反驳我们对受控词汇中各实体之间关系的论断。我们如何知道梅毒螺旋体是梅毒的病原体?因为科学家进行了实验,测量了结果并产生了证据。我们如何知道沙瓦珊能够靶向并摧毁梅毒螺旋体,从而治愈梅毒?因为科学家开展了临床研究,测量了用沙瓦珊治疗梅毒患者的疗效。
像这样连接实体就形成了一个图。图中的实体有时被称为节点,连接实体的边被称为边。图可以包含数百万个节点和边,在这种结构中,各种模式开始涌现。例如,您可以识别图中最重要的或最具影响力的节点,区分深度连接的节点簇,或者找到不同实体之间的最短路径。这些技术(通常称为图分析)在医学领域被广泛应用,作为网络医学的一部分,用于识别疾病机制和潜在的治疗靶点(Barabási、Gulbahce、Loscalzo,2011)。所有这些都可以通过图来实现,但由于我们拥有本体,我们拥有的不仅仅是一个图,而是一个知识图谱。
知识图谱中的连接代表着对世界的明确断言:事实。知识图谱并非仅仅指出*“萨尔瓦散与梅毒螺旋体有关”,而是指出“萨尔瓦散抑制梅毒螺旋体”,并且还指出“梅毒螺旋体引起梅毒”。这两个事实,结合本体中编码的逻辑,使知识图谱能够推断出新的关系或事实——即萨尔瓦散可能治疗或治愈梅毒*。这被称为推理,或者说是从一组事实或公理中推导出逻辑结果的能力。知识图谱在这方面表现出色,因为它们既明确地呈现了事实,也明确地呈现了组合这些事实的规则。
医学界使用这种知识管理结构已有数十年之久。科学家们进行实验,不断探索新知。这些实验的发现会促使受控词汇表更新,以及/或者更新受控词汇表中实体之间的关系。例如,基因 X 与蛋白质 Y 相关,而蛋白质 Y 又参与生物过程 Z。随着实体和关系数量的增长,我们的知识也在不断积累。有时,本体也会发生变化,但这种情况并不常见。本体的重大变化不仅仅是知识的增量增长,通常意味着我们理解世界方式的改变。
医疗保健行业之所以在知识图谱领域处于领先地位,是因为它在上述三个层面都表现出色。数十年来,医疗保健行业不断完善自然界运行的因果模型;精心编纂数百万种疾病、药物、蛋白质以及其他与医学相关的知识;并利用标准化的数据输出开展可重复的实证实验。这些基础工作得到了强有力的监管压力的巩固,这些压力要求证据的标准化和可比性,广泛的非竞争性合作和公共资金支持,以及对开放、厂商中立的语义标准的早期采用。所有这些因素共同创造了条件,使得知识图谱能够作为核心基础设施而非实验性技术蓬勃发展。
知识图谱解决了哪些问题?
一旦你将各个实体映射在一起,并用真实世界的证据进行验证,且基于因果路径,你就拥有了一个知识图谱,然后就可以做各种各样的事情了。我将介绍当今医疗保健领域一些最突出的知识图谱应用案例,以及它们如何应用于其他领域。
搜索与检索
知识图谱最常见的应用场景或许就是搜索。现代医疗保健需要能够从异构且多模态的数据中检索相关的、相互关联的上下文信息。假设你在一家大型制药公司工作,想要了解某种药物的全部信息。你可能想重新利用这种药物,评估其安全风险,或者将其与竞争对手进行比较。又或者,美国食品药品监督管理局(FDA)可能要求你提供相关信息。你需要在关系数据库中搜索实验数据,在内容管理系统中搜索临床试验报告,并在多个第三方数据库中搜索已有的公共或行业知识。不仅数据分散在互不相连的系统中,格式也各不相同(关系型数据、文本、幻灯片、音频),而且这种药物可能还有不同的名称。例如,公司可能将临床试验外包给了英国一家公司,而该公司可能使用了该药物的通用名。
随着生成式人工智能的广泛应用,信息检索已成为各行各业的关键能力。大型语言模型(LLM)基于大量数据进行训练,但这些数据并非来自您的数据,因此,在使用这些模型时,检索相关的内部上下文至关重要。我们现在称之为上下文工程:正如LangChain 的 Lance Martin所描述的,“上下文工程是一门艺术和科学,它需要在智能体轨迹的每一步中,用恰当的信息填充上下文窗口。”
由于医疗保健行业长期以来对知识图谱的投入,它在人工智能新时代拥有得天独厚的优势。如果能够检索相关的内部背景信息、证据和事实,诸如提交监管报告之类的任务就会变得轻松许多。像Weave这样的公司正是利用知识图谱来实现这一目标。他们利用知识图谱的强大功能检索相关信息,并使用逻辑逻辑模型 (LLM) 来总结和回答监管问题,从而实现报告的自动生成。摩根士丹利、彭博社、汇丰银行和摩根大通
等大型金融机构也在利用知识图谱来整合数据孤岛,为员工和客户构建研究助手和高级搜索功能。
发现与设计
通过理解不同实体在理论和实验室中的相互作用方式,药物研发领域的科学家可以设计出具有针对性的药物。药物研发人员不再盲目地测试各种化合物,寄希望于找到有用的成分,而是可以从预期结果(例如降低血压)出发,反向推导候选化合物,同时考虑患者差异(遗传、年龄、性别)、相互关联的系统以及潜在的不良反应,并遵守监管限制。包括艾伯维、阿斯利康、葛兰素史克、辉瑞、 默克、诺华、诺和诺德、罗氏和赛诺菲在内的许多全球大型制药公司都在使用知识图谱进行药物研发。此外,还有一些公司专注于构建用于药物研发的医疗保健知识图谱,例如BioRelate和BenevolentAI。
许多其他行业也存在类似的问题。银行经常需要开发金融产品(例如结构性票据),以实现预期目标(例如,在下行风险有限的情况下获得更高收益),同时还要考虑相互关联的系统、减轻不利影响并遵守监管规定。同样,公共政策制定者也经常需要制定干预措施,以实现预期目标(例如,减少贫困),同时还要考虑各种当地情况(例如,地理、文化、气候)、相互关联的系统以及潜在的不利影响。
重复利用和重新利用
与其为了达到某种目的而研发一种全新的药物,有时重新利用现有药物反而更容易。大卫·法根鲍姆医生还在医学院就读时,就被诊断出患有一种罕见的免疫系统疾病。医生告诉他只剩下几周的生命,甚至请来了一位牧师为他做临终祷告。虽然没有足够的时间研发新药,但他还有时间重新利用一种现成的药物。他正是这样做的。他找到一种原本用于预防器官移植排斥反应的药物,并把它用在了自己身上。他的病情已经缓解了11年,他顺利完成了医学院的学业,并创办了非营利组织“ Every Cure”,旨在“确保患者不会因为潜在的治疗方法近在眼前却被忽视而遭受痛苦”。运用了包括知识图谱在内的多种技术。
药物重定位是指利用现有产品,了解其内在结构,并将其安全地应用于新的领域。公共政策也遵循同样的模式。实践者会识别在特定领域行之有效的干预措施,了解其有效原因,并将其重新应用于其他领域。同样,许多公司都拥有海量数据,这些数据最初是为了某个早已被遗忘的目的而收集的。但通过理解这些数据的意义和背景,就可以重新包装并用于不同的用途。
决策支持
医疗专业人员经常依赖决策支持系统来辅助决策,而这些决策往往涉及诸多相互关联的因素和不完整的数据。医生每天都需要根据有限且不断变化的信息来决定如何治疗和诊断患者。单个患者的电子健康记录 (EHR) 可能信息稀少,预测能力有限。知识图谱使医生能够将 EHR 与受控词汇表(疾病、症状、药物)以及来自既往研究的观察数据,以及越来越多来自可穿戴设备的患者生成数据连接起来。
这有助于医生基于相关病例、人群和临床证据的已知信息做出更明智的诊断和治疗建议,同时兼顾患者的具体情况。这些工具尤其有价值,因为其底层推理过程清晰明确,易于解释,这与许多黑箱式人工智能解决方案截然不同。像Evidently这样的公司正在构建基于知识图谱和人工智能的决策支持工具,将电子病历中的患者数据与现有的临床见解连接起来,帮助临床医生实时做出更好、更明智、更易于解释的决策。
推荐和个性化
决策支持侧重于诊断准确性、安全性和临床指南的遵循性,而医疗保健领域的推荐系统则侧重于为患者提供个性化和优先排序的治疗方案。这些系统通常依赖于以患者为中心的知识图谱(有时称为个体化知识图谱或个性化健康知识图谱)来整合病史、电子健康记录 (EHR) 数据、参考知识以及来自可穿戴设备的数据。推荐系统并非判断临床决策是否正确,而是针对特定患者在特定时刻的情况,筛选并排序最合适的治疗方案、生活方式干预措施、后续行动或护理路径等相关选项。
其他行业对基于知识图谱和语义技术的推荐系统的使用甚至比医疗保健行业更为广泛。你购买的几乎所有商品和观看的所有内容都通过推荐系统推送给你。像亚马逊这样的在线零售商利用推荐系统向你推荐你可能想购买的商品,像Netflix这样的流媒体服务利用推荐系统为你推荐下一部想追的剧集,而LinkedIn则利用推荐系统向求职者推荐职位,并向招聘人员推荐求职者。
治理、可追溯性和监管合规性
医疗保健行业受到严格监管。制药公司必须遵守相关法规,以确保监测和评估其药物可能产生的任何不良反应,这被称为药物警戒。他们还存储着个人的健康数据,这些数据极其私密和敏感,因此需要遵守相关法规,例如《加州消费者隐私法案》(CCPA)或《通用数据保护条例》(GDPR)。为此,他们专注于数据沿袭——系统地追踪数据在不同系统中的生成、转换和使用方式。知识图谱通过将领域知识与组织自身的知识(例如业务流程、组织结构、所有权、角色和政策)连接起来,促进良好的数据治理。组织随后可以追踪数据在系统中的流动,确定数据的责任人,了解哪些团队可以出于何种目的使用数据,并执行治理规则(Oliveira 等)。
与医疗保健公司一样,金融服务公司也依赖知识图谱方法来支持企业数据治理。近期研究提出将这些基础扩展到人工智能治理领域,方法是将数据、策略和决策关联到一个统一的语义层中。在受监管的环境中,治理并非次要问题——它是大规模实施信任、问责和可解释性的机制。
结论
知识图谱并非近期才出现的发明,也不是现代人工智能的副产品。它是一种组织知识的方式,能够实现意义的共享、证据的积累,并在理解不断演进的过程中保持推理的清晰性。通过分离理论(本体)、实例(受控词汇表)和证据(观测数据),知识图谱使得构建超越事实存储的系统成为可能——它们支持发现、解释、重用和信任。
早在大型语言模型出现之前,医疗保健行业就投入巨资定义共享概念、编纂自然世界目录,并规范观察结果的记录和评估方式。随着时间的推移,这些实践构建了密集且相互关联的知识结构,随着新发现的出现,这些结构可以不断扩展、查询和推理。现代人工智能系统之所以强大,恰恰是因为它们建立在这一基础之上,而不是取代了它。
在本系列的下一部分,将更深入地探讨医疗保健行业如何成为知识图谱成熟度方面的全球领导者。这其中涉及监管压力、竞争前的合作、公共资金支持知识共享以及对开放标准的早期承诺。在最后一部分,我将完全跳出医疗保健的范畴,探讨其他行业(金融、政策、制造、能源等)在构建自身人工智能就绪系统时,可以从这一发展轨迹中汲取哪些经验。
核心论点很简单:大规模进步与其说是取决于更智能的模式,不如说是取决于更完善的架构。医疗保健行业很早就吸取了这一教训。其他行业现在也被迫迅速学习这一教训。
说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。
结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”
我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。
即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!
这绝非空谈。数据说话
2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。
AI领域的人才需求呈现出极为迫切的“井喷”态势
2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。
与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。
当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包【允许白嫖】:
- ✅从入门到精通的全套视频教程
- ✅AI大模型学习路线图(0基础到项目实战仅需90天)
- ✅大模型书籍与技术文档PDF
- ✅各大厂大模型面试题目详解
- ✅640套AI大模型报告合集
- ✅大模型入门实战训练
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
①从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(0基础到项目实战仅需90天)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤640套AI大模型报告合集
⑥大模型入门实战训练
👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓