news 2026/6/18 13:10:24

知识图谱(七)之数据处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
知识图谱(七)之数据处理

一数据标注回顾

1.1整体思路

  1. 现在我们有txt和txtroiginal.

txt里面是标注数据,txtoriginal里面是原始数据,数据如下:

txt:

txtoriginal:

  1. 根据标注数据和标签类型构建字典

这是标签类型:

  1. 遍历原始数据,通过索引和标签的字典,给想引得位置打上标签.通过索引查字典,如果能查到则将对应的value作为标签,否则打上o的标签.

二代码实现

2.1使用路径拼接读取数据

import os import json cur = os.getcwd() print(cur) os.chdir('..') cur = os.getcwd() print(f'修改以后的目录{cur}') path=os.path.join(cur,'data/labels.json') print(f'拼接后的路径{path}') labels=json.load(open(path,'r',encoding='utf-8')) print(f'labels->{labels}')

2.1.1补充os.getcwd()方法:这个方法的缺陷是其他包在导入使用这个方法的包后,获取到的是其他包的路径,会导致读取数据出现错误

报错的原因是路径输出的是当前文件夹的路径,因为输出的不是导入的包的路径,所以找不到相关文件.

2.2.2使用os.path.abspath()的方法可以避免这个问题

import os import json # 如何设计,让这个代码在调用时,相对路径不随着调用位置变化而变化 file_path = os.path.abspath(__file__) print(f'file_path-->{file_path}') base_dir = os.path.dirname(file_path) print(f'base_dir-->{base_dir}') # 路径拼接 path = os.path.join(base_dir, '../data/labels.json') print(f'拼接之后的路径2-->{path}') # 读取json文件 labels = json.load(open(path, 'r', encoding='utf-8')) print(f'labels-->{labels}')

拼接好路径以后,使用os.walk()读取路径下的文件

这个方法返回的是可迭代对象,用循环的方法遍历,分别返回的是:文件夹路径,文件夹列表,文件列表

results = os.walk(os.path.join(base_dir, '../data_origin')) print(f'results-->{results}') for dir_path, dirs, files in results: # 路径、文件夹(列表)、文件(列表) print('*'*50) print(f'dir_path-->{dir_path}') print(f'dirs-->{dirs}') print(f'files-->{files}')

2.2数据处理

先获取实体的英文名,然后用B-英文名或者I-英文名拼接,,得到每实体里面每个字的标签.

遍历原始文本,通过标签数据的索引给原始文本里面的字打标签,如果没有这个字的标签,就打O

2.2.1拼接的方法

拼接结果:

2.2.2遍历原始文本,给实体打标签

找到索引提取value,找不到索引打O

2.2.3最终结果

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/17 9:07:24

通义千问2.5私有化部署测试:云端模拟环境,省去硬件采购风险

通义千问2.5私有化部署测试:云端模拟环境,省去硬件采购风险 在金融行业,数据安全和系统稳定性是头等大事。随着大模型技术的快速发展,越来越多金融机构开始探索将像通义千问2.5(Qwen2.5) 这样的先进语言模…

作者头像 李华
网站建设 2026/6/18 10:16:15

开箱即用!Whisper语音识别镜像快速体验指南

开箱即用!Whisper语音识别镜像快速体验指南 1. 引言:多语言语音识别的工程化落地 在人工智能驱动的语音交互场景中,自动语音识别(ASR)技术正从实验室走向实际应用。OpenAI发布的Whisper系列模型,凭借其强…

作者头像 李华
网站建设 2026/6/16 17:49:35

RISC异常与中断处理:硬件响应机制全面讲解

RISC异常与中断处理:从流水线到系统调用的硬核解析你有没有想过,当你在嵌入式设备上按下一个按钮,或者操作系统突然响应一次系统调用时,CPU内部究竟发生了什么?这一切的背后,是异常与中断机制在默默支撑。它…

作者头像 李华
网站建设 2026/6/17 8:19:45

UI-TARS桌面版完整部署指南:从环境配置到高级功能实现

UI-TARS桌面版完整部署指南:从环境配置到高级功能实现 【免费下载链接】UI-TARS-desktop A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language. 项目地址: https://gitcode.com/Gi…

作者头像 李华
网站建设 2026/6/15 4:14:40

SGLang结构化生成原理:有限状态机实现方式详解

SGLang结构化生成原理:有限状态机实现方式详解 1. 技术背景与问题提出 随着大语言模型(LLM)在各类应用场景中的广泛部署,推理效率和系统吞吐量成为制约其规模化落地的关键瓶颈。尤其是在多轮对话、任务规划、API调用等复杂场景下…

作者头像 李华
网站建设 2026/6/18 9:38:09

YOLOv8异常检测魔改:5块钱验证创新思路

YOLOv8异常检测魔改:5块钱验证创新思路 你是不是也遇到过这样的情况?作为博士生,研究方向是工业缺陷检测,手头有个不错的YOLOv8改进想法,但实验室GPU资源紧张,排队等一周都轮不到。导师又要求尽快出实验数…

作者头像 李华