知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3

一、功能介绍

你好! 这是一款实体关系联合标注的本地小程序,以知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3 实现。本系统是一种标注文本语料中命名实体与关系或属性的半自动化软件系统,应用知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3编程实现可视化界面和主要功能,利用知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3提示标注教程与规范(无需关心它们如何实现)。

利用本系统进行文本标注将原始段落文本更新为带有事先定义的命名实体、关系或属性的文本标签数据。通过自动分配快捷键、背景色将不同实体在文本中进行区分,并生成固定格式文本呈现在标注界面。选中固定符号,将实体对之间标注关系,自动生成关系序号、关系类别以及头尾实体序号。执行导出生成一对一的文本和标签结果,通过格式化、撤销、取消标注等功能实现标注的更新。本系统帮助自然语言处理的标注专家对文本中实体或实体关系进行提取,导出结果用作机器训练、知识图谱构建等方向。

主要功能: 主要功能实现文本命名实体标注、实体间关系标注。

  1. 文本标注:用户根据提前约定的命名实体、关系属性标注规范,对导入的段落文本进行标注,主要通过背景色、快捷键以及自定义特殊符号组合形成文本的命名实体标注与区别。通过选中固定符号,标注实体间关系,系统自动更新标注的关系类别等信息。
  2. 撤销、取消标注:点击撤销按钮可实现操作回滚,返回到上一状态。也可以通过选中已经标注的实体、关系进行取消标注,系统会删除段中特殊符号。
  3. 格式化:导入文件之后,通过格式化文本,清除文本中多余的空行空格等冗余无效字符。
  4. 导出文件:导出文件即可以将用户标注的段落文本,解析生成文本与标签一对一的结果文件,存储在用户读取文本同一目录下。

1、代码文件夹结构

在这里插入图片描述

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件夹中,有知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3三个文件夹,并且有知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3 共5个知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3代码文件。

  1. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件中,是用以自定义命名实体、关系的文件,你可以使用文本文件方式打开,并自定义命名实体类别、关系。(自定义实体、关系,除了知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件夹,知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3也需要修改)
  2. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件夹中,是一些图片文件,无需关心。
  3. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件夹中,除了用作渲染颜色的知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件外,还存有一些知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件(即使你完全不了解它们也不影响你正常使用)。
  4. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3是主文件,你只需要运行它,就可以立即开始标注工作。
  5. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3是一个登录窗口,和知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3分离,如果你对它不感兴趣,也可以将它删除,即不登陆直接开始标注工作。
  6. 如果你希望尝试先登录,再标注的流程,那么你将用到知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3。执行知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3,会生成一个注册码,凭借注册码,可以在知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3注册你的信息(本地模拟),程序会自动跳转到知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3主文件。
  7. 注意,知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3两个文件是非必要的,你可以直接运行知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3开始你的工作。

2、运行环境

本系统通过知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3 开发。在运行代码之前,你需要检查你的知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3本地环境是否具备下面这些工具,其中一些必备 python科学库

# Windows python3.7
ast、tkinter、platform、collections、json、re、time、PIL、webbrowser、os、sys、datetime;

3、自定义命名实体、关系模板

自定义命名实体、关系,则需要在两处修改。第1处是 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件夹、第2处是知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件中。

  1. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件夹中,包含知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3两个文件,通过文本文件的方式即可打开。
    在这里插入图片描述

  2. 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件中,构造两个字典知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3,知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3,分别表示键盘快捷键到命名实体,命名实体英文简写到键盘快捷键两个映射。
    在这里插入图片描述

4、导入文件

  1. 运行知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3主文件,自动弹出下方所示的主界面,即可开始标注工作。
    在这里插入图片描述
  2. 进入主页面后点击右上方红色打开文件,选择待标注的文本文件(文件格式,后缀为知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3最为适宜)。导入文件后,会常驻提示去读文本所在的本地位置、提示当前键盘应当处于英文大写状态、导入文件状态、以及当前光标所处的文本段落位置。
    在这里插入图片描述

5、选择自定义实体和关系文件

  1. 在主页面右侧选择模板中,点击选实体下拉框选择提前自定义的命名实体文件,点击选关系下拉框选择提前自定义的关系文件。这样的设计可以方便你进行多个标注任务。
    在这里插入图片描述
  2. 如果读取的文件中有很多无效的空行空格等情况,点击右侧菜单栏的“格式化”,清理读取文本格式,方便后续标注。
    未格式化

6、文本标注

  1. 成功导入文本、选取实体和关系文件后,即可开始标注。保持键盘处于大写状态,用鼠标选中待标注的实体,在键盘上点击右侧菜单栏默认分配的快捷键即可完成实体的标注。无需把所有实体都标注完成后再标注关系,可以实体与关系交替标注。(显然,结合你标注任务的需要,可以只标注实体,不标注关系)。简言之,选中文本,按下键盘快捷键,界面自动渲染颜色和标注类别,并生成一个同心圆。 同心圆是为了方便两个实体之间标注关系。
    选中文本
  2. 通过选中固定的特殊符号(同心圆),按下快捷键,即可标注关系。标注关系时,系统会自动的为每个关系分配关系的序号、关系的类别、头尾实体信息。建议标注两个命名实体之后,紧接着标注两者关系。系统会自动生成标记信息,例如对“碘过量”这个实体标注关系知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3、对“碘缺乏”这个实体标注关系知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3它表示第7对关系,关系类别为知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3的1(头)实体, 解码时,它会自动去寻找知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3 的2(尾)实体。
    标注实体与关系

7、撤销和取消标注

在标注过程中,如果需要返回到上一步或者返回之前多步,可以点击右侧菜单栏的“撤销”,即可撤销。如果在标注完成后,发现需要取消标注某一实体或者关系,需要用鼠标选中待取消标注段,键入快捷键,即可取消标注,防止格式错误,取消标注后剩余文本将固定在原始位置。

选中文本
在这里插入图片描述

8、导出和导出并退出系统

点击 导出 即可将标注文件导出到本地,导出的内容样式即当前页面所看见的样式(并没有解析为三元组后再导出,因为这样可以方便下次继续标注),文件存储的位置和导入文件位置在同一目录下。也可以选择“导出并退出系统”即可导出文件并且退出系统,导出的文件会以读取文件名+用户信息+导出时间三者整体作为文件名保存在本地。如果无需导出文件直接退出,点击右上侧系统关闭按钮,会提示保存文件,即可退出系统。
在这里插入图片描述

9、导出文件后解析

  1. 直接导出的文件格式是没有解析的,原因在于不解析,可以方便下次继续标注,即导出文件后,再打开导出的文件继续标注(下次打开时,关系标签会重新标号,这不影响正常使用,因为在解析时,标签会匹配最近的一个符合规则的标签),另外一个原因在于,解析部分的工作也是私有化的,不同的知识图谱标注任务有不同的需求,模块化方便后续任务。为了便于理解,这里将知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3导出的标注文件取名为知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件。
    这是直接导出的文件-A
    在这里插入图片描述
  2. 运行知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件,读入知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3导出的标注文件知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3,将其转换成下面这种格式的文件知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3,类似于知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3标注工具的知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件。知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件中,知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3将每一段文字,都打上了标签。
    在这里插入图片描述
  3. 为什么不直接转换成适合下游任务的一对一标签形式呢?因为在上一个步骤中,可以手动的或者通过编程规则化的修正一些文本和标签。例如,类别为知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3的文本太多了,或者重复内容太多了,那么就可以删除,倘若转换成一对一的标签形式后再处理,将会增加一些不必要难度。
    运行知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件,读入知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3生成的知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件,最终将其转换为一对一适合下游任务的文件知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3。(知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3实现的是实体关系联合抽取标注,你可以调整代码,以适应你自己的图谱工作,它很容易实现)。同时,会导出五元组知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件(建议通过知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3或者记事本打开),在知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3文件中,会显头实体、头实体类别、头尾实体间关系、尾实体类别、尾实体。

自动生成五元组表格,方便快速导入知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3图库、知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3结构化数据库。
在这里插入图片描述

生成的一对一适合下游任务标签。(你可以更改知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3, 以调整标签生成规则)
在这里插入图片描述

10、标注规范和KG规范

在标注过程中,如果需要查看标注教程、KG规范和标注规范,点击右侧菜单栏按钮,即可自动打开HTML网页查看信息。由于涉及到知识成果,文件夹中的 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3 以及 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3 我会提供空白文件,但不会影响到你正常使用。
在这里插入图片描述

11、系统提示

如果键入了无效快捷键或者未选中文本,系统右上侧会提示当前状态。例如:未选中文本、无效快捷键、导入成功、导出失败、配置信息有误等。当原始文本为PDF、图片、表格等形式存在,需要通过自定义转换器转换成文本文档,再进一步通过上面步骤进行标注。
在这里插入图片描述

二、优点与未来工作

  1. 本项目使用特殊格式符号和背景色标注段落文本中的实体与关系,使用正则解析标注结果,相比一般的标注软件增加了标注实体间关系的功能以及撤销、取消标注功能。相比大型的标注平台,本项目中软件具有操作简便直接、使用门槛低等优点。
  2. 未来可以实现一键标注功能,即选中一个实体,即可将全篇同名实体全部标注。未来还可以将其通过网页形式部署,显然这也会涉及到用户信息的问题。

三、标注软件获取方式

获取程序包,以下方式皆可:

  1. 欢迎在评论区留言你的邮箱,我将定期回复。
  2. 通过博客私信功能,向我发送信息。
  3. 直接访问我的GitHub地址-公开免费:"火星"标注工具
  4. 查看:我的资源

致谢

感谢 芳樽里的歌 的工作,其将开源标注工具 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3 移植到了知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3
链接: 开源一个文本标注工具

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2023年2月26日 上午11:48
下一篇 2023年2月26日 上午11:49

相关推荐