目录
0 校企联合共克难题
近日,中国大学生服务外包创新创业大赛决赛在江南大学圆满落幕。该项赛事是服务外包产业领域是唯一的创新、创业国家级赛事,紧贴现代服务经济和创新、创业、创富主题,强调应用导向和产学互动,在服务外包领域搭建一个大学生创新与创业能力展示平台。大赛引导社会公众和青年学生关注现代服务产业,吸引企业关注高校青年学生,促进高校教育改革贴合新兴产业发展需求,逐渐成为国内一流、具有国际影响力的服务外包行业青年创新创业展示盛典。
本次竞赛内容设计充分聚焦企业发展中所面临的技术、管理等现实问题,与产业的结合度更紧密,智能文字识别技术是大赛重点关注的技术之一。
随着信息技术的发展和应用场景的不断扩大,人们需要处理和利用大量的文档信息。而传统的手动处理方法效率低下,无法满足现代生活和工作的需求。文档图像智能分析与处理就是一个重要且极具挑战性的研究问题,智能文档识别技术基于人工智能和机器学习等技术,可以自动识别文档中的各种信息,如文字、图像、表格、条码等,然后将其分类、归档、摘要、提取等处理。
文档图像智能分析与处理技术被广泛应用在人们生活的方方面面,比如银行票据的自动分析处理、快递运单的自动识别、教科书的分析与识别、古籍文稿的分析与理解、数字档案、数字图书馆等等,极大地提高了信息的检索、处理、传播速率。总之,文档图像分析与识别技术的出现和发展极大地方便了人们的生活,也极大地促进了我们的社会向智能化、数字化、信息化发展。
合合信息在智能文字识别领域有着十余年深耕经验,基于自身在行业领域的认知,设计了基于学生需求对扫描全能王功能创新及商业推广等议题。
相关赛题吸引了全国70多所高校的近300支队伍积极参与,也涌现出许多优秀的作品。
下面我们就来看看青年学子们的“奇思妙想”吧!
1 北京林业大学:文档格式转换
北京林业大学的尽力就行队重点提出了对文档格式转换的设计方案。
在数字化时代下,越来越多的人需要将手写文本数字化处理。尤其是学校和各个专业领域中存在纸质数字化的办公学习需求。举例而言:
- 大学生学习笔记记录转换。将手写笔记、便条、备忘录等文本转换为电子文本,以便更方便地管理和检索;
- 特殊专业特殊场景。如医学生,法学生,许多手写病历和法律文书等文档需要转换为电子文本,以便更好地管理和分享;
- 个人生活中,越来越多的人需要将手写信件、贺卡等转换为电子文本,以便保存和分享;
- 教育行业中,学生需要使用手写笔记和答题,老师需要对学生手写的试卷进行批改审阅和存档。
尽力就行队提出了他们的技术方案:首先需要收集大量的手写文字图片,并对这些图片进行预处理,如调整大小、对比度和亮度等,以便后续训练和识别,接着设计一个合适深度学习模型,使用一部分手写文字图片进行模型测试和验证,根据测试结果进行模型优化和调整,以提高模型的识别准确率和鲁棒性。
然而,手写文字识别的难度远远大于手写数字识别,因此在神经网络架构的设计调优,以及数据集的质量方面都存在着很大挑战,不过他们的思路仍然对产品的功能完善有很好的启发作用。
此外,尽力就行队还设计了许多有意思的功能:
-
CAD与PDF互转功能
服务于专业为工科,理科,艺术类的工程设计,将可查看的PDF在工程设计输出为CAD格式以供再编辑。将CAD图纸转换为PDF格式可以方便地保存和归档,使得文件易于管理和查阅。CAD和PDF格式均可以作为数字档案的载体,使得文件的传输、共享和备份更加方便。
-
视频扫描提取页帧并转换图片功能
可供大学生视频内容识别与检测。提取视频中的页帧并转换为PDF格式、高清图片。对学习视频资料和网课视频、录屏中的PPT文字内容识别提取。方便学生和教师进行参考和学习。制作学习视频文档或报告等
-
…
这些功能设计依托高校学生的实际需求,对现有产品的功能拓展具有现实的参考价值。
2 浙江中医药大学:个性化题库
浙江中医药大学的前兔无量队采用文件调查的形式,分析当前学习过程中的痛点:学生往往需要在课前、课中和课后都做好充足的准备,投入大量时间进行学习。然而,这个过程存在不少困难,包括课前预习生词难、课堂学习记笔记慢、课后复习、作业繁多、资料不能及时分享、做完试卷后复习易记答案和期末复习找题目分散等。
前兔无量队总结出以下六个重点场景,对产品进行功能设计
部分场景已经存在现有的解决方案,例如生词解释可以使用扫描全能王的生词解释功能,首先拍照上传课本一页需要预习的地方,点击不懂的专有名词或者英语单词都可以轻松做出解释。可以同时点击多个生词,图片右边空白处会出现解释。提高了预习的速度和效率,可以节省时间预习其它课本,轻松提高上课的效率。
再如文字转手写功能,使用扫描全能王扫描可将电脑字体转化为手写字体。可根据自己上传的手写字迹模板转换,也可以从扫描全能王手写字模板中选取。手写字的背景也可进行选择,有作业本网线格等各种背景,让手写字迹更真实可信
前兔无量队也对扫描全能王原有功能进行优化和创新。例如试卷擦除功能——扫描完一张照片里的多个题目后,自动分离出一个个题目, 可用原有的试卷擦除功能 对题目进行字迹擦除。接着,利用题目乱序 、生成题库功能,将散乱的题目轻松汇合到一起,并可以打乱顺序出现,防止我们按顺序背答案最后更改题目出现的顺序。 扫描下的题目它可以选择保存到题库里,等用户需要复习加强印象时可从题库中做题复习,非常方便。
更进一步地,就是个性化题库的设计。这样的设计完全基于已有的功能进行组合扩展,但却可以使用户可以方便地进行个性化题库的管理和学习,大幅提升用户体验和学习效果。
除此之外,前兔无量队也为扫描全能王设计了简单的社交功能。例如加好友功能、聊天功能,转发功能、传输文件等。对于异常情况的页面设计,也采用了品牌形象的插画形式,不仅增添了趣味性还起到了宣传品牌形象的作用,提升的产品的技术温度。
3 中南林业科技大学:交互场景挖掘
中南林业科技大学的浙芯队将扫描全能王已有的工具箱功能分为扫描服务、格式转换、文档编辑和其它四个大类,并对各个功能进行非常详细的深入分析和扩展。同时也随机调查了1000名大学生,来分析大学生使用扫描全能王各个功能的情况以及对扫描全能王的评价
以拍PPT为例,浙芯队首先对比了实际需求和传统方式痛点
序号 | 场景使用 | 传统方式痛点 |
---|---|---|
1 | 只想拍PPT 范围的图像 | 不能只拍PPT 部分,会拍下其它区域 |
2 | 位置偏,不能正对PPT | 拍摄拍得的PPT 图像是扭曲的,后期难以校正 |
3 | 连续拍摄多张PPT | 不能自动将多张PPT 合成一个文件 |
4 | 从PPT 中提取文字信息 | 不能自动识别并提取文字 |
接着从产品中寻找解决方案,即采用扫描全能王的拍PPT
功能,会自动捕
捉PPT,滤除非PPT 的画面在;拍摄完后会自动将PPT 进行校正,变成正面的PPT 图像;同时,支持连续拍摄,拍摄完成后用pdf 预览和分享功能将所有PPT 照片形成一个pdf 文档
另一个实例是表格识别。表格识别和处理在智能文档中是一项挑战性任务,具体在于
- 多样性的表格结构: 表格可以具有多种不同的结构,包括合并单元格、多层表头、交叉行列等,这使得识别和解析表格变得复杂。不同的表格结构可能需要不同的处理方法;
- 文档质量不一: 扫描文档或图像的质量可能不一,可能存在模糊、噪音、倾斜、阴影等问题,这会影响表格识别的准确性;
- 字体和排版的多样性: 表格中的字体、字号、颜色等多样性使得文字识别更具挑战性。不同的排版方式可能导致识别错误,尤其是当表格的结构受到排版影响时;
- 合并单元格和跨行跨列: 表格中的合并单元格和跨行跨列现象可能会导致数据提取和解析的困难。正确地还原这些信息以保持表格结构的准确性是一个挑战。
- 文本语言多样性: 表格中的文本可能是不同的语言,甚至在同一文档中可能存在多种语言,这增加了表格数据识别的复杂性;
- 歧义和上下文: 在一些情况下,表格中的数据可能存在歧义,需要依赖上下文信息来正确理解。缺乏上下文可能导致数据解析错误;
- 大规模数据集和培训困难: 表格识别的性能通常需要大量的标注数据进行训练,然而,标注准确的表格数据集可能很昂贵且耗时。同时,标注复杂表格结构可能需要专业领域知识。
而对表格的处理又是日常工作的常见需求
序号 | 使用场景 | 场景描述 | 适用人群 |
---|---|---|---|
1 | 写论文 | 写论文,上网搜寻到相关数据,数据以图的形式呈现,需要汇总到一个表格中 | 科研族 |
2 | 日常办公 | 相关的纸质的图表资料,需要形成电子档的表格 | 学生干部族 |
3 | 撰写数据分析报告 | 在做各种数据分析报告时,搜集的数据以图片呈现、无法整理编辑数据,寻求数据的规律 | 统计族 |
同样,浙芯队结合扫描全能王给出了解决方案,利用表格识别功能,导入一张图片或者拍摄一张图片,一键转换成Excel 表格,若要导出多张,则在导出Excel 的界面,选择添加页面,再导入图片,再点击该图片,最后再点击“导出Excel 表格”,多张表格的数据就自动汇总到一个Excel表格中。
除此之外,浙芯队还给出了拍证件照、文本转换、添加水印等非常丰富的交互场景分析,完善了产品使用的方案。
4 重庆邮电大学:大模型赋能智能文档
重庆邮电大学的傅里叶变换队结合更具体的技术,给出了各个功能场景下的创意
以学习研究场景为例,傅里叶变换队首先分析了思维导图的识别创意。思维导图简单却又很高效,可以应用在学习、生活、工作的任何领域当中,可以将大篇幅内容进行拆分,找到从属关系,缩减文字数量,便于理解与记忆。其中,括号思维导图是对一个事物的整体进行拆分分析,从而揭示整体和部分的关系,并能够对整体事物的微观构成形成比较清晰的认知。
傅里叶变换队指出,目前制作括号思维导图的方式有两种:
- 通过软件制作电子版的导图,其优点是便于编辑和共享,但设备限制性大,当设备连接键盘时才更方便输入;
- 手绘在纸质上,其优点是在理解知识内部逻辑的同时加深记忆,但可编辑性差(写错字不能直接擦除)、便携性差、不易美化、交互性差
目前已有方法实现了电子导图的识别和电子导图的手绘化,但缺少将手绘括号思维导图电子化的方法,但是该项功能的实现存在仍存在许多挑战,比如:识别准确性、再生成的限制、共享的安全性等
傅里叶变换队结合传统图像处理、计数、括号识别、文字识别、层次逻辑生成等技术,设计了以下的思维导图识别流程,整体架构清晰,具有可行性
其中,傅里叶变换队还自主设计了基于边界信息的层次逻辑生成算法,分别对文字块集合和左大括号集合进行聚合。
此外,傅里叶变换队还设计了扩展业务
在开发出相应的思维导图制作软件或软件界面的基础上,加入协同编辑功能,一是可以使得教师可以实时方便地查看学生制作的思维导图,提高智慧课堂的效率;二是可以让多人同时查看优质的思维导图,提高分享学习的效率。在得到扫描结果的基础上,也可以对导图内容进行分析,建立多媒体检索推荐系统,满足学生在用思维导图学习时,想同时学习该思维导图所代表的全部知识的需求,一是通过检索相关的学习视频,二是检索相关的教材,三是进行知识补充。
总之,从技术到业务给出了非常详细且可行的设计方案。
在信息时代的浪潮中,大语言模型正以惊人的速度和无限的创造力引领着人工智能的新纪元。大语言模型不仅能够理解和分析人类语言,还能够生成高质量、富有创意的文本。从写作助手到内容创作,从自动化客服到医疗诊断,它们正在推动各行各业的创新。 这些模型不断通过海量数据进行自我学习,不断提升自己的表现。它们能够从多个领域的知识中吸取灵感,生成创新性的想法和解决方案。
傅里叶变换队抓住时代热点,设计了基于语言大模型的智能扫描问答AI的功能创意
总体流程是:
-
用户扫描题目: 用户通过拍照或输入问题的方式提交待解答的题目。
-
知识库匹配: AI系统在预先构建的知识库中进行信息检索,找到与问题相关的知识点原文。
-
设计丰富提示词Prompt: 系统使用问题相关的信息,设计出几个丰富的提示词(Prompt),这个提示词将作为后续输入大语言模型的初始文本。
-
输入大语言模型: 利用强大的大语言模型,如GPT-4或文心一言,将丰富的提示词作为输入,以便生成更具上下文和语义的答案。
接下来,定义两种AI系统的输出模式:
-
学霸版:在学霸版中,它可以根据问题直接给出解答,这个答案会被大语言模型生成,基于问题和相关信息。
-
导师版:在导师版中,可以给出题目涉及的知识点出处及讲解。这可以帮助用户更好地理解问题的背景和相关知识。
智能扫描问答AI结合了信息检索、大语言模型的生成能力以及输出定制化的答案。它能够为用户提供更全面的答案,不仅回答问题,还能提供相关的知识背景和解释。这种技术有助于提高用户学习效率,加深对知识的理解,并为用户提供了一个便捷的自主学习支持工具。
5 总结
随着信息技术的发展和应用场景的不断扩大,人们需要处理和利用大量的文档信息。而传统的手动处理方法效率低下,无法满足现代生活和工作的需求。因此文档图像智能分析与处理就成为一个重要且极具挑战性的研究问题。从各个参赛队伍的创意中,我们可以看到,基于人工智能和机器学习的智能文档处理技术,可以自动识别文档中的各种信息,如文字、图像、表格等,然后将其分类、归档、摘要、提取等处理,极大地提高了信息的检索、处理、传播速率。这个应用不仅仅局限于学生需求,而是可以扩展到更多的应用领域,例如物流行业中快递运单的自动识别、金融行业中银行票据的自动分析处理等,具有广阔的应用前景。
在智能文档处理的实际应用中,合合信息的产品扫描全能王表现出了强大的功能,举例而言
- 办公文档处理:无论是在办公室还是在家庭办公环境中,用户都可以利用扫描全能王进行各类文档的扫描和处理,包括但不限于文件、表格、图表、手写笔记等。不仅如此,无论光照条件、背景复杂度如何,扫描全能王都能通过AI智扫引擎进行图像优化,提供高清晰度、高质量的扫描结果。
- 教育资料处理:对于教师和学生,扫描全能王可以用于扫描、共享和保存教材、试卷、笔记等教育资料。特别是在当前远程教育越来越普及的环境下,扫描全能王可以方便地将纸质资料转化为数字格式,便于教学共享和资料存储。
- 商务文档处理:在商业场景中,扫描全能王可以被用于处理各类商务文档,如发票、合同、订单等。其智能高清滤镜功能可以清晰识别和提取文档中的文字和图表信息,满足各种商务需求
- …
扫描全能王集成了智能文档处理中的多种先进技术,例如弯曲矫正、去反光、去摩尔纹等,具备高度精准的识别能力。更进一步,扫描全能王的多语种识别技术不仅局限于主流的几种语言,而是覆盖了全球的众多语种。这使得扫描全能王可以为全球的用户提供服务,不论用户使用的是何种语言,扫描全能王都能够准确地识别和处理。同时也使得文档的处理更为流畅。用户无需进行复杂的设置或手动选择语种,扫描全能王能够自动识别文档的语言,并进行精准的处理。
总之,扫描全能王作为文档高效处理的办公产品,极大地提升了用户的使用体验,满足了全球化办公的需求。这使得扫描全能王在全球范围内得到了广泛的应用和好评。
文章出处登录后可见!