《XX学院AI智慧中台建设项目建设需求说明.docx》由会员分享,可在线阅读,更多相关《XX学院AI智慧中台建设项目建设需求说明.docx(16页珍藏版)》请在优知文库上搜索。
1、XX学院AI智慧中台建设项目建设需求说明一、项目概况依据院校十四五规划中构建智慧中枢,打造智慧校园的要求,结合当前信息化能力建设阶段,提出构建非结构化信息资源处理能力建设的要求。项目应用自然语言处理、知识图谱、图像识别、机器学习等新一代人工智能技术,构建面向处理文本、图片、视频等非结构化资源的Al能力平台,向应用系统提供分类识别、信息抽取、智能搜索、常识校对、问答对话、OCR文本识别、知识图谱构建、NLP自主学习等认知计算能力。资源AI能力赋能到办公、办事等多个场景,实现智慧办公、智慧办事、智慧管理等,为汇聚和挖掘教学课件、项目资料、历史公文、科研资料、课外资料等大数据资源提供自动化加工和挖掘
2、能力。通过赋能和资源挖掘,助力构建完善“XX学院智慧中枢”,提升助学、助教、助研、助管等方面的效率和质量。本期项目结合当前时期的发展要务,优先搭建资源AI平台基础能力,在公文处理、行政办事、学习研究等场景上进行智慧化应用的落地,实现智慧办文、智慧办事、统一资源搜索等应用。采购人以“一站式、智能化”为建设定位,基于现有数据资源体系,需完成教育部在全国职业教育智慧大脑院校中台数据标准及计算指标文件中所规定的8大数据集31张标准表的数据上报工作。场景上进行智慧化应用的落地,实现智慧办文、智慧办事、统一资源搜索等应用。通过本期项目建设来提高采购人数据报送工作效率,保障报送数据的质量,减少人工工作量,并
3、且提供多维度预警分析服务,让校领导实时掌握校内真实数据,与上报进度,促进校内信息化建设,与前期数据治理体系做好联动,也为后续数据资产价值化奠定坚实基础。二、建设清单序号服务项目单位数量1资源Al赋能平台项12智能辅助办文应用顶13智能辅助办事应用项14统一资源搜索应用项15数据门户开发服务项16API管理平台服务年37ETL数据集成平台服务年38数据上报服务项19与学校相关平台对接1三、建设明细及要求序号具体技术(参数)要求一、资源Al赋能平台(1项)1.资源自动采集可通过可视化配置工具,设定采集来源、信息提取规则、定时任务,自动化的、大规模的从互联网网站上抓取非结构化的文本、图片、文件等资源
4、信息,并做初步加工后保存到资源库中。通过灵活的配置,对本地文件和第三方应用系统数据库数据进行简单清洗,并保存到资源库中。2 .自然语言处理基础能力(1)中文分词:将连续的汉字、标点符号、英文字母等字序列按一定中文规范重新组合成词序列,并根据汉语词性对照表标注出各个词的词性,(2)命名实体识别:识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。(3)依存句法分析:确定句子的句法结构或者句子中词汇之间的依存关系,利用句子中词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系),并用树状结构来表示整句的结构(如主谓宾、定状补)。(4)文本相似度计算:计算两个文本
5、(文章)之间的相似度,支持短句、长文本。(5)新词发现:未登录词识别,针对随时代发展而新出现或旧词新用的词进行发现。(6)关键词提取:从一篇文本中发现表达文档中心内容的词语和置信度。(7)查询音/形近词:音近词即为读音近似的词语,音调可以相同也可以不同,形近词是指几个字形结构相近的词语,而形近词的含义却不一样,查询音/形近词是指根据中文词语,词语汉语拼音、英文词组查询音近词和形近词。3 .分类识别能力(1)文书体裁识别:分析文书标题、文书结构、文书风格,针对公文、合同、项目资料进行体裁分类。(2)文本热点抽取:分析一段长文本内容,根据词频计算,形成热点词汇及热度权重。分析一堆文档类文件内容,结
6、合篇频和词频计算,形成热点及热度权重。支持词汇范围限定和特定词汇过滤。(3)文本标签识别:提供标签定义、关系维护、标签识别规则设置邓功能。分析短文本和文书文本内容,按不同维度进行分类,生成标签和置信度。(4)图片人物标注:提供人物基本信息和人物头像维护功能。分析图片内容,识别图中人脸及范围,与人物头像进行匹配,标注图中人物的姓名和IDo4 .信息抽取能力(1)文书碎片化:把一份完整文书分解为内容片段,其中包括篇、章节、段落、句子、图片、表格等细粒度片段。需要支持txt、doc、docx、WPs、ppt、txNxls、xlsx、pdf%Ofd、htmlhtm等格式文件。(2)文书头抽取:针对文书
7、内容进行分析,从中提取各种文书的要点。支持txt、docdocxwpsppt、pptxxls、xlsx、pdfOfd、htmKhtm等格式文件,至少支持公文、合同、招标书等体裁。(3)视频碎片化:从视频中可以抽取首帧图片,关键帧图片、字幕内容、视频中文字、人物以及对应位置,也可以按主题对视频文件进行自动分段。支持mp4、avi、Wmv、asf、asxrm、rmvb等多种格式视频。(4)摘要生成:针对文档内容进行文字提取,根据不同体裁业务语义生成摘要,支持公文、合同、招标书、会议纪要等体裁。5 .智能搜索能力(1)以文找文:以标题找具体文档,以段落找出处文档,以主题词找多个文档,以段落找相似段落
8、。搜索结果粒度可以支持具体的段落、表格部分内容、PPT幻灯片等,支持二次搜索。(2)找人物照片:根据人物姓名找到含有该人物或描述该人物的图片。(3)找相似图片:查找与指定图片相似度高的图片,并定位所在文档位置。(4)搜索输入推荐:根据输入部分的字词,推荐含有这部分内容的词汇。根据输入的词汇,推荐相关词汇、短句。(5)历史搜索:记录用户每次搜索输入,根据搜索时间进行排序。对所有搜索进行分析,形成热点搜索。6 .校对核查能力(1)文本纠错:针对文书中内容错别字、专业术语不当、领导称谓排位错误、段落重复、病句、标点符号不正确、样式规格等错误进行识别,并给出错误位置和修订建议,发现漏字、拼写错误、行政
9、区域归属错误、标点符号不规范等,并提供自动修订功能。(2)格式纠错:支持公文、合同等文书在样式排版方面的错误发现及修订建议提示,自动发现格式错误,展示格式错误信息,并提供一键纠正功能。(3)文本比对:支持段落、句子、表格差异计算,支持段落位置调换计算。(4)业务核查:支持内容缺失、上下文一致性、不合规、敏感或重要信息的识别和判断,并支持核查规则灵活配置和脚本二次开发。7 .OCR文字识别能力(1)手写体文字识别:支持手写体内容的文字识别,手写体识别率不能低于86%o(2)印刷体文书识别:支持文本、表格、页眉、页脚、页码和脚注的识别,并可以把识别结果转成与原件排版一致的DOCX文档。支持中文简体
10、、中文繁体、英文三种语言,印刷体文字识别不能低于98.5虬(3)票证文字识别:支持火车票、出租车票、飞机行程单、增值税发票等票据文字识别和结构化,支持一张图片中多个和多种票据。8 .知识图谱构建(1)知识建模:提供概念定义、属性定义、关系定义的可视化建模,支持模型导入导出。(2)知识抽取:支持规则机制和机器学习两种手段的实体抽取、关系抽取,支持业务主题、动态主题提取。(3)知识融合:支持从文档类、结构化数据融合知识,提供属性转成实体之间关系、关系推演生成新关系功能。(4)知识推理:预测给定的三元组是否存在,根据知识图谱中的因果关系,自动推断结果或原因。通过一个指定实体发现直接或间接相关的实体及
11、关系,指定两个特定实体发现两者之间关系路径。9 .NLP自主学习(1)数据标注管理:对机器学习的训练数据集进行分类、定义和标注,至少要支持分类标注、实体及关系抽取、分词、纠错等主题标注。(2)模型训练:配置机器学习训练任务,包括使用到的训练数据集、训练的算法/程序、训练参数、模型输出位置、训练启动时间等。可以查询训练历史任务、监控当前正在执行的任务。(3)模型管理:对机器训练出来的模型数据进行测评和维护,并对模型进行版本控制和上架。二、智能辅助办文应用(1项)1.来文自动登记(1)来文正文识别:识别外部来文扫描件文字、表格等内容,并转成与原件排版一致的、可以调整内容和格式的docx文件。1 2
12、)来文要素识别:从公文正中提取标题、发文文号、发文机关单位署名、主送单位、抄送单位、签发日期等公文要素。(3)收文单自动填写:从来文中提取的公文要素自动填写到收文处理单对应的栏目中。2 .公文辅助编写(1)公文模板管理:提供模板上传、目录结构定义、文书要素定义功能,支持doc、docx、ppt、PPtX等文件格式,支持从doc和docx文件中自动识别目录结构并存放到模板中。(2)从模板新建:可以选择指定模板,根据模板目录结构自动生成目录所对应的内容。(3)写作参考推荐:与“四、统一资源搜索搜索”对接,实现根据当前公文主题和目录标题推荐相关素材,支持在线查看素材内容、快速拷贝。(4)词汇畅想:根
13、据指定词汇发现相似的、相关的词语,并给出关联度和词汇定义内容。(5)公文排版:公文体裁的格式纠错内容集成到可以支持对编辑状态下文档格式纠错和修订。(6)出处定位:根据一段文本查找所在文档,输出文档标题、所在位置、文本所在段落,并定位文本所在文档位置。(7)相似段落查找:根据一段文本查找与之相似的段落,输出文档标题、所在位置、文本所在段落,并定位文本所在文档位置。(8)上述功能支持嵌入到WPS和微软Word编辑器中。3 .公文办理参考(1)参考资料推荐:与“四、统一资源搜索搜索”对接,根据当前处理公文的主题推荐相关资源、同类办件等,按不同的库进行分组,支持在线查看资源内容。(2)公文内容标引:针
14、对公文正文中的人物、城市、引文等词语进行标记,并链接到对应的详情界面。4 .公文常识校对(1)常识错误发现:至少要识别公文正文和处理表中的漏字、多字、拼写错误、内容重复、标点符号错用等错误。(2)常识错误定位:在正文编辑器中,针对发现错误位置进行定位和标记。(3)错误自动修订:根据系统推荐的修订建议,自动替换正文编辑器中错误内容。5 .公文自动排版(1)格式错误发现:根据公文格式规范,发现当前编辑的公文正文格式错误信息和位置。(2)格式错误修订:根据发现的格式错误信息,自动调整当前公文正文的格式。(3)格式要求说明:列出当前公文体裁所对应各种格式要求说明。1 三、智能辅助办事应用(1项)1 .
15、受理单自动填写(1)项目管理事项:包含招标采购项目审批、合同审批表、政府集中采购下单审批、校内自主询价采购审批、采购项目建设实施推进、政府采购意向申报。(2)请示汇报事项:包含事前请示报告、通用办公设备/家具采购事前请示报告。(3)培训及社会服务事项:包含培训项目可行性分析与立项申请业务事项。(4)工作计划管理事项:包含学校党委年度工作管理、学校年度工作管理、各部门、单位工作计划管理。2 .文件版本比对(1)文书要点比对:自动识别文书体裁,抽取文书的关键内容,以表格方式展示差异信息。至少要支持公文、合同、招标书等体裁。(2)同类段落比对:分析文书各版本的篇幅内容,并将文书段落进行碎片化处理。识别两个版本之间相同段落差异(删除、新增、替换)内容,并用可视化界面展示。(3)相似段句比对:识别当前的文书体裁,分析不同版本的文书篇幅内容,文书按照章节碎片化,将相似段落或句子以结构化形式呈现。支持一键定位差异点,支持表格之间的内容比对。(4)以上比对功能支持txt、docdocxpptpptx、pdf、html、htm等文件格式。3 .合同辅助审核(1)内容缺失检查:判断必填合同内容,发现缺失项。比如:项目名称、乙方信息、