证券代码688787证券简称海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表.docx

资源描述

《证券代码688787证券简称海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表.docx》由会员分享，可在线阅读，更多相关《证券代码688787证券简称海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表.docx（6页珍藏版）》请在优知文库上搜索。

1、证券代码：688787证券简称：海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表编号：2023-014投资者关系活动类别J特定对象调研分析师会议媒体采访业绩说明会新闻发布会口路演活动现场参观电话会议其他（请文字说明其他活动内容）参与单位名称及人员姓名广发基金孟晓会议时间2023年9月4日会议地点海天瑞声会议室上市公司接待人员姓名证券事务代表：张哲投资者关系负责人：袁璐投资者关系活动主要内容介绍1、大模型预训练阶段很大程度用的都是无监督学习，无监督学习下，公司的业务是否会受影响，或者会产生哪些新的数据机遇？大模型是人工智能技术新的发展范式，该技术路线下将衍生出新型数据需求。例如，

2、预训练阶段，数据服务公司需能根据客户的大模型需求，完成对海量数据清洗方案的设计以及执行，通过清洗出高质量数据，帮助客户高效完成模型预训练开发；同时，预训练想要达到更高阶的通用学习效果，需要更为丰富的高质量数据来源，例如各类数据等，因此，能聚集更为丰富的类数据、并以工程化和规模化地方式向客户提供相应服务的数据服务商将具有更高的市场竞争力。此外，为使大模型能力更趋近于人类，大模型还将在完成预训练的基础上，通过有监督微调以及基于人类反馈的强化学习，实现模型在特定方向上的优化迭代。上述两个阶段均需深度人工参与，同时参与上述两阶段的数据处理人员将被要求有更高的认知水平和专业能力，以更好指导机器完成高阶能

3、力优化。大模型时代实质上是一个海量数据的时代，随之将产生海量的数据需求，数据服务模式也将由传统的数据标注向获得海量高质量数据、以及更强的数据处理能力转变，这对数据服务商提出了新的、更高的要求。因此，能够前瞻性布局大模型数据服务能力的服务商将优先获得市场机会，建立先行的护城河。2、请问大模型向多模态发展后，是否会对公司业务产生正向影响？大模型向多模态发展后，将会产生更多的新型数据需求。例如文生图的多模态大模型，通过文字输入生成对应图片，这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射，通过对齐两种独立模态关键特征的方式，实现按指令的创作，以此完成学习训练过程。因此，当大模型向

4、多模态能力维度拓展时，高质量多模态训练数据集的持续学习训练的重要性将更加凸显，多模态的发展将推动数据服务行业进入更大的增量空间。3、公司如何看待合成数据这个技术？今后是否会对公司的业务产生不利影响？尊敬的投资者：您好，在数据重要性凸显且数据需求快速增长的时代，合成数据可以认为是人工智能行业发展到一定阶段的必然产物。数据合成技术可以作为数据采集的有效辅助，但也存在较强的局限性，降低真实世界各类特征的训练效果，因此目前仅可作为数据采集的一种辅助方式。从目前数据服务行业来讲，以计算机视觉场景为例，合成数据主要应用于某些高危的、罕见的cornercase的模拟训练当中，但合成数据毕竟是由机器生成的虚拟

5、数据，其数据质量以及真实性仍无法替代真实场景数据，因此按照目前的技术路线，绝大多数企业仍在使用真实场景数据进行模型训练。但公司会紧密关注合成数据技术的发展，根据最新的行业动态及时调整公司业务布局。4、数据是怎么生产的？训练数据生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）设计一一训练数据集结构设计在设计环节中，通过考虑算法模型的具体应用领域、应用场景以及预期实现的训练效果，反过来确定训练数据集内的数据类型、数量、比例分布等，相应确定原料数据的采集要求，为后续采集工作奠定基础。以语音识别、语音合成领域的训练数据集

6、为例，在原料数据的采集环节，发音人（被采集对象）需要朗读公司提供的基础语料，并用指定的录音设备录制以形成原料音频数据。因此，在设计阶段，公司就需要考虑如何设计基础语料，才能使得容量有限的训练数据集能够覆盖尽可能多的自然语言现象，如覆盖更多的发音习惯、语言特点、句长分布，达到更好的音素平衡效果等，从而使得算法模型获得更好的训练结果。采集一一获取原料数据根据此前设计好的训练数据集结构及数据量目标，制定原料数据采集方案并开展原始数据采集工作。采集过程所涉及的主要考虑因素包括：A.数据量方面：需根据成品训练数据集的目标数据量，预留少量冗余。在实际采集过程中，由于可能发生少量录音不合格的损耗情况，通常会

7、在总采集数据量中预留少量冗余，从而略大于最终要交付的数据量，以备替换偶然出现的不合格录音数据。B.数据属性方面：在采集环节中，根据客户算法模型应用的目标场景、领域等个性化需求，采集特定原料数据。以语音识别训练数据为例，在采集环节中，通常需要根据语音识别模型的语种/方言类别、目标应用场景（安静、噪音；家居、车载等），相应定义寻找符合要求的发音人，在合适的采集场景下由发音人朗读、或自然说出录制语音片段，生产原料音频数据。以语音合成训练数据为例，通常需要根据客户对拟合成的语音的风格（温柔、甜美、科技感等）、年龄（成人、儿童）、性别、语种、口音等方面的具体需求寻找发音人，并组织发音人按照前期设计完成的

8、音素集、语料库等资料进行朗读，录制生成原料音频数据。此外，由于语音合成训练数据的录制对信噪比、底噪、录音棚混响时间等参数、指标和录音设备的要求很高，通常需要在专业级别的录音棚中完成录制工作。加工一一数据标注通过公司ADS和VDS平台，对语音、文本、图片等原料数据进行标注，使其成为结构化可被算法识别和学习的专业训练数据集。该环节中，公司通常会应用相关算法模型，通过算法完成预识别和预标注，可以显著提高数据标注效率，降低标注成本。质检一一各环节数据质量检测质检环节会渗透在整个训练数据的全生产流程，具体包括：A.在前端采集环节，公司开发的采集工具可对原始数据质量进行即时质检，不符合要求的原始数据不被计

9、入采集数据之中；B.在中端加工环节，公司运用自动标注工具+人工校对检验的方式对数据加工情况进行检查，提升加工效率和准确度；C.在后端大规模质检环节，公司运用全自动校验技术，实现大规模训练数据集的质检需求。5、训练数据产品和服务的定价模式、收费模式是什么样的？定制服务定价模式：一般采用成本加成定价法。公司根据客户的具体服务需求预估项目成本，在预估成本的基础上，参考公司制定的指导毛利率水平，结合项目技术难度、复杂程度、时限要求等进行报价，并根据市场环境与客户协商，最终确定价格。产品定价模式：一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因素，制定产

10、品标准价格及价格区间，在销售过程中，根据客户的实际需求情况，以价格区间为基础向客户报价，经双方协商确定最终销售价格。训练数据产品通常以单个数据集为单位进行定价，定价比较灵活。6、公司的营收结构如何？公司是专业的人工智能训练数据服务提供商，可为包括大模型在内的Al产业链上的各类机构，包括但不限于科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业，教育科研机构以及部分政企机构提供模型训练所需的专业数据集。公司营业收入按照所服务的应用领域、技术路线，分为智能语音、计算机视觉、自然语言以及训练数据相关的应用服务。2022年，智能语音收入占比为66.32%、计算机视觉收入占比23.04%,自然语言收入占比8.63%,训练数据相关应用服务占比2.03%o附件清单（如有）日期2023年9月7日

展开阅读全文