海天瑞声获15家机构调研:截至2023年6月末公司已积累1498个自有知识产权的训练数据标准化产品数据库存量稳居全球企业前列(附调研问答)
海天瑞声9月12日发布投资者关系活动记录表,公司于2023年9月7日接受15家机构调研,机构类型为保险公司、其他、海外机构、证券公司。 投资者关系活动主要内容介绍: 答:海天瑞声目前业务涉及的授权类型,主要为与采集端有关的个人、机构相关信息主体的授权。例如,在个人信息方面,对于业务中所采集的终端人个人信息,公司会按照《个人信息保护法》《数据安全法》等法律要求,依法依规进行采集。法律要求获得授
海天瑞声9月12日发布投资者关系活动记录表,公司于2023年9月7日接受15家机构调研,机构类型为保险公司、其他、海外机构、证券公司。 投资者关系活动主要内容介绍:
答:海天瑞声目前业务涉及的授权类型,主要为与采集端有关的个人、机构相关信息主体的授权。例如,在个人信息方面,对于业务中所采集的终端人个人信息,公司会按照《个人信息保护法》《数据安全法》等法律要求,依法依规进行采集。法律要求获得授权同意的,我们会事先取得合法有效的授权,以此来保护其个人信息安全及相关合法权益。因此,公司在开展涉及个人信息采集的业务时,会根据所适用的法律要求,并结合项目具体情况,事先准备好授权文件,供终端人了解项目情况及其所享有的权利,终端人了解了授权文件的内容、同意作出授权并签署授权文件后,公司才会开始相关采集作业。
答:根据海天瑞声目前的实际业务情况,定制化数据集服务和标准化数据集产品都存在数据采集环节,即:海天瑞声既可以根据客户需求进行定向数据采集,又可以通过提前预判行业发展趋势及市场需求,预先进行数据采集并生产对应的标准化数据集产品。
答:定制服务定价模式:一般采用成本加成定价法。公司根据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公司制定的指导毛利率水平,结合项目技术难度、复杂程度、时限要求等进行报价,并根据市场环境与客户协商,最终确定价格。 产品定价模式:一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因素,制定产品标准价格及价格区间,在销售过程中,根据客户的实际需求情况,以价格区间为基础向客户报价,经双方协商确定最终销售价格。训练数据产品通常以单个数据集为单位进行定价,定价比较灵活。
答:站在整个行业的角度来看,原料数据的采集过程中一大部分被采集对象就是人,从这个角度来说,如果离开了人这个要素,则整个人工智能都无从谈起;关于数据标注/处理环节,在现有的全球人工智能技术路线下,人机协作的模式是主流、且会朝着更加智能化的方向发展来提升机器处理数据的效率、减少人的参与程度,但因为其基础是要依赖人类的先验知识来教会机器去对各类语言现象、视觉现象、文本现象进行识别、判断、理解,所以这个过程是不可能摆脱人的因素的。但可以确定的是,随着算法的逐步发展,会逐步降低对人的依赖,进而提升效率、降低成本,而这也正是海天瑞声努力的方向之一。 如上所述,训练数据不可能离开人这个重要要素,但这不代表海天瑞声是一家人力密集型企业,相反,公司全职员工数量今年上半年为251人,如此的团队体量之所以能够支撑现有业务规模,主要就是基于较有竞争优势的研发能力、技术能力,以及全球化的供应链资源管理能力,因此公司是一家以技术+资源为核心驱动力的企业。
答:公司是专业的人工智能训练数据服务提供商,可为包括大模型在内的AI产业链上的各类机构,包括但不限于科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业,教育科研机构以及部分政企机构提供模型训练所需的专业数据集。公司营业收入按照所服务的应用领域、技术路线,分为智能语音、计算机视觉、自然语言以及训练数据相关的应用服务。2022年,智能语音收入占比为66.32%、计算机视觉收入占比23.04%,自然语言收入占比8.63%,训练数据相关应用服务占比2.03%。
答:未来,境外业务和智能驾驶业务预期将成为公司营收的核心增长点,同时公司也将通过培育布局大模型以及数据要素市场,积极拓展公司服务领域,使之成为公司收入持续增长的后继动力。 (1)现有核心业务增长点a.境外业务:随着大模型技术驱动,全球AI进入高速发展期,国际巨头纷纷在AI领域进行增量布局,同时释放出海量数据603138)需求,例如服务于其AI产品出海的多语种数据、服务于其虚拟人拓展的多模态数据、以及服务于垂直化场景拓展的行业数据需求等。未来,公司将通过多语种多模态等领域的技术研发、持续营销推广布局等方式,推动海外业务的复苏及增长。 b.智能驾驶业务:受智能驾驶技术级别的提升以及车企的规模化量产等因素驱动,智能驾驶领域的数据需求快速增长。为更好承接上述数据需求,公司正在通过专业的销售团队建设以及领先的平台算法能力,加紧构建行业一流业务能力,快速拓展智能驾驶市场。 (2)培育布局新的增长点a.大模型业务:大模型技术发展带来了更多类型、更高质量、更大规模的增量数据需求。公司基于过往数据服务经验,重点发力该领域,通过大模型专有数据集建设以及大模型技术研发投入,持续拓展大模型数据服务环节并提升公司在该领域的核心竞争力。 b.数据要素业务:为更好把握数字中国建设、数字经济发展产生的新机遇,公司将基于过往业务能力,通过数据提供者、数据增值者、数据赋能者三类角色的有效融合,积极服务于数据要素市场建设。例如,公司将探索搭建基于政府共享数据的专业数据集,通过全面参与数据价值挖掘、数据处理平台工具的提供等方式,赋能政务数据资产化与价值化等等,使数据要素成为公司潜在的收入增长动能。
答:经过多年发展与积累,公司逐步构建起了在行业内的竞争壁垒,核心竞争力主要体现在: (1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强判断力和较强的资金实力。截至2023年6月末,公司已积累1,498个自有知识产权的训练数据标准化产品,数据库存量稳居全球企业前列。 (2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。 (3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为客群拓展提供有力支撑。 (4)数据安全及合规能力:数据安全及合规能力已经成为了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识别和管理实践中,已形成了较为成熟的安全、合规管理体系。 公司全方位做好数据风险管控工作,通过了业内重要的ISO/IEC27001体系认证、ISO27701个人隐私信息安全管理体系认证,形成了具有自身特色的数据安全与隐私保护整体解决方案。22年内,公司获得了北京市规划和自然资源委员会行政许可,获得乙级测绘资质,为公司智能驾驶采集业务拓展奠定基础;同时开展信息系统等级保护测评工作,获得等保三级备案证明;目前,公司符合GDPR、《数据安全法》、《个人信息保护法》等一系列国际通用与国内法律法规的管理规范要求,获得了业务领域合作客户的高度认可。
问:大模型数据来源有哪些?对于大模型训练来说,哪些数据是有价值的,哪些是没价值的?
答:按照数据来源的不同,数据可分为个人数据、企业数据、公共数据和版权数据,四类数据分别来自个人、企业、党政机关、企事业单位以及版权方。对于大模型训练来讲,某类数据是否有价值,要结合该模型应用领域进行综合判断。例如,若某大模型应用领域为文学创作,则来自版权方的散文、小说、诗词等数据就会更具价值;若某大模型想提升其在民生政务领域的客服能力,则来民生政务服务平台的此类对话数据将产生重要价值。因此,某类数据是否有价值要结合其对应的应用场景综合考量。
答:目前行业内确实存在少量客户自身利用算法进行预标注的情况,但该类客户仍有大量数据需求依赖第三方数据服务商解决。一方面,对于已经过客户算法预标注的数据,仍将依赖第三方服务商在其预标注结果基础上进行更高难度、更加精细化的处理,以达到更高的数据准确率。相比于客户的预标注算法,海天瑞声在部分场景下具有更优的算法预标注能力,因为公司算法迭代速度更快,我们是以人机藕合的方式进行数据处理,我们的预标注算法能够第一时间、甚至以近乎实时的方式得到人工处理的反馈,使得预标注算法能够在最短的时间内实现快速迭代,最大程度提升对数据的预标注效果。另一方面,由于其预标注范围仅局限于其过往积累的数据现象,客户算法通常无法覆盖所有类型的数据标注需求,因此,对于行业较为前沿、愈加丰富的数据需求或标注场景,客户仍将依赖专业的第三方数据服务机构进行数据处理。
问:版权数据持有方是否可以直接将数据卖给大模型厂商,海天瑞声在其中的价值是什么?
答:海天瑞声的价值主要体现在多版权数据的汇集、版权数据的清洗、以及基于客户大模型的后续服务。首先,海天瑞声可以汇聚不同版权方的数据,针对客户需求进行不同版权数据的提供。同时,海天瑞声可以针对客户具体定制化需求,对版权数据进行精细化清洗。虽然版权数据本身已为高质量数据,但仍无法直接用于模型训练,需经过高质量清洗后才能使用。例如,通常需将版权数据中重复数据以及不符合法律法规的相关内容进行清洗,以更好帮助大模型节约训练算力以及使大模型在训练后具备良好的法律道德价值观;
2024年世界机器人大会开幕,北京机器人产业的总收入超200亿元,雷柏科技、冀凯股份、襄阳轴承涨停,机器人相关企业整理
众星云集,重大项目签约在即!2024世界动力电池大会即将举行(附绩优潜力股)
刚刚发布,电动剃须刀大消息,A股公司仅2家!“减肥神药”效果惊人,礼来市值突破9000亿美元!机构看好A股潜力股是这几只
央行主管媒体:国债收益率曲线作为重要的价格信号,还存在远端定价不充分、稳定性不足等问题
有“全固态电池重大突破”?鹏辉能源董秘回应:具体还没详细向技术部门了解
有“全固态电池重大突破”?鹏辉能源董秘回应:具体还没详细向技术部门了解
投资者关系关于同花顺软件下载法律声明运营许可联系我们友情链接招聘英才用户体验计划
不良信息举报电话举报邮箱:增值电信业务经营许可证:B2-20090237k8凯发