2024-07-02 12:29 中文科技资讯商业版
导读:金山办公副总裁、研发中台事业部总经理姚冬日前接受《半月谈》关于AI产业如何加快形成新质生产力的主题调研访谈,以WPS的AI创新为出发点,谈到了围绕新质生产力,作为办公AI产业领域代表的金山办公,在合作、服务、供给端如何发力,为什么有定力,要怎么蓄力。
根据中共中央、国务院印发的《数字中国建设整体布局规划》,2025年要基本形成横向打通、纵向贯通、协调有力的一体化推进格局,数字中国建设取得重要进展,数字经济战略地位不断提升。
金山办公(SH:688111)和华为鸿蒙近日达成的合作,正在成为中国企业将规划进行市场化落地的一部分。6月21日至23日,在2024华为开发者大会上,WPS 鸿蒙版正式亮相。在亮相之前,WPS完成了大量的基础设施工作,其中包括:超过4000万代码进行跨平台移植;跨平台的交互界面兼容;在移植代码的同时,推动第三方跨平台基础设施的建设。
金山办公副总裁、研发中台事业部总经理姚冬日前接受《半月谈》关于AI产业如何加快形成新质生产力的主题调研访谈,以WPS的此次创新为出发点,谈到了围绕新质生产力,作为办公AI产业领域代表的金山办公,在合作、服务、供给端如何发力,为什么有定力,要怎么蓄力。
姚冬在2024华为开发者大会现场
合作端:合力探索办公新质生产力
更积极地合作,是现在许多中国企业在新质生产力领域,合力探索的关键词。
从规模上来看,金山办公和华为鸿蒙的此次基于WPS鸿蒙版的合作,相当于做了一次大体量的基础设施建设。从实现速度上看,姚冬表示,“如果从拿到第一台鸿蒙设备样机那天算起,整个过程历时八个月。”
他认为这项合作的实现难度在于,面对鸿蒙这个全新的操作系统,合作过程相当于把软件重新编写一遍。令人欣喜的是,双方的目标,放在国家层面、行业发展层面、企业对市场的预期层面来讲,都高度一致。用姚冬的话说,“鸿蒙团队到金山办公驻场,有时候下班比我们还晚。”
合力换来了成果。目前,WPS鸿蒙原生应用已在全端流畅运行,WPS AI也在多端同步上线,数十项AI功能都迁移到了HarmonyOS NEXT。
WPS鸿蒙版,新增跨端调用、跨屏协同、墨迹批注等功能
这是新质生产力在办公领域的切实落地,而要发力实现这个和新质生产力有关的目标,姚冬认为,需要实打实的工程能力,久久为功作为支撑。
事实上,金山办公多次参与国家重大科技专项的“核高基”课题(核心电子器件、高端通用芯片及基础软件产品)项目。从2017年开始,姚冬在公司内牵头成立AI团队,部分现在的AI创新,也和工程能力的历史积累密不可分。
姚冬认为,可以把AI分成三段链条:算法、模型、产品(服务)。从算法到模型,如何做分布式计算、搭建万卡集群等,大部分都是工程问题;再从模型到产品(服务),比如做推理框架、负载均衡、交互体验界面等,也要靠工程来实现。
他说,在整个AI链条当中,从核心的科学算法到最后用户能体验到的产品(服务),大部分是靠工程、研发,这个问题解决不好,算法只能停留在论文阶段。
金山办公发布的2023年年报显示,报告期内,公司研发人员共计3087人,占总员工数比例约68%。其中研发投入14.72亿元,同比增长10.60%,研发费用率约32%。
这些都是金山办公在AI创新时的定力。
服务端:对政企用户效能的实际提升
在离政企用户最近的办公场景当中,现在AI实际能发挥的效应有多大?这也是本次调研访谈的重点之一。
据了解,经过36年的发展,金山办公的WPS 365服务的政企用户已达1.7万。其中包括华润数科、蒙牛集团、通威股份等,行业覆盖零售批发、服务、制造、建筑、运输、教育、住宿餐饮、软件与信息技术服务等。
AI协同进入办公场景,对企业较为明显的效能提升,是通过激活企业沉淀的数字资产,使历史数据发挥效应。
仅举一个例子,姚冬做了这样一个简单计算:以一家千人规模的企业为例,假设一天产生约500篇文档,一年的文档量约18万篇,十年就接近180万篇。这些文档沉淀下来,就是企业的数字资产。
他认为,过去的文档存储解决的是“存放”的问题。但简单的关键词搜索其实效率很低,比如有的文档通篇没有“简历”两个字,但确实是一份简历;有文档文件但找不到所需要的内容,和文档丢失其实不存在本质区别。AI的导入,可以开始做到像人一样去阅读,用自然语义识别等手段,开发“企业大脑”去帮助解决这个问题,进而进行归纳、分析的进一步辅助工作。
2024华为开发者大会现场,姚冬展示产品战略
目前,金山办公聚焦三个方向的产品体验,内容创作(AIGC)、智慧助理(Copilot)知识洞察(Insight),在这个基础上形成产品服务。
据了解,利用AI的能力改造产品,这也将是金山办公未来几年最核心的战略,全力推进办公新质生产力落地。
供给端:如何让中文AI发展更长远
从中长期发展来考虑,中文AI要想加快形成新质生产力,已经面临的挑战和机会是什么?
以最新的一次AI“大考”来看,综合媒体信息显示,用国产大模型做高考卷,出现了“偏科”的现象,比如文科强、理科弱。但关于文科,阅卷老师表示,多数模型无法理解“本体”“喻体”“暗喻”等语文概念,写作文不像写作文,更像问答题。
谈到提升中文AI的水平,姚冬认为,加大在供给端的投入,释放更多高质量的中文语料用于模型训练,使中文AI更准确,这样有助于行业的持续创新,也对提升中文AI的全球影响力有深远影响。
姚冬解释到,模型训练需要语料供应(语料简单理解就是用于训练人工智能的文本库或数据集合,所形成的语料库是AI训练的基础资源——编者注)。现在全球范围内,随着算力规模的快速提升,用于模型训练的语料资源有短缺的趋势。从中国来看,中文AI再往前走,可能遇到的挑战,是高质量的中文语料供给缺乏。
中文AI的水库里需要蓄力,持续加水。
综合媒体报道信息称,据国际数据公司(IDC)预测,中国数据量规模将从2022年的23.88ZB增长至2027年的76.6ZB,年均增长速度CAGR达到26.3%。但目前中文优质数据仍然稀缺,如ChatGPT训练数据里,中文资料比重不足千分之一。
许多高质量的中文语料没有进入交易环节,也就不会用于中文AI的模型训练,因此,依托于中文AI的产品(服务)也就会遇到发展受限的瓶颈。这是中文AI加快形成新质生产力的现实挑战,也是创新数据要素交易模式,促进数据要素和实体经济深度融合的机会。