海量非结构化、粗颗粒的产业数据变为高精度的“乐高”标准件 赋能数商 大模型并非“虚火”
刘彦的母亲是一位脑神经科学家,受到启发,刘彦和好友沈鑫创办数库科技时,也认定要以AI等技术,将产业链数据变为神经元,织成网络,实现彼此串联与传导。唯此,国内外海量企业间错综复杂的关联、运行规律及潜在风险才能被敏锐洞察,给予银行、政府等部门一双“慧眼”。
(相关资料图)
数字经济是上海四大新赛道之一,人工智能是上海三大先导产业之一。当数字与AI结合,所诞生的当然远不止数库科技,还有大量数据产品交付商、数据安全捍卫者、数据资产评估商等。在算法、区块链技术及现下最火的大模型加持下,上海首提的数商生态正日益繁荣。
大模型解析产业链
“数库科技的强项,就是借助自研框架与算法,将海量非结构化、粗颗粒的产业数据,变为高精度的‘乐高’标准件。”刘彦在数据智能论坛上分享。
这并不容易。权威的全球行业分类系统GICS,也不过将产业分为4个层次,若以此标注产业链数据,未免太“粗犷”了。其次,以深圳宝安集团为例,该集团涉及高新技术、房地产、生物医药多个领域,若只打一个行业标签,显然不科学。另一个常见现象是,各企业可能在做同一件事,但它们公开披露的业务名称却未必一致。
上海的数据科技企业就愿意挑战这些难题。通过将行业层级逐级打深至12层,并将各类非结构化数据对齐,数库科技打造了一家“自动化数据生产工厂”,实现了对A股、港股、美股、发债企业等近4万家头部公司所公开披露产品的标准化,并将全国近6000万家工商企业与产业链图谱打通。
图谱并非一张“死图”。由于数据标签很“细腻”,产业链节点间的“蝴蝶效应”会被迅速捕捉——两家表面看起来毫无关联的公司,却被图谱提示,在它们上游,有同一家原料供应商,或股东间有千丝万缕的纠葛。产业链上某个节点的动态、利好乃至风险,都可能传导到各方,并被迅速捕捉。这样的图谱,被刘彦称为SAM(Segment Analysis & Mapping)产业链数据体系,其典型应用场景之一在于量化投资,可使投资机构年化收益至少提升5%。
SAM还在向UPG(Universal Product Graph)升级,进一步叠加工艺流程、生产环节、材质、设备等各类关系,数据维度更丰富,将实体产业刻画得更精准。此时,大语言模型成为功臣。“可以帮助我们解析那些原先纯靠人来处理、且表述形式极为丰富的文本语料,如研报、行业报告等。”刘彦说。
这个被大模型驱动的UPG,有望更切中客户所需。数库科技创始人兼总裁沈鑫告诉记者,“它可为地方政府提供更有针对性的产业规划,迅速找到茫茫企业群中‘最靓的仔’,为地方经济强链补链。又或者,可提示政府及时发现潜力企业,有针对性地招商安商稳商,做好上市培育。”
数商“调教”大模型
种种迹象表明,大模型并非“虚火”,它切切实实在赋能产业。这背后,上海数据科技企业不懈创新,旨在将大模型从通用领域的“实习生”,“调教”为金融、能源、交通等专业领域的“高级顾问”。
在今年世界人工智能大会上,星环科技发布了金融领域大模型“无涯”和大数据分析大模型“求索”。创始人孙元浩介绍,大模型有时会一本正经“胡说八道”,原因之一在于训练大模型用时至少半年,这导致实时新闻资讯、市场行情等快速变化的信息难以内置到模型中。星环科技用向量(指具有大小和方向的量)数据库来承担存储最新信息的中间角色,已成功化解大模型的“幻觉”。如在金融量化领域,“无涯”可回答研报分析,能对个股、债券、基金等各类市场事件进行复盘和推演。“求索”大模型同理,数据工程师可用自然语言按需查询数据,使每个人都能拥有虚拟的业务助手。
不过,大模型能否有出色表现,优质语料是关键。在昨天举行的“大模型时代下的数据要素流通”主题论坛上,上海数据交易所总经理汤奇峰坦言,现有许多语料不佳,影响大模型的发挥。“有些企业具有海量高质量数据资源,开放意愿度也很高,但需要社会第三方企业帮助组织相关的大模型训练。”
汤奇峰表示,上海数交所有志于以市场配置的方式组织数据要素,推动语料库建设。上海数交所已于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、医疗等领域。
(文章来源:解放日报)