4月28日,由中国现代文学馆和浙江文学馆共同牵头起草的全国首个文学数据团体标准《文学数据管理与应用总体要求》在北京发布。
当日,《文艺报》发表社评,认为这是一项具有里程碑意义的重要尝试,为文化强国建设注入了新的时代动能,并认为这是新时代文学高质量发展的破冰之举、破题之举、创新之举。
当“文无定法”的文学,遇上规范精确的“标准”,我们不禁要问:什么是文学数据?文学数据有什么用?文学数据为什么要有标准?
今天,我们来谈谈文学数据标准这件事。
一
文学数据是什么?
《文学数据管理与应用总体要求》给出的定义是:“以电子或其他方式记录,或在数字化生产、应用、管理、传播等过程中产生的数据。”
抛开定义不谈,文学数据其实早已融入我们的日常生活。当我们到图书馆借阅文学作品时,便产生了“文学作品借阅”数据;当我们在社交媒体上为喜爱的小说“种草”时,也生成了一条文学数据。除此之外,作家的个人信息、作品的详细资料、文学活动的相关记录,以及文学地标的关联信息等,均属于文学数据的范畴。
在浙江文学馆,收集和应用文学数据,早已成为工作的日常。在这里,借助文学数据分析,作家的朋友圈得以清晰呈现;文学智能体一体机记录下来的观众互动数据,则直接呈现给馆方,为后续优化服务提供依据;观众参观后的留言,被精心留存下来,以弹幕方式飘在大屏上,参与数字展厅的“展项共创”……
在大数据和人工智能的“双轮驱动”下,看似零散无序的数据,经由系统收集、存储、分析与深度挖掘,实现华丽转身,转化为具有全新价值的内容,为我们提供全新视角来审视文学。
然而,当我们把视野放到全国,文学数据的保存和应用现状却并不乐观。
一方面,文学数据来源广泛、形式多样,各地文学场馆对文学数据的认知差异明显。有的缺少采集存储意识,使文学数据白白流失;有的在采集时侧重点各不相同,或注重作品本身,或聚焦于作者生平,文学数据不够全面。另一方面,因缺少统一标准,各文学场馆在建设数据库时,往往“各自为政”,形成一个个“数据孤岛”,文学数据难以流通,资源浪费严重。
这种状况就好比各文学场馆手握拼图碎片,却因标准不一,难以拼凑出完整的文学画卷,许多文学瑰宝被掩埋在故纸堆中,无法被大众熟知。文学场馆作为文化传承与交流的重要阵地,也因这种困境而难以充分发挥作用。
2023年,经中国作协批复,中国现代文学馆和浙江文学馆合作共建中国新时代文学大数据中心。中心的一个重大命题,就是要破解“现行标准无法满足文学场馆发展需求、文学数据要素孤岛化严重、文学资源应用及馆际交流不畅”的文学行业“三大困境”,在全国范围内实现文学数据的“共建、共融、共享”。
二
数据“破壁”要从标准“破壁”开始。
在中国作协和省委宣传部的指导下,浙江文学馆会同中国现代文学馆提出“标准先行”,并将“标准体系”建设纳入中心总体构架。在具体的标准起草中,以“体系化”开辟文学数据标准化“新赛道”,在行业主管部门的指导下先行先试,打响文学专项标准化工作“第一枪”,破解文学数据领域“无标可依”困境。
在历时近12个月的时间里,由文学专家、标准专家、技术专家组成的标准起草组,经历需求调研、草案编制、立项、意见征集、评审等多个阶段,从最初的“鸡同鸭讲”到“同声相应”,实现了话语“破壁”。同时,标准也收到了全国文学界的广泛关注,征求意见稿获得20余家相关单位的积极反馈,吸纳了近60条建设性意见。
这份标准分基本要求和总体要求两大部分,成为全国首个界定文学数据管理领域全流程的标准。标准的发布,填补了全国文学数据标准体系建设中的空白。
再看内容,这份汇集了全国文学、标准、技术行业智慧的标准,也有不少“硬核”点。
比如,贯通文学数据管理应用全过程。标准从文学数据的采集、存储、交换、分析、应用等关键环节出发,规范了文学数据从产生到应用全过程,推动了文学基础数据“底层逻辑”统一,确保数据的准确性、完整性和可靠性,成为奠定文学数据行业发展“新基石”。
比如,贯通文学数据标准的起草和实践过程。本次文学数据标准起草,正值中国新时代文学大数据中心各支撑平台建设期。以打造“馆际通”平台为例,在建设这一平台过程中,技术团队和标准起草团队相互协作,在技术上使用正在起草的标准内容,同时又用平台建设去检验和修正标准内容,这就使标准和实践实现了协调和统一。
比如,贯通数字化和人工智能。标准充分考虑人工智能、大数据等前沿技术,将先进的技术理念和方法融入到标准中,以“智能化”引领文学数据创新应用“新方向”。在数据应用部分,结合大模型、人工智能的要求,提出了人工智能应用于文学数字化场景、展陈、互动等方面的规范,为文学数据的深度挖掘和创新应用提供技术指引,推动文学行业“作者、读者、场馆”交互体验全面提升。
在起草标准的过程中,浙江文学馆、内蒙古文学馆、新疆刘亮程文学馆、景宁畲族自治县大均文化礼堂等各地场馆先行一步,在标准的指引下实现连接,验证了“标准破壁”能助推“数据破壁”的设想。
三
文学+数据+标准,有如“三生万物”,既解决了当前文学大数据中心建设中标准不统一、数据难流通的难题,又为今后推动文学数据在更大规模、更深层次的管理和应用提供了明确指引,激发出很多想象空间。
作为中国新时代文学大数据中心的重要建设成果,文学数据团体标准的诞生,是以标准创新推动文学治理现代化的生动注脚,更是促进文学数字化发展“新质生产力”的重要组成部分。在这里,我们有三句话畅想未来。
更省成本,更丰富。经过文学数据标准规范后,各地文学场馆在建设数据库、开发文学数据应用时,都能以标准为参照和指引,充分整合数据资源,减少孤立的重复建设,逐步形成庞大有序的文学数据共同体。一地建设的文学数字化成果,可突破地域限制,跨越山川湖海,呈现在全国观众的面前。当你走进一家文学馆,不仅能欣赏到当地的文学藏品,还能通过数字化的展示手段,领略全国各地的文学魅力。这种跨越时空的文学之旅,正是标准带给我们的珍贵礼物。
更懂文学,更懂你。通过标准化的文学数据采集与存储,我们得以构建起庞大而精密的文学数据库。大模型在此基础上接受训练,成为懂文学的“AI文学官”。当你漫步于文学场馆,这个“AI文学官”,将依据你留存的文学数据,化身为你的私人文学导游。前段时间,浙江文学馆发布的“AI文学官”小之和小兮,就是基于这种逻辑开发的。
更有效率,更“新鲜”。对作家而言,文学数据标准与文学数字化的结合,也将为创作带来强大助力。通过对海量文学数据的深度挖掘与分析,作家们能够迅速获取题材趋势,以及被尘封的冷门素材。作家在此基础上加入自己的判断和审美,可以为作品注入新鲜气息。
我们相信,《文学数据管理与应用总体要求》的发布,将从体系化、规范化、智能化等方向,全面引领全国文学数据高质量发展。随着文学数据标准持续深化和推广使用,文学数据这种以往被大家忽视的资源,必将成为“文化+科技”领域的“黑马”,促进文学以更高质量服务社会公众。