高书生:详解国家文化大数据标识解析、数据关联

  新闻资讯     |      2023-12-26 00:08

  高书生:详解国家文化大数据标识解析、数据关联文化数字化采用标识解析。标识编码是标识解析的基础,采用的是由我国提案并主导创建的信息与文献国际标准,也是信息与文献领域唯一标识实体之间关联关系的全球通用标识符。一旦有线电视网络设施部署了这套技术系统,有线电视网络就改造成为国家文化专网;部署了底层关联服务引擎和应用软件的各类文化机构,接入国家文化专网,就可以在闭环系统从事数据的采集、解构、关联、解构、呈现、交易。中办国办《关于推进实施国家文化数字化战略的意见》明确的首要任务,就是关联形成中华文化数据库米乐M6。怎么关联?如何贯通?这就要依靠标识解析体系发挥作用,关联需要部署底层关联服务引擎和应用软件,贯通需要部署提供标识编码注册登记和解析服务的技术系统。

  作者高书生(中宣部文改办原副主任、一级巡视员,中国公共关系协会文化大数据产业委员会副主任委员)

  根据中办国办《关于推进实施国家文化数字化战略的意见》“加强标识解析体系建设,推广信息与文献相关国际标准”工作要求,近日,中国公共关系协会文化大数据产业委员会印发《国家文化大数据标识注册管理办法(试行)》,目的是规范国家文化大数据标识解析服务,保护用户合法权益,保障国家意识形态安全和文化安全,推动国家文化大数据体系建设。

  标识编码是标识解析的基础。所谓标识编码,就是给每一个数据分配唯一可读的标识符,这个标识符类似于“身份证”。迄今为止,国际标准化组织(ISO)在信息与文献领域发布了12项标识符国际标准,比如每本书的书号,采用的是ISBN,每种杂志的刊号,采用的是ISSN。ISBN和ISSN都是国际标准化组织发布的标识符国际标准。2015年,国际标准化组织发布ISO 17316:2015 Information and documentation-International Standard Link Identifier(简称ISLI,ISO为国际标准化组织,17316为标准代号,2015 是标准的版本/年号),这是由我国提案并主导创建的信息与文献国际标准,也是信息与文献领域唯一标识实体之间关联关系的全球通用标识符。

  在标准领域,特别是技术标准领域,随着技术迭代更新,很多标准也会被淘汰。信息与文献领域的标识符一经被广泛应用,便成为“唯一+稳定”的标准,它自身可以升级,但不可以被替代。标准创建者的地位也是稳定的。在信息与文献标识符领域,凡对标准的唯一性、使用的规范性特别需要维护的标识符,国际标准化组织便会为其设立一个“国际注册权利机构”(Registration Authority,简称RA),比如ISBN RA,ISSN RA。RA是标准应用规则的制定者、标准应用的认定者和标准应用数据的汇聚者。凡是使用标识符国际标准,必须按RA制定的规则,向RA提供相关元数据信息。国际标准化组织为ISLI设立了RA,ISLI RA设在我国的香港地区,底层技术系统提供商(TP)为设在我国境内的公司。

  中办国办《关于推进实施国家文化数字化战略的意见》提出的全面梳理中华文化资源,推动文化资源科学分类和规范标识,按照统一标准关联形成中华文化数据库,这里所说的“统一标准”,就是依托我国提案创建的ISLI国际标准,但不替代各个行业正在执行的标识符标准。两办文件提到的“依托信息与文献相关国际标准,在文化机构数据中心部署底层关联服务引擎和应用软件”,“相关国际标准”也是指ISLI;“依托现有有线G网络和互联互通平台,部署提供标识编码注册登记和解析服务的技术系统”,所指的技术系统即是ISLI底层技术系统。

  一旦有线电视网络设施部署了这套技术系统,有线电视网络就改造成为国家文化专网;部署了底层关联服务引擎和应用软件的各类文化机构,接入国家文化专网,就可以在闭环系统从事数据的采集、解构、关联、解构、呈现、交易。

  2022年8月,ISLI RA授权中国公共关系协会文化大数据产业委员会,设立ISLI区域/行业注册机构,即ISO 17316-ISLI-DRA,在ISLI RA业务框架和规定的范围内,承担中国国家文化大数据体系领域的ISLI注册管理业务。

  中国公共关系协会是中宣部主管的全国性、行业性、非营利性社会组织,下设8个专委会,文化大数据产业委员会是其中之一,具体负责为成员单位提供联络、沟通、协调、服务,协同推进国家文化大数据体系建设;组织成员单位推广信息与文献关联标识符国际标准,加强标识解析体系建设;组织成员单位在数据采集加工、数据交易分发、数据传输存储、数据治理等环节,研究制订并发布国家文化大数据团体标准,通过宣传、培训、示范等方式推广应用;为实施国家文化数字化战略、建设国家文化大数据体系建设提供专业性咨询服务。

  为组织成员单位推广我国提案创建的ISLI,加强标识解析体系建设,承接ISLI RA授权的ISLI注册管理业务,中国公共关系协会文化大数据产业委员会设立国家文化大数据标识注册中心,依据《ISO 17316(ISLI)DRA协议》部署统一的ISLI注册系统,同部署在有线电视网络设施的提供标识编码注册登记和解析服务的技术系统,以及部署在文化机构数据中心的底层关联服务引擎和应用软件实现无缝衔接,对国家文化大数据体系中的文化数据、参与者、载体、时间、事件和位置等实体进行标识,对国家文化大数据体系中文化大数据实体关联关系进行标识。

  国家文化大数据标识注册中心始终把社会效益放在首位,遵循社会公共利益优先原则,促进公共文化资源数据依法依规向公众开放,保障公共文化资源数据安全,维护国家文化大数据体系运转的公开、公正、公平、有序、透明。国家文化大数据标识注册中心建设以ISLI注册服务为基本业务的门户网站——伏羲云(),向ISLI用户提供身份注册和ISLI关联编码登记服务,向用户提供ISLI关联编码元数据检索和查询服务,用户输入ISLI编码标识对象名称,页面显示该标识对象在ISLI注册系统登记的公开元数据内容,能让用户查找与某个元数据相关的ISLI编码。

  为提高标识解析服务的效率,国家文化大数据标识注册中心在已部署提供标识编码注册登记和解析服务技术系统的省域中心以及行业中心、专业中心和关联平台设立派出机构,接受国家文化大数据标识注册中心管理和监督,协同开展文化大数据标识解析服务。派出机构应根据业务需要,配备工作专班和专人,工作人员在业务上接受国家文化大数据标识注册中心的培训和指导,持证上岗,确保ISLI注册系统运行顺畅。

  中办国办《关于推进实施国家文化数字化战略的意见》明确的首要任务,就是关联形成中华文化数据库,包括关联零散的文化资源数据,关联思想理论、文化旅游、文物、新闻出版、电影、广播电视、网络文化文艺等不同领域的文化资源数据,关联文字、音频、视频等不同形态的文化资源数据,关联文化数据源和文化实体。具体路径是,按照物理分布、逻辑关联原则,汇集文物、古籍、美术、地方戏曲剧种、民族民间文艺、农耕文明遗址等数据资源,贯通已建或在建文化专题数据库。

  怎么关联?如何贯通?这就要依靠标识解析体系发挥作用,关联需要部署底层关联服务引擎和应用软件,贯通需要部署提供标识编码注册登记和解析服务的技术系统。

  国家文化大数据体系建设是大兵团作战,涉及宣传、网信、文旅、新闻出版、电影、广播电视、文物等部门,涵盖思想理论、文化旅游、文物、新闻出版、电影、广播电视、网络文化文艺等不同领域,文化机构众多且行业差异较大,部署底层关联服务引擎和应用软件需要区别对待,因地制宜。

  ·对于文化资源数据量巨大、居行业领军地位且拥有独立的数据中心的文化机构,可由国家文化大数据标识注册中心授权作为其派出机构,并在其数据中心部署底层关联服务引擎和应用软件,内置集成,通过应用程序编程接口(API),委托发布一个数据即赋予一个ISLI码,将授权清晰的数据导入国家文化专网;

  ·对于不具备设立数据中心条件的文化机构和公民个人,可采取云服务模式,登录国家文化大数据标识注册中心服务门户网站,注册即可使用,在一定使用量范围内免费,超过部分按照梯次收费。

  至此,文化数字化“底座”就完成了技术架构,文化机构及公民个人即可将其文化资源数据进行标识,通过对实体进行标识,从语义关联空间维度包括文化数据、参与者、载体、时间、事件和位置六类,继而完成关联标识,关联按照不同维度的方向性包括文化数据与参与者、参与者与文化数据、文化数据与时间、时间与文化数据等。如果文化数据实体已使用其他标准标识符,应继续使用既有标识符,相应标识符纳入文化大数据标识编码的元数据列表项。

  文化大数据标识编码由文化机构及公民个人申请、国家文化大数据标识注册中心统一分配。分配标识编码时,应登记相应标识类型规定的元数据。标识编码申领者必须拥有被标识实体的所有权或使用权,一个标识编码只能分配给一个实体,一个实体在不同的应用中可以有多个种类的标识编码,但在同一个命名空间内只能有一个标识编码。标识编码分配与使用具有永久性,不受时间限制。

  文化大数据标识编码由十进制数字构成,分为三个字段,即:6位数字的服务字段、长度可定的关联字段和1位数字的校验字段。关联字段用于构建并标识文化数据实体之间定向关系的关联编码,由国家文化大数据标识注册中心依分类规则和需求组织编制,经ISLI RA核准发布后,统一分配。标识编码申领者将使用编码的基础元数据回传国家文化大数据标识注册中心登记生效。

  国家文化大数据标识注册中心负责对文化大数据标识编码申领进行合规性审核,申领者应登记文化大数据标识元数据,严格执行权属人的授权使用权限设置,并符合国家政策。

  我国是文明古国,文化资源大国。将中华民族积淀了五千多年的文化资源转化为数据,成为文化生产要素、文化创新创造的素材和源泉,从中提取具有历史传承价值的中华文化元素、符号和标识,就可以丰富中华民族文化基因的当代表达,全景式呈现中华文化。

  数据关联,首先要找准数据所在的坐标系,即对数据进行科学分类。目前对文化类别讲得最清楚的,非联合国教科文组织莫属。1986年,联合国教科文组织曾发布一版《文化统计框架》(Framework for CulturalStatistics,简称 FCS)。2009年,联合国教科文组织根据全球文化发展状况,特别是全球文化领域出现的新动向和新概念,包括与新技术(如数字和网络技术)、非物质文化遗产以及演进中的文化实践和政策相关的概念,发布了新版《文化统计框架》,对文化类别进行了较为全面的提炼与概括,为全面考察和描述文化活动提供了标准化版本。联合国教科文组织2009年版《文化统计框架》把文化领域划分为六大类别,即文化和自然遗产、表演和节庆活动、视觉艺术和手工艺、书籍和报刊、视听(音像)和交互媒体、设计和创意服务。联合国教科文组织对文化活动的描述呈现立体化、网络状,同时超越了简单的分门别类,更加强调在同一类别中文化活动的循环,弄清楚文化从创作、生产到传播、消费等各个阶段是如何展开的。比如,把博物馆归入文化和自然遗产类别、把图书馆归入书籍和报刊类别等,对文化活动的描述更加完整。

  数据关联具有很强的专业性,同时也是规模巨大的新兴产业。2018年,百度入驻山西综改示范区,打造数据标注产业基地。截至2022年5月,百度山西数据标注基地办公面积超19000平方米,已有5000名数据标注师米乐M6,已入驻53家代理商,基地累计产值超5亿元。百度已在山西太原、山东济南、山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余7个地域,建设百度智能云数据标注基地。基地依托百度人工智能技术的发展,为供应商提供标注资源、标注工具米乐M6,供应商能够自由访问百度现有的AI标注平台。通过标注工具和预标注算法,借助机器决策,标注过程实现了人员和数据自动流转,摆脱了人工干预。

  百度数据标注基地的做法和经验,对做好文化大数据关联具有很强的示范作用和借鉴意义。不同于其他行业的大数据,文化大数据是供给侧的,更具有生产要素的特征,经过挖掘数据的文化内涵,文化大数据可以直接转化为二次创作的素材。数据为文化赋能,文化为数据增殖。

  如果说数据关联是生产过程,那么,关联数据就是生产成果。中办国办《关于推进实施国家文化数字化战略的意见》指出:“推动文化机构将文化资源数据采集、加工、挖掘与数据服务纳入经常性工作,将凝结文化工作者智慧和知识的关联数据转化为可溯源、可量化、可交易的资产。”数据关联可以调动成千上万的专业人员加入,随着数据关联队伍的不断壮大,关联数据像滚雪球一样越积越多,形成不计其数的关联链,同知识图谱一起,对中华文化进行全景式呈现。文化机构及公民个人既可以为自己的数据加以标识和标注,形成关联链,这是内关联,也可以通过国家文化专网对已形成的关联链再标识和标注,形成了更大范围的关联链,这是外关联。未来的文化数据或许以关联链面目出现,关联链将成为文化新业态,用户购买关联链就可以访问不同文化机构的数据库,无论建设数据库还是生产关联链,都能够获得丰厚收入。

  推动标识解析与区块链、大数据等技术融合创新,这是中办国办《关于推进实施国家文化数字化战略的意见》提出的另一项重要任务。

  诞生于2008年的区块链,因为资本追逐数字货币而被关注。文化领域应用较早的,应该是版权保护,即应用区块链技术对作品进行鉴权,证明文字、视频、音频等作品的存在,保证权属的真实、唯一性。作品在区块链上被确权后,后续交易都会进行实时记录,实现数字版权全生命周期管理,也可作为司法取证中的技术性保障。

  当数字藏品风靡市场,数字藏品平台如雨后春笋激增,随之暴露的是对市场交易合规性的质疑、数字藏品版权纠纷等问题。数字藏品可否上链,成为业界谋划的一条出路。专门为数字藏品量身定做的联盟链,相继登场亮相。中国数字文化集团有限公司携手中国联通、联合中国文物交流中心、大有国联控股有限公司、北京文投集团等推出“中国数字文化链”。

  一是分布式结构。区块链数据的存储、传输、验证等过程均基于分布式的系统结构,国家文化大数据体系建立在物理分布、逻辑关联的基础上,各文化机构的数据采取分布式存储。

  二是数据永久性。区块链数据一旦上链存储,就无法撤回和删除。标识编码的分配与使用也具有永久性,除特定情况标识编码允许被注销,一般情况下标识编码将被永久分配给一个特定的关联,永远不得改变、更换或重复使用。

  三是透明性。区块链具有人人都可查阅的特性,每个人都可以在任何一个有网络的地方,查询区块信息。国家文化大数据标识注册中心门户网站也提供ISLI关联编码元数据检索和查询服务,用户输入标识编码可以查询公开元数据内容,查找与某个元数据相关的标识编码。

  文化科技创新服务联盟基于长安链技术体系以及国家文化大数据相关标准建设“文化联盟链”,面向数字化文化消费新场景提供区块链服务,为国家文化大数据应用提供文化数字内容的版权保护、确权、交易、消费等全链条开放服务,促进网络消费、定制消费等新型文化消费发展。同时与全国文化大数据交易中心共同牵头制定国家文化大数据体系团体标准——《基于区块链的文化数字内容跨域共享技术要求》。

  当区块链融入标识解析体系,作为文化数字化“底座”的ISLI,就被赋予新的使命与功能——主权链,对接各种联盟链,支持同构和异构区块链接入,将区块信息相关数据嵌入标识编码,导入ISLI注册系统,由国家文化大数据标识注册中心永久保存。

  行业窗口与顶尖新媒体【文化产业评论】已运维3000多期(持续8年有余,跨越3000多天),推送文化、旅游、体育领域专业优质文章7000多篇。【文化产业评论】始终秉承权威、专业、准确、及时、实用的特点,聚焦文化、旅游、体育等行业前沿动态、发展思考,直面新时代行业发展重大问题,融汇行业内外精英的观察和理解,得到了全国从中央到地方各级政府公务员、企事业单位负责人、精英从业者的高度关注与大力支持,亦架设起沟通各方的畅通渠道,是中央宣传部、国家发展和改革委员会、文化和旅游部 、国家广播电视总局、国家电影局、国家新闻出版署、国家文物局、国家体育总局等有关部门,各地市政府,以及全国各文化、旅游、体育企业的重要助手。欢迎订阅关注!