- · 《信息系统工程》栏目设[06/28]
- · 《信息系统工程》收稿方[06/28]
- · 《信息系统工程》投稿方[06/28]
- · 《信息系统工程》征稿要[06/28]
- · 《信息系统工程》刊物宗[06/28]
结构化文本格式对音乐编辑出版思维的影响
作者:网站采编关键词:
摘要:数据科学的兴起和发展,让数据库技术与思维的意义在各个领域开始凸显,人文学科亦莫能全然置身事外。其中,艺术类学科与数据思维联姻的案例更是值得关注,这类的案例,在诸多
数据科学的兴起和发展,让数据库技术与思维的意义在各个领域开始凸显,人文学科亦莫能全然置身事外。其中,艺术类学科与数据思维联姻的案例更是值得关注,这类的案例,在诸多“互联网+艺术”的研究与产业建设中都可以找到,比如笔者供职的中国文联出版社开展的“中国艺术(出版)资源素材库”项目。从事这类工作的音乐编辑人员,若能积极掌握相关的新思路和新概念,无疑将事半功倍;而这些新的工作方式在融入音乐出版物的传统编审工序之后,也会为其基本理论体系补充一些新的命题。音乐文化的传播是多么倚重音乐出版事业,自不待言,因此笔者试在适度介绍相关技术概念的基础上,就未来音乐类出版专业技术人员的理想的能力结构,以及相应人才队伍的建设与培养提出几点自己的看法,以期抛砖引玉。
一、文本的结构化与XML技术
数字时代的出版业已经不能再将“文本”简单理解为文字内容,而是应从语言学和符号学的角度,将其看作一个相对封闭、自足的符号系统。各种向读者传达信息的形态,都可以看成由符号构成的一个文本。而早在结构主义和符号学的研究中,文本已是结构化的对象。结构对应于内在的符号关系,具有重要的世界观意义,这正如结构主义者的基本观点所说,“事物的真正本质不在于事物本身,而在于我们在各种事物之间构造,然后又在它们之间感觉到的那种关系……世界是由各种关系而不是由事物构成的观念”①[英]特伦斯·霍克斯著《结构主义和符号学》,瞿铁鹏译,刘峰校,上海译文出版社1977年版,第8页。。对人文学科中的艺术资源,我们可称其为结构化文本,它直达事物内容和语义的根本。
大数据理论认为,不仅数据是可以结构化的,文本也是可以结构化的,②参见周宝曜、刘伟、范承工主编《大数据:战略·技术·实践》,电子工业出版社2013年版,第7页。而且可被称为“半结构化数据”。一般说来,可以被二维模式(或说二维结构)表现的数据,即为结构化数据;而半结构化数据并没有严格的模式,以下文要涉及的XML为例,它的模式、结构,与它的数据值、内容是混合在一起的,或者说,它的结构是通过可“自描述”的“标记”,与内容结合在一起的。①参见孟小峰《XML数据管理:概念与技术》,清华大学出版社2009年版。笔者认为,结合结构主义的视角看,后者之所以被表述为“半结构”,在于文本的一部分符码的能指可以成为标记,或者可以组成标记,而还有相当一部分符码在文本规模有限的情况下很难被纳入缜密的结构关系中,其语义信息很难在结构关系中得到体现。所以我们应该认为,结构化与非结构化之间没有绝对的界限。
传统数据库中的是典型的结构化数据,对应的技术范畴是数据库系统;而文本是半结构化的,所以它对应的技术范畴是信息系统。检索数据库系统已有成熟的技术,如SQL;而查询半结构化的文本被称为信息检索,②参见[美]西尔伯沙茨等著《数据库系统概念》,杨冬青等译,机械工业出版社2012年版。笔者使用该文献时用词有改动,原文称文本为“非结构化的”,实际上指的就是笔者改动后的“半结构化”。如“音乐信息检索”(Music Information Retrieval)等。
这里必须明确,作为文本的艺术出版资源,它所对应的信息系统领域的技术,在很大程度上和数据库系统的技术相同——特别是资源存储和检索方面。因为只要对半结构化数据稍加处理,就能将其在一定程度上转换成格式化的、结构化的数据,从而应用于数据库系统。③参见陈建红等主编《Web数据库与XML应用》,高等教育出版社2004年版,“前言”。但是,信息系统领域和数据库系统领域强调的重点又不尽相同——艺术(出版)资源素材库的技术重点,是基于关键词的查询,文档与查询的相似度分析,以及文档的分析、分类和索引等。④参见《数据库系统概念》。而对这类数据资源的检索以至各种整合来说,XML技术的支撑尤有意义。⑤推荐深入阅读潘有能著《XML挖掘:聚类、分类与信息提取》,浙江大学出版社2012年版。
XML(eXtensible Markup Language)意为“可扩展标记语言”。XML文档其实也是一个文本文件,但它是由标记及其所标记的内容构成的文本文件(最初设计它,就是为了让它成为给正文文档添加标注信息的一种途径),这些标记可以自由定义(自描述),所以它有“可扩展”之称。它的核心是(使用标记)描述数据的组织结构,从而从中体现含义。通过将文本与子标记嵌套在父标记之下,再层层嵌套直到根标记,形成“树形结构”,可以很好地揭示文本内容与它们之间的结构关系。(形象地说,图书的目录即是典型的树形结构,它可以很好地概括书的内容编排情况,也利于读者查找。)XML通过文档类型定义(Document Type Definition,DTD)和XML纲要定义(XML Schema Definition,XSD)模式对数据结构(内容)进行定义与约束,通过层叠样式表(CSS)和可扩展样式语言(XSL)对显示方式(形式)进行规定。
文章来源:《信息系统工程》 网址: http://www.xxxtgc.cn/qikandaodu/2021/0320/1129.html