Online Office System
News
- NEM: Sharing Chinese Wisdom for Global Scholarly Synergy!
- Worth watching! How to distinguish SCI, SSCI, EI, and CPCI.
- Journals can be searched in the VIP(维普) database
- Worth collecting! What is XML?
- DOI —— the "ID card" of the article.
Contact Us
Email:NEMPublishing@163.com
Tel(Beijing): 010-69313991;
010-58563191 ;010-58563176
News
Worth collecting! What is XML?
一.什么是XML?
XML是可扩展标记语言(Extensible Markup Language)的简称,是一种基于文本的标记语言。XML是W3C(World Wide Web Consortium)的推荐标准,实际上已经成为了Web上数据交换的标准,像HTML一样,可以使用标记来标识数据。与HTML不同的是,XML标记用来标识数据,而不是规定数据的显示格式。例如:HTML标签中采用<b>…</b>的方式来表示用粗体显示数据,而XML中可以采用<消息>…</消息>的方式来标记消息内容。由于标识数据可以看出其中的意义,XML也被描述为一种能够指明数据语义(意义)的机制。
二.XML的发展历程
XML的发展历程大致经历了GML、SGML、HTML、XML4个阶段。
第一阶段:GML(Generalized Markup Language)
GML是IBM的研究人员为了建立一种通用的文档格式,以提高系统的可移植性,与1969年创建的一种通用标记语言。GML是一种IBM格式化文档语言,用于就数据的组织结构、各部件及其之间的关系进行文档描述。GML将这些描述标记为章节、重要小节和次重要小节(通过标题的级来区分)、段落、列表、表等。GML并没有得到广泛的应用,原因是当时计算机发展还处于起步阶段(打孔式),应用场景有限。但是IBM的研究人员提供了一种数据交互的思想。
第二阶段:SGML(Standard Generalized Markup Language)
1985年,IBM研究人员在GML的基础上,进一步完善并规范了GML,形成了SGML。1986年,国际标准化组织(ISO)采纳SGML作为工业标准。SGML曾经被广泛地运用在各种大型的文件计划中,但是SGML是一种非常严谨的文件描述法,导致过于庞大复杂(标准手册就有500多页),难以理解和学习,进而影响其推广与应用。即使SGML的主要供应厂商ArborText研发的产品,也没有百分之百的支持SGML标准。
第三阶段:HTML(HyperText Markup Language)
1993年6月,HTML作为互联网工程工作小组的草案发布。又经过了多轮迭代,包括HTML 2.0,3.2,4.0,4.01,直到2014年10月,W3C将HTML5作为推荐标准。HTML是Web编程的基础,也就是说万维网是建立在超文本基础之上的,网页的本质就是超级文本标记语言。在结合其他的Web技术,可以创造出功能强大的网页。正如前面介绍的,HTML是一种展示型标记语言,是便于肉眼可读的,并不适用于数据交换。
第四阶段:XML(eXtensible Markup Language)
1998年2月,XML正式成为W3C的推荐标准。得益于XML的可读性、可扩展性、可移植性、数显分离、便于存储、便于检索等诸多优点,后期在各行业衍生出了很多语言,包括XHTML(可扩展超文本标记语言)、SVG(可缩放矢量图形语言)、SMIL(同步多媒体综合语言)、HDML(手持设备标记语言)、OEB(开放电子结构规范)等。
三.XML的特点
XML的优点在业界是众说纷纭,但是经过长期实践,总结出有6个方面,包括可读性、可扩展性、可移植性、数显分离、便于存储、便于检索。
1.可读性。XML允许用户自定义标签,来为数据定义相关的语义。例如,我们可以定义“书架”标签来描述书架信息,定义“书”来描述书架上书的信息(如下图所示),这种信息具有直观性,易于理解。XML依赖Unicode编码标准,支持世界所有主要语言的混合编码。
2.可扩展性。XML有别于HTML的大量预置标签,例如,标题标签、粗体标签、换行标签等等。XML允许各个组织或个人建立适合自己需要的标签库,并快速投入到网络中使用。只要符合基础的规范,理论上的扩展是无限量的。现在许多行业和机构都利用XML制订业内使用的标记语言标准。通过制定XML格式和数据结构规则,各应用系统解析生成XML时,只要符合相关规则,就可以正确实现数据传递。
3.可移植性。XML可移植性分为基于操作系统的可移植性和基于软件平台的可移植性两类。XML文档是基于文本的(Unicode编码),便于人阅读的(HumanReadable),可以跨Windows、Linux、MacOS等操作系统使用。在软件平台可移植性来讲,XML可以通过专业的工具,实现在不同软件平台间的信息交换。
4.数显分离。数显分离是XML诞生的一个主要特点,对标的语言就是HTML。与HTML面向显示逻辑不同, XML是面向数据逻辑的,也就是说,XML只关注数据的组合逻辑,而不关注数据以何种介质、何种形式展示给用户。数据逻辑和显示逻辑解耦的优势在于,降低了混合逻辑的复杂度和技术难度,这样一来,如果要改动数据的表现形式,就不需要改动XML本身,只改动数据显示的样式表文件即可。
5.便于存储。现代社会的绝大部分资料都是以电子文档形式保存的,并且不同格式保存的文档需要有相应的不同软件来将其打开。若干年后,很可能某些电子文档还在,但能够打开这些文档的软件则已遭淘汰而无法找到相比之下,以XML格式保存的文档就不会有上述问题。因为XML文档是基于文本的,并且文档中的每项数据都有清晰的语义,非常容易被打开和阅读。此外,XML文档能够很容易地转换为其他格式的文档,所以非常适合用来作为信息的长期保存形式。
6.便于检索。由于XML通过给数据内容贴上标记来描述其含义,并且把数据的显示格式分离出去,所以对XML文档数据的搜索就可以简单高效地进行。在此情况下,搜索引擎没有必要再去遍历整个文档,而只需查找指定标记的内容即可。
以上是关于XML的相关内容,希望可以给广大作者提供帮助。