您的位置: 网站首页 > 电子商务 > 电子商务实务 > 第6章 电子商务的技术基础 > 【6.2 国际互联网】

6.2 国际互联网

 

6.2  国际互联网

Internet国际互联网)是一个由各种不同类型和规模的独立运行和管理的计算机网络组成的全球范围的计算机网络,组成Internet的计算机网络包括局域网LAN)、城域网MAN)以及大规模的广域网WAN)等。这些网络通过普通电话线、高速率专用线路、卫星、微波和光缆等通信线路把不同国家的大学、公司、科研机构以及军事和政府等组织的网络连接起来。Internet网络互联网采用的基本协议是TCP/IP,任何一个地方的任意一个Internet用户都可以从Internet中获得任何方面的信息,如自然、社会、政治、历史、科技、教育、卫生、娱乐、政治决策、金融、商业和天气预报等。

6.2.1  Internet概述

Internet是位于世界各地并且彼此相互通信的一个大型计算机网络。组成Internet的计算机网络包括小规模的局域网LAN)、城市规模的区域网MAN)以及大规模的广域网WAN)。这些网络通过普通电话线、高速率专用线路、卫星、微波和光缆等把不同国家的大学、公司、科研部门以及军事和政府组织连接起来。Internet网络互联采用的协议是TCP/IP协议。

Internet能将不同的网络互联起来、构成一个统一的整体。所以Internet又称作是网络的网络,它将各种各样的网络联在一起,而不论其网络规模的大小、主机数量的多少、地理位置的异同,以及网络的类型。所谓把网络互联起来,也就是把网络的资源组合起来,这就是Internet的精华及其迅速发展的原因。

Internet也是一个面向公众的社会性组织,世界各地数以百万计的人们可以通过Internet进行信息交流和资源共享。

1TCP/IP协议

TCP/IPTransmission Control Protoc01/Internet Protoc01(传输控制协议和网际互联协议)的英文缩写。世界上有各种不同类型的计算机,例如IBM兼容机和苹果的MAC;相同的机器也存在着不同的操作系统,如UNIXWindowsOS2等。这些不同的机器要互相通信,就必须有同一的标准。TCP/IP协议具有与操作系统无关,与物理网络无关,并且寻址标准的特点,在Internet中较好地解决了不同类型、不同操作系统计算机互联的问题,目前已经成为网际互联的事实上的工业标准。

TCP/IP协议通常采用四层模型,即将TCP/IP结构由上至下分成:应用层、传输层、网络层和网络访问层。

1TCP协议。

线路的调和,让网络中每一台计算机每次只传送一定的数据量,每次所能传送的数据量的单位称为一个数据分组或数据小包)。数据总量分割传送、设备轮流服务的原则称为分组交换。计算机网络用来保证每台计算机平等地使用网络资源的技术称为分组交换技术。分组交换可以有效地避开延迟。当某台计算机发送较长信息时,它可以分为若干个分组;另一台计算机发送较短信息,可以不分组或少分组。长信息发送出一个分组后,短信息有机会发送自己的分组,结果是短信息不必等待长信息发送完就可以发送,从而避开了延迟。计算机很容易做数据分组的工作,而且在分组交换网络中,分组传输得很快,常常达到每秒传输1000个以上的分组,当几个人同时将信息发送到一个共享网络时,千分之几秒的时间间隔是感觉不到的,所以可以认为延迟是不存在的。分组交换允许任何一台计算机在任何时候都能发送数据。当只有一台计算机需要使用网络时,它就可以连续发送分组。一旦另一台计算机准备开始发送数据,共享就开始了,两台计算机轮流地发送数据,公平地分享资源。如果又有一台计算机准备开始发送,那么网络将对多台计算机重新分配网络资源。分组交换技术能够在有计算机准备发送数据和有计算机停止发送数据时立即进行自动调整,因而每台计算机在任何时刻都能够公平地分享网络资源。与大多数网络一样,Internet也采用分组交换技术,数据以分组方式传送。发送方是将信息分组再通过Internet传送;接受方在接受到一个信息的分组后,重新组装成原来完整的信息。在Internet上同一时刻流动着来自各个方向的多台计算机的分组信息。

2IP协议。

Internet中经常会遇到IP地址这个概念,这也是网络中的一个重要概念。为了在Internet网络环境中实现计算机之间的通信,网络中的任何一台计算机都必须有一个地址,而且同一个网上的地址不允许重复。在进行数据传输时,通信协议一般需要在所要传输的数据中增加某些信息,而其中最重要的就是发送信息的计算机的地址源地址)和接收信息的计算机的地址目标地址)。所谓IP地址就是Internet中主机的地址,是给每个连接在Internet上的主机分配一个在全世界范围唯一的32位编号。TCP/IP规定,每个互联网地址长32位,由网络号和主机号两部分组成。IP地址的结构使我们可以在Internet上很方便地寻址。

·    IP地址分类

由于网络号与主机号的位数决定了整个因特网中能包含多少个网络即每个网络中能容纳多少台主机。然而在因特网中的网络数是难以确定的数字,只能估计每一个网络的预期规模。按照网络规模大小,将Internet互联网地址主要分为三类,即A类、B类和C类,这三类地址的容量如表6-1所示。

6-1   Internet三类地址容量

类别

网络号位数

网络规模

主机号位数

主机规模

A

8

126

24

1677214

B

16

16382

16

65534

C

24

200

8

254

A类:能够为1 600万个主机服务的超大型网络。A类网络地址被分配给主要的网络服务供应商,即大型的地区网或国家网。A类网络地址的第一个8位位组的值为1126,即全世界最多有126A类网络,但每个网络可以拥有的主机数目相当大,最多可以容纳16 777 214个主机。

B类:大型网络。B类地址被分配给拥有大型网络的机构,如大学和大型企业。8类地址的第一个8位位组的值应在127191之间,该8位位组用于描述网络本身,后两个8位位组用于表示主机,共含有16 382个可能的网络标识符,每个8类网络可以拥有65 534个主机。

C类:大量的小型网络。C类地址的第一个8位位组的值应为192223;前三个8位位组用于描述网络号码,最后一个8位位组指定了主机的号码。由于小型网络数量众多,因而大多数网络将拥有C类地址。C类地址有超过200万个可能的网络号码,但每个C类网络只能支持254个主机。以上地址定义方式既适应了大网量少、小网量大、大网主机多、小网主机少的特点,又方便网络号和地址号的提取。

除了以上三类主要地址外,互联网地址还有另外两类地址,即D类和E类地址,其中D类地址的第一个8位位组为224239,该组地址是为多路广播Multicasting)而保留的,它是一种成组通信的方法,使用这种技术可以将报文信息立即发送给组内的所有成员,E类地址的第一个8位位组的值为240247,该类地址保留给将来使用。

·    互联网地址的直观表示法

在协议软件中,互联网地址是以二进制形式表示的,这种形式较适用于软件处理,但令人感到头痛。在面向人的文档中,IP地址被直观地表示为4个以小数点隔开的十进制整数,其中每个整数对应一个字节,这种表示方法被称为“点分十进制标识”,例如,202.120.101.23

3Internet域名系统DNS)。

域名指明了网络连接所在的国家,拥有网络连接的机构类型,在一些情况下,域名被定义得更为细致。

·    Internet域名是Internet网络上的一个服务器或一个网络系统的名字。域名是“.”分隔两段或三段字符串,如,sohu.comsina.com.cn。其中“sohu”或“sina”这一段字符串是服务器或网络的名字,由其所有者定义,由若干个英文字母或数字组成;其后由类别域名和行政区域名组成,由“.”分隔。

·    行政区域名表示服务器或网络系统的地域属性,是基于地理位置的顶层域,采用了国际标准化组织在ISO3166文档中指定的二字符国家名称。例如,.cn代表中国,.us代表美国,.uk代表联合国等。

·    类别域名体现服务器或网络系统的性质,主要有6个域名。.com代表商业组织,如netcom.commicrosoft.com

?   .net代表网络机构,如Internic.net

?   .gov代表政府机构,如beijing.gov

?   .edu代表教育机构,如wuhanuniversity.edu

?   .mil代表非保密的军事网络,如Army.mil

?   .org代表非商业或教育型的其他机构。

由于非地理域的域名是根据政治属性而不是根据简单的地理属性确定的,所以有同一机构拥有但位置相距甚远的机器,可能有相似的域名,此时就不能根据域名来推测主机所在的位置。另外,美国的行政区域名可以省略。

从技术上讲,域名只是一个Internet中用于解决地址对应问题的一种方法。可以说只是一个技术名词。但是,由于Internet已经成为了全世界人的Internet,域名也自然地成为了一个社会科学名词。

从社会科学的角度看,域名已成为了Internet文化的组成部分。从商界看,域名已被誉为“企业的网上商标”。没有一家企业不重视自己产品的标识——商标,而域名的重要性和其价值,也已经被全世界的企业所认识。

Internet已经被越来越多的人所认识,电子商务、网上销售、网络广告已成为商界关注的热点。由于域名和商标都在各自的范畴内具有唯一性,从企业树立形象的角度看,域名从某种意义上讲,就和商标有着潜移默化的联系。事实上许多企业在选择域名时,也往往希望用和自己企业商标一致的域名。

2IPv6协议

IPv6IP协议的新版本,是在IPv4的基础上诞生的,它巨大的地址容量能够满足Internet飞速发展的需要,被认为是建设移动信息社会的一个重要基石,它集移动性、安全性和服务质量保证于一体,是建设未来Internet的最佳方案。

现有Internet的基础是IPv4,到目前为止有近30年的历史了。由于Internet的迅猛发展,据统计平均每年Internet的规模就扩大一倍。尽管IPv440多亿个地址,但由于Internet用户的快速增长及地址分配的不均匀性,IPv4的局限性就越来越明显。个人电脑市场的急剧扩大、还有个人移动计算设备的上网、网上娱乐服务的增加、多媒体数据流的加入以及出于安全性等方面的需求都迫切要求新一代IP协议的出现。

IPv4相比,IPv6的主要优势体现在以下几方面。

1)更大的地址空间。IPv4中规定IP地址长度为32,即有232-1个地址;而IPv6IP地址的长度为128,即有2128-1个地址。

2)更小的路由表。IPv6的地址分配一开始就遵循聚类原则,这使得路由器能在路由表中用一条记录表示一片子网,大大减小了路由器中路由表的长度,提高了路由器转发数据包的速度。

3)增强的组播支持以及对流的支持。这使得网络上的多媒体应用有了长足发展的机会,为服务质量控制提供了良好的网络平台。

4)加入了对自动配置的支持。这是对DHCP协议的改进和扩展,使得网络尤其是局域网)的管理更加方便和快捷。

5)更高的安全性。在使用IPv6网络中用户可以对网络层的数据进行加密并对IP报文进行校验,这极大地增强了网络安全。

6.2.2  Internet接入技术

Internet接入技术是指家庭或企业的计算机或计算机网络与Internet连接所采用的技术。目前,我国的接入网建设主要涉及以下几个技术领域。

1.光纤接入技术

光纤是适合宽带业务发展的理想接入传输介质。在一定的距离与规模条件下,光纤接入网络的综合成本已经与铜缆相近。随着用户环路新技术的开发与应用,光纤用户环路   技术已经日趋成熟,而且价格在稳步下降。为了进一步降低成本,各种光纤混合网将应运而生。

2.无线接入技术

无线本地环路是用无线通信技术连接交换机与用户终端设备的通信系统。它以微波、卫星、小天线地球站VEST)以及无线蜂房通信技术作为无线传输手段,为用户提供一种本地接入的通信方法。以码分多址CDMA)技术为基础的无线通信是实现无线本地环路的最佳方案。码分多址技术以独特的数字传输方式,为各种新型通信工具与通信服务提供了可靠的技术手段。利用码分多址技术构成的无线本地环路具有以下几个特点:

1)传输距离远,可以在更大覆盖范围内为更多的用户服务。

2)使用灵活,系统安装容易。

3)通信质量高。

4)服务管理方便。

通信由有线到无线、电视传输从无线到有线是目前发展的趋势。随着无线接入成本的不断下降,无线接入方式将会与光纤接入方式相辅相成。

3.铜缆接入技术

铜缆接入是目前电话业务的主要接入手段,电信企业已经为之投入了大量的资金,因此在建设接入网时要充分考虑铜缆的使用价值。随着数字传输技术的不断发展,铜缆不仅将在电话接入中继续发挥主要作用,而且在光纤接入网尚未形成或用户急需时,也可以通过数字传输技术满足用户接入的需要。

接入网所涉及的技术领域宽,业务面广,并且多数技术还处于不断发展与完善的过程中。随着数据与多媒体业务的发展,用户对接入网提出了更高的要求。传统的以模拟铜缆为传输手段的用户接入方式已经无法满足社会需求,接入网向数字化与宽带化方向发展已成为趋势。在接入网的建设中,很多国家都确定了以光纤为主、其他手段为辅的方针。针对我国人口密度大,用户线路长,各地区之间的发展极不平衡的国情,在接入网建设中提出了“以光纤为主,以无线为辅,加快接入网光纤化进程”的发展策略,同时还强调“对于接入网的发展建设,既应兼顾目前的实际情况,更应具有长远的眼光,即兼顾当前电话主业的发展与开展宽带业务的需求,以适应未来网络线路升级的要求”。因此,采用光纤作为连接日益加宽传输带宽的接入设备的传输媒介,同时采用异步传输模式ATM,将是我国接入网建设发展的主要模式。

6.2.3  数据处理技术

电子计算机1946年诞生之后,在其后的一段时间里,计算机主要用于科学和工程技术领域的数值计算。但随着社会生产力和文明的不断发展,信息在人类社会活动中起着越来越重要的作用。20世纪50年代初期,人们开始用计算机进行数据处理。数据处理是对各种形式的数据进行收集、存储、加工和传输等活动的总称,数据管理是指数据收集、分类、组织、编码、存储、检索、传输和维护等环节,是数据处理的基本操作,称为数据管理。数据管理是数据处理的核心问题。

1.数据处理技术的发展过程

数据处理技术是对数据的分类、组织、存储、操作和维护的技术。在计算机数据处理中,简单地说计算机是数据处理机,输入原始数据,经过计算机的处理,获得我们所需要的信息。40多年来,数据处理技术随着计算机软、硬件的发展而不断地发展,它大致经历了人工管理、文件系统和数据库系统三个阶段。

1)人工管理阶段。

这是计算机用于数据处理的初级阶段。在该阶段,应用程序中除了要规定数据的逻辑结构外,还要考虑数据在计算机中的存储和组织,要为数据分配空间、决定存取方法,应用程序完全依赖于数据。数据结构的改变,数据存取的物理地址或存储设备的变化,都会要求修改相应的应用程序。也就是说,应用程序和数据一一对应,数据和处理它的应用程序混为一个整体。由于数据的物理组织是由应用程序员根据应用的要求设计的,故很难实现多个应用程序共享数据资源,造成数据的大量重复。这一时期数据的处理主要是手工性质的,其数据处理的缺点是显而易见的:数据独立性差、冗余度很高等,从而造成数据分散、处理效率低,维护困难。

2)文件系统管理阶段。

计算机操作系统中引入文件管理系统后,对上述问题有了较大的改进。数据文件可以按名引用,应用程序通过文件管理系统与数据文件发生联系,数据的物理结构和逻辑结构间实现了转换,从而提高了数据的物理独立性。在文件系统中,还提供了多种文件组织形式:如顺序文件组织、索引文件组织和直接存取文件组织等。

在这一阶段,实现了以文件为单位的数据共享。但未能实现以记录或数据项为单位的数据共享,数据仍然是分散的,是面向应用程序的,所以数据还存在大量的冗余,应用程序和数据结构之间相互依赖程度高,数据的完整性和安全性等无法得到保证。

3)数据库系统管理阶段。

由于文件管理方式的弊端,20世纪60年代后期出现了数据库技术,数据库技术的目标是,克服程序与数据文件的相互依存,力求数据独立,尽量克服数据的冗余,还要解决数据的安全和维护问题。

数据库系统是在文件系统的基础上发展起来的新技术,它克服了文件系统的缺点。解决了冗余和数据依赖问题,提供了更广泛地数据共享,为应用程序提供了更高的独立性,保证了数据的完整性和安全性,并为用户提供了方便的用户接口。

数据处理技术发展的三个阶段最明显的特征是数据与应用程序的联系程度不同,数据处理技术发展的目标是增加数据与应用程序的独立性,减少数据和应用程序的联系,从而增强数据共享性,减少数据的冗余;增强数据之间的联系,保证数据的一致性和安全性。

2.数据库技术概述

随着信息社会发展,要求计算机不但能进行科学计算,而且能进行大量数据的简单处理如数据的查询和更新),使计算机的应用从科学研究部门逐步扩展到企业、行政部门,因而产生了数据库技术。数据库技术是计算机应用领域的重要分支,其核心任务是进行数据管理。数据库技术产生于20世纪60年代末。现已形成相当规模的理论体系和使用技术。

1)数据库基本概念。

数据库Data Base):数据库是以一定组织方式存储在一起的相关数据的集合,它以最优的方式为一个或多个应用程序服务;数据的存储独立于使用它的程序;对数据的输入、输出和修改均能按一种公用的和可控制的方法进行;数据被结构化,为今后的应用研究提供基础。文件系统中数据是分散的,应用程序对应着各自的数据文件。而在数据库系统中的数据被集中进行管理,就像仓库中的货物一样,用户需要什么数据就去库中提取。因此,有人形象地把这样的数据系统称为“数据库”。

数据库管理系统DBMS):DBMS是处理数据库存取和各种管理控制的软件系统,是数据库系统的中心枢纽。用户对数据库进行的各种操作——数据库的建立、使用和维护,都是在DBMS的统一管理和控制下进行的,如图6-2所示。因为有了DBMS负责处理数据库和用户程序间的接口,所以用户不必注重数据的逻辑和物理表达细节,只需注意数据的内容就可以了。数据库管理系统通常由三部分组成。

6-2  数据库管理系统的组成

·    描述语言及其翻译程序

数据库的数据描述语言包括模式描述语言、子模式描述语言和数据存储描述语言。主要用来定义数据库的逻辑结构,描述物理数据库的结构。例如,某人事部门要将本单位人员的基本信息管理起来,这些信息包括编号、部门名、姓名、性别等。将本单位所有职员的相应信息汇总起来存储在计算机中之后,就形成了一个人事数据库。但是这些数据在计算机中的存储格式并不是杂乱的,为了有效地对它们进行管理、维护和使用,必须建立一个结构,并设计出数据在计算机中的物理存储方法。

·    数据操纵语言及其翻译程序

它完成对数据库的基本操作:检索、插入、删除和修改等。建立数据库的主要目的就是为了通过这些操作来存取相关信息。

·    数据库管理控制程序

对数据库的所有操作都是在数据库管理控制程序的统一管理下进行的。它包括系统主控程序、存取控制程序、并发控制程序和数据库服务程序等。

2)数据库应用系统。

数据库应用系统是指利用计算机和数据库技术建立起来的、面向各种数据处理应用的计算机软件系统。如人力资源管理系统、企业管理信息系统等。

3)数据库系统。

数据库系统Data Base SystemDBS)是指计算机系统引入数据库之后组成的系统,是用来组织和存取大量数据的管理系统。它是由计算机系统硬件和基本软件)、数据库、数据库管理系统、数据库应用系统和有关人员数据库管理员、应用设计人员、最终用户)组成的具有高度组织性的总体。数据库系统管理数据的方式较文件系统有许多不同。它应包括如下特征。

·    数据共享:数据库中的数据可以供多个用户所使用,在同一时刻不同的用户可以同时存取数据而互不影响,大大地提高了数据的利用率。

·    数据独立性:应用程序不再同物理存储器上具体的文件相对应,每个用户所使用的数据有其自身的逻辑结构。数据独立性表现在物理独立性和逻辑独立性两个方面。它给数据库的使用、调整、维护和扩充带来了方便,提高了数据库应用系统的稳定性,减轻了程序员的负担。

·    减少数据冗余:数据库系统管理下的数据不再是面向应用,而是面向系统。数据集中管理,统一进行组织、定义和存储,避免了不必要的冗余,因而也避免了数据的不一致性。

·    数据的结构化:数据库系统中的数据是相互关联的,这种关联不仅表现在记录内部,更重要的是记录类型之间的相互联系。整个数据库是以一定的形式构成的。

·    统一的数据保护功能:多个用户共享数据资源,需要解决数据的安全性、一致性和并发控制问题。为使数据安全、可靠,系统对用户使用数据有严格检查,对非法用户     将拒绝进入数据库。同时,还可以规定密码和用户权限。另外,不同用户同时使用     数据库,可能造成数据的不一致,数据库系统具有并发控制功能,以保证数据的正确性。

此外,系统还提供其他的数据保护措施,如数据的有效性检查、故障恢复等来保证数据的正确性。

3.数据库技术的应用与发展

随着信息系统渗透到社会的各个领域,作为其核心和基础的数据库技术也得到了越来越广泛的应用。数据库的建设规模、数据库信息量的大小和使用频度已成为衡量一个国家信息化程度的重要标志。

近年来,随着多媒体技术、空间数据库技术和计算机网络的飞速发展,数据库系统的发展十分迅速,应用领域愈来愈广,企事业单位、政府部门的行政管理、办公自动化,企业生产计划管理,军队物资管理,银行财务管理,铁路、民航飞机票预定系统,铁路车次调度系统,宾馆、酒店房间预定系统,百货公司订购与销售系统,医院病房、病历管理,学校师资、教学、学生学籍管理,图书馆管理,政府部门的计划和统计系统,人口普查,气象预报,地震、勘探等大量数据的储存和统计分析,公安部门罪犯档案管理,地理信息系统(GIS),电子商务等都离不开数据库系统。

数据库处理在信息系统的研究中一直是非常重要的主题,数据库系统仍然处于迅速发展的青春时期,充满了活力。一方面,一些较成熟的技术,如各种大、中、小和微型计算机数据库管理系统和一些传统的数据库设计方法已投入实用;另一方面,尚有许多理论及实际问题亟待解决、开发和探索,如空间数据库、多媒体数据库、网络数据库、智能数据库等。特别是网络数据库的一些理论和技术问题正在成为数据库研究的一个热点问题,传统的数据库技术和系统显得力不从心,这对传统的技术和研究开发工作提出了挑战。为应这些挑战,一方面需要将原有的思想和技术进行扩充、推广和转移来解决面临的问题。另一方面,需要研究新的技术,提出新的数据管理概念。这两方面相互结合,可为21世纪数据库技术的研究开发开辟新的局面。数据库系统这门学科正处于既需普及,又待提高的状态。

1)数据仓库。

数据仓库一词目前尚没有一个统一的定义,著名的数据仓库专家w.H.Inmon在其著作“Building the Data Warehouse《构建数据仓库》)一书中给予如下描述:数据仓库Data Warehouse)是一个面向主题的Subject Oriented)、集成的Integrate)、相对稳定的Non-Volatile)、反映历史变化Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库不同于数据库。数据库是一种通用的平台,用来管理企业的数据;而数据仓库是一种概念,在此概念下进行的构造过程,我们把它叫做数据仓库处理。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库不是花钱可以购买的现成产品而数据库是),数据仓库建设是一个工程,是一个过程。

2)数据挖掘。

当今数据库的容量已经达到上万亿的水平。在这些大量数据的背后隐藏了很多具有决策意义的信息,那么怎么得到这些“知识”呢?也就是怎样通过一颗颗的树木了解到整个森林的情况?那就是数据挖掘。数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。数据挖掘的目的是提高市场决策能力、检测异常模式、在过去的经验基础上预言未来趋势等。

数据挖掘在“数据矿山”中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回报。数据挖掘给企业带来的潜在的投资回报几乎是无止境的。世界范围内   具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制  定他们的产品推广策略把产品推广给最需要他们的人),以用最小的花费得到最好的    销售。

构建数据仓库的过程就是根据预先设计好的逻辑模式从分布在企业内部各处的数据库中提取数据并对经过必要的变换最终形成全企业统一模式数据的过程。主要有如下三个  步骤。

描述数据。计算统计变量(比如平均值、均方差等),再用图表或图片直观的表示出来,进而可以看出一些变量之间的相关性(比如有一些值经常同时出现)。

建立预言模型。用历史数据建立一个预言模型,然后再用另外一些数据对这个模型进行测试。

验证模型。先对一小部分客户做一个实际的测试,然后再决定。

3)数据挖掘应用。

由于数据挖掘带来的显著的经济效益,使数据挖掘越来越普及。它不仅能用于控制成本,也能给企业带来效益。很多企业都在利用数据挖掘技术帮助管理客户生命周期的各个阶段,包括争取新的客户、在已有客户的身上赚更多的钱和保持住好的客户。如果能够确定好的客户的特点,那么就能为客户提供针对性的服务。比如,已经发现了购买某一商品的客户的特征,那么就可以向那些具有这些特征但还没有购买此商品的客户推销这个商品,从而找到流失的客户的特征。在那些具有相似特征的客户还未流失之前进行针对性的弥补,因为保留一个客户要比争取一个客户所需成本少得多。

数据挖掘可以应用在各个不同的领域。电信公司和信用卡公司是用数据挖掘检测欺诈行为的先行者。保险公司和证券公司也开始采用数据挖掘来减少欺诈。医疗应用是另一个前景广阔的产业:数据挖掘可以用来预测外科手术、医疗试验和药物治疗的效果。零售商更多的使用数据挖掘来决定每种商品在不同地点的库存,通过数据挖掘更灵活地使用促销和优惠券手段。制药公司通过挖掘巨大的化学物质和基因对疾病的影响的数据库来判断哪些物质可能对治疗某种疾病产生效果。

4)联机分析处理。

联机分析处理的概念最早由关系数据库之父E.F.Codd1993年提出的。他认为用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多维分析的概念,即OLAPOLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

5)数据挖掘与联机分析处理。

一个经常问的问题是,数据挖掘和OLAP到底有何不同。它们的区别是使用完全不同的工具,基于的技术也大相径庭。

OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉用户数据库中都有什么What happened),OLAP则更进一步告诉用户下一步会怎么样What next)和如果用户采取这样的措施又会怎么样What if)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。也就是说,OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。但是如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。

数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式模型)的正确性,而是在数据库中自己寻找模型。它在本质上是一个归纳的过程。

数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP工具能回答你的这些问题。

6.2.4  Web开发技术

WebWWWWorld Wide Web)的简称,中文称之万维网。我们给Web下的定义是:Web是建立在客户机/服务器模型之上,以HTML语言和HTTP协议为基础,能够提供面向各种Internet服务的、一致的用户界面的信息浏览系统。在WWW中可以传送声音、图形、图像、动画,而且这些媒体可以同步出现。

1Web概述

1Web的产生与发展。

WWW创立之前,Internet上的信息传递和发布都是通过E-mailFTP等实现的,但它们对信息的交流存在各种各样的限制,Internet的作用还不能完全发挥。人们希望寻求一种好的信息结构框架、一种独立于各种平台的方法,以便在Internet上高效地传递信息。20世纪80年代末,出现了许多帮助人们分类查找信息的工具,其中最大的突破性工具是WebWeb1989年在日内瓦的欧洲粒子物理实验室首先提出来的。一位名叫Tim Berners Lee的物理学家为了让物理学家们快速地进行交流,特别是能让大家共享他们随时的实验进展报告,他想建立文件连接网络,以便让读者随意地在文件间跳跃,于是诞生了超文本的概念。

在超文本系统中,信息被组织成称作网页的信息文件,信息之间的关系不是层次的,不靠菜单链接,而是一种新的链接关系。链接是信息之间的一种逻辑对应关系,表示了信息之间的关联性。它使得文本不再像一本书一样是固定的线性的,而是可以从一个位置跳到另外的位置,你可以从中获取更多的信息,可以转到别的主题上。想要了解某一个主题的内容只要在这个主题上单击一下,就可以跳转到包含这一主题的文档上。例如,一个文件中的某个词可以与这个词的解释文件相关联。今天的网页中不仅有文本信息,还有图形、声音以及影像等多媒体信息,所以它们又称为超媒体文件。

Web就是一种超文本信息系统,它采用超文本和超媒体的信息组织方式,将信息的链接扩展到整个Internet上。在Internet中,存放网页并提供网页浏览服务的服务器主机称作Web服务器。

运行在客户端用于浏览Web网页的软件就是浏览器,它是浏览Internet上的文本、图像、声音的主要工具。在1993年,伊里诺斯州立大学的超级计算应用国家中心发布了Mosiac一个图形浏览器,随后诞生了众多的浏览器,如今天常用的有Microsoft Internet Explorer等。

2Web的特点。

Web对信息的逻辑组织方式,以及它所有追求的目标,使Web具有显著特色,在它诞生不长的时间内就得到了广泛的应用,今天,WWW几乎已成Internet的代名词,也是如它的特点和功能分不开的。Web有如下特点。

分布式的信息资源。Internet的信息资源具有极强的分布特征,这些资源通过信息指针可以引导用户端的客户机程序从一台计算机转到另一台计算机,这种转移对用户是透明的,为用户访问Internet资源提供了一个简单的、直观的界面。

统一的用户界面。用于采用C/S的工作方式,利用应用层网络协议进行信息交换,而且提供了CGI通用网关接E1,因此可以支持各种计算机、各种操作系统、各种用户界面以及各种信息服务。

支持各种信息资源和各种媒体的演播。Internet信息资源具有不同的信息结构,WWW可提供包括文本、图像、声音、动画和视频等多种类型的信息服务。

强大的功能。Web上的服务日益增多,在Web数据库等技术的支持下,它已把E-mailFTPBBS等各种功能融合在一起,并且其功能还在不断的发展。

广泛的用途。包括各种组织介绍电子出版物、电子图书馆和博物馆,虚拟现实,个人信息发布等。

3Web相关概念。

Web是一个新生的事物,有许多相关的新概念,下面先来了解几个相关的概念,以便于进一步的学习。

网页Web Page)。网页主要是由文字和图形构成的,让使用者在家中的电脑用浏览器观看图文并茂的网上作品,这和传统书籍的表现形式极为相似,但其实不只是如此,它结合动画、音乐构成一页页活动的电子图书。实际上,Internet的广受欢迎和使用者可以看到丰富多彩的网页有着密切的关系。

当浏览某个网站的时候,通常会看到这个网站的第一页,这个网站的第一页就被称为这个网站的主页。

网站Web Site)。形如那些放置网页供大家登录浏览的计算机。

浏览器。浏览器Browser)是浏览Internet上的文本、图像、声音的主要工具,从通信协议看其提供响应和服务。MosaicWWW中第一个流行的浏览程序。但由于其不能支持某些较高级的HTML特性,现已被Microsoft Internet Explorer所取代。

Hyperlink超链接)。超链接是通过统一资源定位符,在Web信息之间构造了一种逻辑联系。超链接的概念就是在编写网页过程中,编写者预先设定一些关键字,然后再提供这些关键字想要链接的目的地,这些目的地可以是一段文字、一张图片,一个网页或一个网站,这取决于文件编写者如何去达到其文件的表现形式。在网页设计上,大量使用这种超链接,使得网页变成一种立体化的文件,并更加生动有趣,这些都是传统文字、书籍做不到的事。

URLURLUniform Resource Locator,统一资源定位符)是WWW的地址,就是Internet中某主机上文件的唯一地址。它是按照Internet的一般定义方式,它从左到右由下述4部分组成,例如http://www.Yahoo.com

·    Internet资源类型(scheme):指出WWW客户程序用来操作的工具。如“http”表示WWW服务器,“ftp”表示FTP服务器,“gopher”表示Gopher服务器,其后用“//”分隔。

·    服务器地址(host):指出WWW页所在的服务器域名。

·    端口(port):对某些资源的访问来说,需给出相应的服务器的端口号。如http//210.77.146.1548080/iTCMedu/index.jsp8080就是端口号。端口号可以缺省。

·    路径(path):指明服务器上某资源的位置,通常由“目录/子目录/文件名”这样结构组成。与端口一样,路径并非总是需要的。

URL地址格式排列为:scheme://host:port/path,例如http://www.iTCMedu.com/index.html就是一个典型的URL地址。

HTMLHTML是一种专门的编程语言,用于创建存储在WWW服务器上的网页,并能由MosaicNetscapeMicrosoft Explorer等浏览器进行浏览。

HTTPHTTPWWW浏览器和WWW服务器之间的应用层通信协议,定义服务器端和客户端之间文件传输的沟通方式。HTTP是最广为人知的协议,它位于TCP/IP协议的应用层,也是互联网中最核心的协议之一。它不仅保证正确传输超文本文档,还确定传输文档中的哪一部分,以及哪一部分内容首先显示如文本先于图形)等。

SMTPPOP3SMTPSimple Mail Transfer Protocol,简单邮件传输协议)和POP3Post Office Protocol Version 3,邮局协议)是基于TCP/IP网络的协议,用于主机与主机之间的电子邮件交换。

2Web工作原理

WWW上的每个网页都对应一个文件。浏览一个页面,要先把页面所对应的文件从提供这个文件的计算机里,通过Internet传送到我们自己的计算机中,再由WWW浏览器翻译成为我们见到的有文字、有图形甚至有声音的页面。

1Web工作原理。

Web的工作基于C/S计算模型,由Web浏览器客户机)和Web服务器服务器)构成,两者之间采用HTTP进行通信。HTTPWeb浏览器和Web服务器之间的应用层协议,是通用的、无状态的、面向对象的协议。

Web工作的基本原理是:由浏览器向WWW服务器发出HTTP请求,WWW服务器接到请求后,进行相应的处理,将处理结果以HTML文件的形式返回给浏览器,客户浏览器对其进行解释并显示给用户。一个完整的HTTP会话过程包括4个步骤:

连接。Web浏览器与Web服务器建立连接,打开一个称为Socket套接字)的虚拟文件,此文件的建立标志着连接建立成功。

请求。Web浏览器通过SocketWeb服务器提交请求。HTTP的请求一般是GETPOST命令POST用于FORM参数的传递)。

应答。Web浏览器提交请求后,通过HTTP协议传送给Web服务器。Web服务器接到后,进行事务处理,处理结果又通过HTTP传回给Web浏览器,从而在Web浏览器上显示出所请求的页面。

关闭连接。应答结束后Web浏览器与Web服务器必须断开,以保证其他Web浏览器能够与Web服务器建立连接。

在这一过程中,要涉及两个不同的程序:一个程序安装在客户机上,它执行用户命令,发出HTTP请求;接到响应后,立即显示相应网页内容,确保用户的要求得到执行。这个程序叫做WWW客户机程序,比如上网所使用的浏览器IENetscape)。另一个程序在服务器上,称作Web服务器程序,如IIS或“阿帕奇Apache)”Web服务器软件,它对WWW客户机所要求的一切进行满足,也就是接到HTTP请求后,发出响应。

2Web服务器。

Web服务器是指驻留于互联网上某种类型计算机的程序。通俗地讲,Web服务器专门处理浏览器发来的HTTP请求Request),并传送Serves)页面使浏览器可以浏览当Web浏览器客户端)连到服务器上并请求文件时,服务器将处理该请求并将文件发送到该浏览器上,附带的信息会告诉浏览器如何查看该文件即文件类型)。服务器使用HTTP超文本传输协议)进行信息交流。

Web服务器不仅能够存储信息,还能在用户通过Web浏览器提供的信息的基础上运行脚本和程序。例如,假设你要提供免费公司信息,只要建立一张免费请求表单,它就会要求你的读者输入邮寄及公司信息;读者填完表后,单击提交按钮,该表单将送至服务器计算机上的某一程序,它负责处理该请求,并用E-mail给读者发一份免费信息。你还可以让该程序把客户提供的信息发给你,以便用于某数据库上。用于执行这些功能的程序或脚本称为网关脚本/程序,或称为CGI通用网关界面)脚本。在Web上大多数表单和搜索引擎上都使用了该技术。

Web服务器可驻留于各种类型的计算机,从常见的PC到巨型的UNIX网络,以及其他各种类型的计算机。它们通常经过一条高速线路与因特网连接,如果对性能无所谓,则也可使用低速连接甚至是调制解调器),但对于架设电子商店来说,性能绝对是要考虑的问题。

如今互联网的Web平台种类繁多,各种软硬件组合的Web系统更是数不胜数,在UNIXLinux平台下使用最广泛的免费HTTP服务器是W3CNCSAAPACHE服务器,而Windows平台NT/2000/2003使用IISWeb服务器。在选择使用Web服务器应考虑的本身特性因素有:性能、安全性、日志和统计、虚拟主机、代理服务器、缓冲服务和集成应用程序等,下面介绍几种常用的Web服务器。

Microsoft IIS

MicrosoftWeb服务器产品为Internet Information ServerIIS),IIS是允许在公共IntranetInternet上发布信息的Web服务器。IIS是目前最流行的Web服务器产品之一,很多著名的网站都是建立在IIS的平台上。IIS提供了一个图形界面的管理工具,称为Internet服务管理器,可用于监视配置和控制Internet服务。

IIS是一种Web服务组件,其中包括Web服务器、FTP服务器、NNTP服务器和SMTP服务器,分别用于网页浏览、文件传输、新闻服务和邮件发送等方面,它使得在网络包括互联网和局域网)上发布信息成了一件很容易的事。它提供ISAPIIntranetServer API)作为扩展Web服务器功能的编程接口;同时,它还提供一个Internet数据库连接器,可以实现对数据库的查询和更新。

IBM WebSphere

WebSphere Application Server是一种功能完善、开放的Web应用程序服务器,是IBM电子商务计划的核心部分,它是基于Java的应用环境,用于建立、部署和管理InternetIntranet Web应用程序。这一整套产品进行了扩展,以适应Web应用程序服务器的需要,范围从简单到高级直到企业级。

WebSphere针对以Web为中心的开发人员,他们都是在基于HTTP服务器和CGI编程技术上成长起来的。IBM将提供WebSphere产品系列,通过提供综合资源、可重复使用的组件、功能强大并易于使用的工具以及支持HTTPIIOP通信的可伸缩运行的环境,来帮助这些用户从简单的Web应用程序转移到电子商务世界。

BEA WebLogic

BEA WebLogic Server是一种多功能、基于标准的Web应用服务器,为企业构建自己的应用提供了坚实的基础。各种应用开发、部署所有关键性的任务,无论是集成各种系统和数据库,还是提交服务、跨Internet协作,起始点都是BEA WebLogic Server。由于它具有全面的功能、对开放标准的遵从性、多层架构、支持基于组件的开发,基于Internet的企业都选择它来开发、部署最佳的应用。

BEA WebLogic Server在使应用服务器成为企业应用架构的基础方面继续处于领先地位。BEA WebLogic Server为构建集成化的企业级应用提供了稳固的基础,它们以Internet的容量和速度,在联网的企业之间共享信息、提交服务,实现协作自动化。BEAWebLogic Server遵从J2EE、面向服务的架构,以及丰富的工具集支持,便于实现业务逻辑、数据和表达的分离,提供开发和部署各种业务驱动应用所必需的底层核心功能。

iPlanet Application Server

作为Sun公司与Netscape公司联盟产物的iPlanet公司生产的iPlanet ApplicationServer满足最新J2EE规范的要求。它是一种完整的Web服务器应用解决方案,它允许企业以便捷的方式,开发、部署和管理关键任务Internet应用。该解决方案集高性能、高度可伸缩和可用性于一体,可以支持大量的具有多种客户机类型与数据源的事务。

iPlanet Application Server的基本核心服务包括事务监控器、多负载平衡选项、对集群和故障转移全面的支持、集成的XML解析器和可扩展格式语言转换XLST)引擎以及对国际化的全面支持。iPlanet Application Server企业版所提供的全部特性和功能,并得益于J2EE系统构架,拥有更好的商业工作流程管理工具和应用集成功能。

OracleIAS

OracleIAS的英文全称是Oracle Internet Application Server,即Internet应用服务器,OracleiAS是基于Java的应用服务器,通过与Oracle数据库等产品的结合,OracleiAS能够满足Internet应用对可靠性、可用性和可伸缩性的要求。

OracleIAS最大的优势是其集成性和通用性,它是一个集成的、通用的中间件产品。在集成性方面,OracleIAS将世界最流行的HTTP服务器Apache集成到系统中,集成了ApacheOracleIAS通信服务层可以处理多种客户请求,包括来自Web浏览器、客户端和手持设备的请求,并且根据请求的具体内容,将它们分发给不同的应用服务进行处理。在通用    性方面,OracleIAS支持各种业界标准,包括JavaBeansCORBAServlets以及XML标准等,这种对标准的全面支持使得用户很容易将在其他系统平台上开发的应用移植到Oracle平台上。

Apache

Apache源于NCSAhttp的服务器,经过多次修改,成为世界上最流行的Web服务器软件之一。Apache是自由软件,所以不断有人来为它开发新的功能、新的特性、修改原来的缺陷。Apache的特点是简单、速度快、性能稳定,并可做代理服务器来使用。本来它只用于小型或试验Internet网络,后来逐步扩充到各种UNIX系统中,尤其对Linux的支持相当完美。

Apache是以进程为基础的结构,进程要比线程消耗更多的系统开支,不太适合于多处理器环境,因此,在一个ApacheWeb站点扩充时,通常是增加服务器或扩充群集节点而不是增加处理器。到目前为止Apache仍然是世界上用得最多的Web服务器,世界上很多著名的网站都是Apache的产物,它的成功之处主要在于它的源代码开放、有一支开放的开发队伍、支持跨平台的应用可以运行在几乎所有的UNIXWindowsLinux系统平台上)以及它的可移植性等方面。

Tomcat

Tomcat是一个开放源代码、运行ServletJSPWeb应用软件的基于JavaWeb应用软件容器。TomcatServer是根据ServletJSP规范进行执行的,因此我们就可以说TomcatServer也实行了Apache-Jakarta规范且比绝大多数商业应用软件服务器要好。

TomcatJavaServlet 2.2JavaServerPages 1.1技术的标准实现,是基于Apache许可证下开发的自由软件。Tomcat是完全重写的ServletAPI 2.2JSP 1.1兼容的Servlet/JSP容器。Tomcat使用了JServ的一些代码,特别是Apache服务适配器。随着CatalinaServlet引擎的出现,Tomcat第四版号的性能得到提升,使得它成为一个值得考虑的Servlet/JSP容器,因此目前许多Web服务器都是采用Tomcat

3Web浏览器

Web实际上是一个由文件、图片和声音构成的巨大的信息集合,这些信息储存在遍布全球的各种各样的计算机上,要访问Web,并把它的文档的全部特征都反映到用户的计算机上,必须使用专用的软件,这就是Web浏览器。它是运行于用户计算机上的一种软件。目前有适合不同操作系统以及用户界面的Web浏览器。

WWW浏览器是一种WWW客户程序,其最基本目的在于让用户在自己的客户机上检索、查询、获取WWW上的各种资源。一般来说,浏览器应具备以下几种基本功能。

1)检索查询功能。浏览器读入HTML文档,解释HTML所描述的图表、声音、动画、表格以及进一步的链接信息,可在任意WWW服务器上畅游。

2)文件服务功能。能在下载文档时实时查阅该文档,并可利用HTTP去跟踪感兴趣的链接。当感到正在下载的文档不需要时,可以随时中止下载过程。可对正在查阅的文档随时保存、打印和前后浏览等。

3)热表管理。浏览器应能够自动记住用户刚刚访问过的WWW地址,这称为“热表”。当用户想要回到刚才曾访问过的某一网页中,用户可以从热表中快速地切换。

4)建立自己的主页Home Page)。当用浏览器启动Internet上某一URL。地址上的某一文档文件时,由浏览器首先显示的那个文档,叫做主页。在主页中,可以加入表示用户特点的图形或图像,列出最常用的一些链接。浏览器提供了很好的接口,可以利用HTMLHTTPWWW服务器上方便地制作出自己的主页来。

5)提供其他Internet服务。浏览器除了完成自己基本的查询浏览信息功能外,正努力提供越来越多的Internet服务,如FTPGopherWAISTelnetUsenetE-mail等。目前市面上已有几十种浏览器,功能有强有弱,它们大多为免费或共享软件,可以在Internet上方便地获取。其中流行的和具有代表性的浏览器有Netscape公司的CommunicatorMicrosoft公司的Internet ExplorerIE)。

4Web编程语言

Web编程语言随着人们对Web主页的交互性要求越来越高,以完成现在C/S架构所能完成的大部分功能而不断发展。最初的HTML只能提供静态的页面,没有交互,也没有复杂的动画,只能完成简单的信息发布功能。而加入嵌入式语言,如Java ScriptVB Script等以及使用Java Applet技术,使页面有了一些简单的交互功能,如分层菜单等,另外还提供了动态主页和动画的功能,使得信息发布方式变得丰富多彩。但是,由于这些语言都是在客户端浏览器上运行的,规模不能太大,否则下载时间会很长,也不可能支持很多高级的功能,因为这样会占用过多的客户机资源,因此,无法实现诸如数据库操作等复杂操作,自然也就无法在Intranet和网上购物中应用了。CGICommon Gateway Interface)是一种在服务器端运行的应用程序,用户通过浏览器调用CGI程序并传递参数,CGI程序运行后将结果返回用户的浏览器,这样就允许在Web上实现更多更复杂的任务,使得Web上的电子商务应用成为可能。但是,CGI程序编写比较复杂,不同平台上的CGI程序也无法重用,因此,各种应用服务器应运而生。应用服务器支持使用功能更加强大甚至是人们以前用于C/S架构的编程语言,应用服务器往往提供更好的与数据库廉洁的性能。使用户可以更容易的编写较复杂的Web应用程序。

1HTML

HTMLSGMLStandard Generalized Markup Language,标准通用标记语言)的一个简化版本。它是Web上的专用表达语言,是开发InternetIntranet最有用的工具。利用HTML创建的网页只是纯文本的代码,任何人均可在计算机平台上的任何文本编辑器中创建、编辑或浏览页面的HTML代码。HTML标准是麻省理工学院的World Web Wide

ConsortiumW3C)来定义和建立的,大多数浏览器都支持HTML标记符。它是一种跨平台文本格式语言,以.html.htm为扩展名的文件。HTML语言是在WWW上的出版语言,而不能描述实际的表现形式。HTML语言使用描述性的标记符(称为标签)来指明文档的不同内容。由服务器传递过来的HTML文档或由HTML调用的音频和视频文件经过浏览器解释后,以带有声音和图像的动态页面显示在我们面前。

现在大多数的网页已经使用专门的网页编辑器来编制。这些编辑器能自动将编辑过程转换为HTML文件。常用的网页编辑器由WordNetscapeHotDogFrontPage等。

2XML

XML代表Extensible Markup Language(可扩展的标记语言)。

XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。

HTML语言定义了一套固定的标记,用来描述一定数目的元素。如果标记语言中没有所需的标记,用户也就没有办法了。这时只好等待标记语言的下一个版本,希望在新版本中能够包括所需的标记,但是这样一来就得依赖于软件开发商的选择了。实际上,用固定数量的各种标记来刻划丰富多彩的现实世界,再多的标记也是不够的。

XML是一种元标记语言。用户可以定义自己需要的标记。这些标记必须根据某些通用的原理来创建,但是在标记的意义上,也具有相当的灵活性。例如,假如用户正在处理与家谱有关的事情,需要描述人的出生、死亡、埋葬地、家庭、结婚、离婚等,这就必须创建用于每项的标记。新创建的标记可在文档类型定义Document Type DefinitionDTD)中加以描述。DTD可看作是一本词汇表和某类文档的句法。

XML定义了一套元句法,与特定领域有关的标记语言MusicMLMathMLCML)都必须遵守。如果一个应用程序可以理解这一元句法,那么它也就自动地能够理解所有的由此元语言建立起来的语言。浏览器不必事先了解多种不同的标记语言使用的每个标记。事实是,浏览器在读入文档或是它的DTD时才了解了给定文档使用的标记。

3Java技术。

Java是由Sun公司开发的一种面向对象的新一代网络编程语言。他们对Java的定义是“一种简单、面向对象、分布式、解释执行、功能强大、安全、体系结构中立、可移植、高性能、多线程、动态的语言。”

Java提供了一些独特的性能,它使Web实现多媒体交互。可以使我们不必跟随那些文本的超级链接,从动画、音频、视频就可以获得丰富的信息。非专业程序员不必学习Java语言,请求需要的就是具有能验证Java功能的支持Java运行时间系统的Web浏览器。

Java是一种与平台无关的面向对象的语言,平台无关性是指Java能运行于不同的平台。Java引进虚拟机原理,并运行于虚拟机,实现不同平台的Java接口之间。使用Java编写的程序能在世界范围内共享。Java的数据类型与机器无关,Java虚拟机JavaVirtual Machine)是建立在硬件和操作系统之上,实现Java二进制代码的解释执行功能,提供于不同平台的接口。Java程序被放置在Internet服务器上,当用户访问服务器时,Java程序被下载到本地的用户机上,由浏览器解释运行。

Java Applet是嵌入在HTML文档中的Java程序,它是一种非常适合在WWW上发布

的应用程序。由于Java语言的安全机制,用户一旦载入Applet,就可以放心地来生成多媒体的用户界面或完成复杂的计算而不必担心病毒的入侵。虽然Applet可以和图像、声音、动画等一样从网络上下载,但它并不同于这些多媒体文件格式,它可以接受用户的输入,动态地进行改变,而不仅仅是动画的显示和声音的播放。

Java可以在各种不同的机器、操作系统的网络环境中进行开发,具有解释型语言BASIC语言)和编译型语言C语言)的特性。Java摒弃了C++中各种弊大于利的功能和许多很少用到的功能,用Java开发的程序可以在网络上传输,并运行于任何客户   机上。

电子商务要求程序代码安全、可靠,同时要求能与运行于不同平台的机器的全世界客户开展业务,传统的编程语言难以胜任电子商务的要求。Java以其强大的安全性、平台无关性、硬件结构无关性、语言简洁等优点同时面向对象,在网络编程语言中占据无可比拟的优势,成为实现电子商务系统的首选语言。

Java虽出现的时间不长,但已被业界接受,IBMAppleDECAdobeSiliconGraphicsHPOracleToshibaNetscapMicrosoft等大公司已经购买了Java的许可证。Microsoft还在其Web浏览器Explorer 3.0版中增加了对Java的支持。

另外,众多的软件开发商也开发了许多支持Java的软件产品。如Borland公司的基于Java的快速应用程序开发环境LatteMetrowerks公司和Natural Intelligence公司分别开发的基于MachintoshJava开发工具;Sun公司的Java开发环境Java WorkshopMicrosoft也开发出系列Java产品。数据库厂商如IllustraSybaseVersantOracle都在开发支持HTMLJavaCGICommon Gateway Interface)。在以网络为中心的计算机时代,不支持HTMLJava,就意味着应用程序的应用范围只能限于同质的环境。

4JavaScriptVBScript

JavaScript是一种解释性的,基于对象的脚本语言An InterpretedObject-basedScripting Language)。

HTML网页在互动性方面能力较弱,例如下拉菜单,就是用户单击某一菜单项时,自动会出现该菜单项的所有子菜单,用纯HTML网页无法实现;又如验证HTML表单Form)提交信息的有效性,用户名不能为空,密码不能少于4位,邮政编码只能是数字之类,用纯HTML网页也无法实现。要实现这些功能,就需要用到JavaScriptJavaScript语言程序可以被嵌入HTML的文件之中。通过JavaScript可以做到回应使用者的需求事件Form的输入)而不用在网络上来回传输任何信息。JavaScriptJava很类似,但许多Java的特性在JavaScript中并不支持。

JavaScript主要是基于客户端运行的,用户单击带有JavaScript的网页,网页里的JavaScript就传到浏览器,由浏览器对此作处理。前面提到的下拉菜单、验证表单有效性等大量互动性功能,都是在客户端完成的,不需要和Web Server发生任何数据交换,因此,不会增加web Server的负担。

几乎所有浏览器都支持JavaScript,如Internet ExplorerIE)、FirefoxNetscapeMozillaOpera等。

VBScript是微软编程语言Visual Basic家族中的一个成员,也是一种脚本语言,可以  用于微软IE浏览器的客户端脚本和微软IISInternet Information Service)的服务器端脚本。

VBScriptVB的一个子集,它提供的各种语句和语法、常量和变量、函数和过程的规则与VB完全相同,并且也提供了许多基本的计算、处理函数。VBScript是标准的脚本语言,广泛应用于动态网页、大型电子商务系统、Windows系统管理等领域。

5ASP技术。

ASPMicrosoft Active Server Pages的简称。ASP是微软开发的一套服务器端运行的脚本平台,ASP内含于IIS当中,目前IIS最高版本已经发展到第6版。

通过ASP我们可以结合HTML网页、ASP指令和ActiveX元件建立动态、交互且高效的Web服务器应用程序。同时,ASP也支持VBScriptJavaScript等脚本语言,默认为VBScript

ASP是经过服务器解析之后再向浏览器返回数据,所以有了ASP就不必担心客户的浏览器是否能运行你所编写的代码。因为所有的程序都将在服务器端执行,包括所有嵌在普通HTML中的脚本程序。当程序执行完毕后,服务器仅将执行的结果返回给客户浏览器,这样也就减轻了客户端浏览器的负担,大大提高了交互的速度。

但是这样也导致一个问题,运行ASP页面相对于普通的HTML页面要慢一点,因为普通的HTML页面只需要浏览器就能够解析,而ASP则必须是服务器将整页的代码都执行一遍之后再发送数据。

ASP的安全性值得一提的是,由于代码是需要经过服务器执行之后才向浏览器发送的,所以在客户端看到的只能是经过解析之后的数据,而无法获得源代码,故编写者不用担心自己的代码会被别人剽窃。由于所有代码在服务器运行,所以,可以在同一文件中使用多种不同的脚本语言。

6CGI

CGI即公共网关接口,它是程序和应用软件用来与网络服务器软件连接的通用标准,CGI提供网络浏览器和数据信息之间的传送业务。它为HTTP服务器定义了一种与外部应用程序共享信息的方法。

CGI是一段程序,它运行在Server上,提供同客户端HTML页面的接E1。根据客户端在进行请求时所采用的方法,服务器负责收集由客户端提供的信息,并根据客户端请求的CGI脚本程序文件名,执行该脚本程序。所谓脚本程序就是该程序在CGI控制下运行程序。当服务器接收到来自某一客户机的请求,要求启动一个网关程序CGI脚本)时,它把有关该请求的信息综合到一个环境变量集合中。CGI脚本程序启动后,服务器将客户端的信息环境变量)传给此程序,然后CGI脚本程序将检查这些环境变量,试图找到那些为响应请求所必须的信息。该程序对客户的信息处理后,将运行结果交给服务器,由服务器负责再向客户端传递。

CGI主要运用于处理搜索引擎和一般表单,其主要用途在于使用户能够编写用于与浏览器相交互的程序。

CGI脚本程序在HTML文件中可以像URL一样在任何地方出现。

在许多服务器中的cgi-bin目录是仅能够放置CGI脚本的目录。当你选择这个连接时,你的浏览器将向www.cgi.com服务器提出请求。服务器接收这个请求计算出URL处的脚本文件名,然后执行这个脚本。