语义网[编辑]

简介：

语义网(Semantic Web) 是一个由万维网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念，它的核心是：通过给万维网上的文档(如:HTML)添加能够被计算机所理解的语义(Meta data)，从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。不过语义网概念实际上是基于很多现有技术的(某些技术甚至可以追溯到20世纪60年代末期), 也依赖于后来和text-and-markup与知识表现的综合.

Sir Tim Berners-Lee（Web创始者）关于语义网的观点成为人们的重要关注已经很长一段时间了。事实上，它已经象大白鲸一样神乎其神了。总之，语义网关涉到机器之间的对话，它使得网络更加智能化，或者象Berners-Lee描述的那样，计算机“在网络中分析所有的数据—内容，链接以及人机之间的交易处理”。在另一个时候，Berners-Lee把它描述为“为数据设计的似网程序”，如对信息再利用的设计。

　　就象Alex在《通往语义网》中写道，语义网的核心是创建可以处理事物意义的元数据来描述数据，一旦电脑装备上语义网，它将能解决复杂的语义优化问题。

　　因此，什么时候语义网时代才会到来呢？创建语义网的组件已经出现：RDF，OWL，这些微格式只是众多组件之一.但是，Alex在他文章中指出，将需要一些时间来诠释世界的信息，然后再以某种合适的方式来捕获个人信息。一些公司，如Hakia，Powerset以及Alex自己的adaptive blue都正在积极的实现语义网，因此，未来我们将变得关系更亲密，但是我们还得等上好些年，才能看到语义网的设想实现。

基本特征

(1)语义网不同于现在WWW，它是现有WWW的扩展与延伸；

(2) 现有的WWW是面向文档而语义网则面向文档所表示的数据；

(3) 语义网将更利于计算机“理解与处理”，并将具有一定的判断、推理能力。

虽然语义网给我们展示了WWW的美好前景以及由此而带来的互联网的革命，但语义网的实现仍面临着巨大的挑战：

(1)内容的可获取性，即基于Ontology而构建的语义网网页目前还很少；

(2)本体的开发和演化，包括用于所有领域的核心本体的开发、开发过程中的方法及技术支持、本体的演化及标注和版本控制问题；

(3)内容的可扩展性，即有了语义网的内容以后，如何以可扩展的方式来管理它，包括如何组织、存储和查找等；

(4)多语种支持；

(5)本体语言的标准化。

语义网与万维网的区别

语义网“不同于现存的万维网，其数据主要供人类使用，新一代WWW中将提供也能为计算机所处理的数据，这将使得大量的智能服务成为可能”；语义网研究活动的目标是“开发一系列计算机可理解和处理的表达语义信息的语言和技术，以支持网络环境下广泛有效的自动推理”。

目前我们所使用的万维网，实际上是一个存储和共享图像、文本的媒介，电脑所能看到的只是一堆文字或图像，对其内容无法进行识别。万维网中的信息，如果要让电脑进行处理的话，就必须首先将这些信息加工成计算机可以理解的原始信息后才能进行处理，这是相当麻烦的事情。而语义网的建立则将事情变得简单得多。

语义网是对万维网本质的变革，它的主要开发任务是使数据更加便于电脑进行处理和查找。其最终目标是让用户变成全能的上帝，对因特网上的海量资源达到几乎无所不知的程度，计算机可以在这些资源中找到你所需要的信息，从而将万维网中一个个现存的信息孤岛，发展成一个巨大的数据库。

语义网将使人类从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智能软件，在搜索数以万计的网页时，通过“智能代理”从中筛选出相关的有用信息。而不像现在的万维网，只给你罗列出数以万计的无用搜索结果。

例如，在进行在线登记参加会议时，会议主办方在网站上列出了时间、地点，以及附近宾馆的打折信息。如果使用万维网的话，此时你必须上网查看时间表，并进行拷贝和粘贴，然后打电话或在线预订机票和宾馆等。但假如使用的是语义网，那么一切都变得很简单了，此时安装在你计算机上的软件会自动替你完成上述步骤，你所做的仅仅是用鼠标按几个按钮而已。

在浏览新闻时，语义网将给每一篇新闻报道贴上标签，分门别类的详细描述哪句是作者、哪句是导语、哪句是标题。这样，如果你在搜索引擎里输入“老舍的作品”，你就可以轻松找到老舍的作品，而不是关于他的文章。

总之，语义网是一种更丰富多彩、更个性化的网络，你可以给予其高度信任，让它帮助你滤掉你所不喜欢的内容，使得网络更像是你自己的网络。

语义网的实现

语义网虽然是一种更加美好的网络，但实现起来却是一项复杂而浩大的工程。

要使语义网搜索更精确彻底，更容易判断信息的真假，从而达到实用的目标，首先需要制订标准，该标准允许用户给网络内容添加元数据（即解释详尽的标记），并能让用户精确地指出他们正在寻找什么；然后，还需要找到一种方法，以确保不同的程序都能分享不同网站的内容；最后，要求用户可以增加其他功能，如添加应用软件等。

语义网的实现是基于XML（可扩展标记语言eXtensible Markup Langauge）语言和资源描述框架（RDF）来完成的。XML是一种用于定义标记语言的工具，其内容包括XML声明、用以定义语言语法的DTD (document type declaration文档类型定义)、描述标记的详细说明以及文档本身。而文档本身又包含有标记和内容。RDF则用以表达网页的内容。

"语义"网是由比现今成熟的网际搜索工具更加行之有效的、更加广泛意义的并且自动聚集和搜集信息的文档组成的。其最基本的元素就是语义链接

通过下列方法可以提升万维网以及其互连的资源的可用性(usability)和有效性(usefulness)：

1."标记"了语义信息的文档。这可以是机器可以理解的关于文档内容（例如文档的作者,标题,简介等)的描述, 或者是描述该网站所拥有的服务和资源.(注意:任何东西都是能被URI-统一资源定位符-所描述的,因此语义网能理解人物、地方、想法、类等等)

2.通用元数据词汇表(本体论)及词汇间的影射使得文档作者知道如何来标记文档方可让机器识别他想提供的元数据.

3.利用元数据为语义网用户执行任务的自动软件代理(agent).

4.为自动软件代理提供特定信息的网络服务 (例如, 可信度服务可以让软件代理查询某个在线商店是否曾经有过不良纪录或者发送过垃圾邮件).

语义网的主要应用技术与研究趋势　　

语义网是网络时代的高级智能产物，其应用广泛，有着美好未来。下面将介绍主要应用技术与研究趋势。

　　经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息，使用RDF表示，所以这些信息是机器可读的。自顶向下则着重于利用现成的页面信息，从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。自底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举措：发布者有了标注自己信息的激励，Yahoo可以更有效地利用这些信息，用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网络服务的声明，这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是，这种语义工具越多，发布者标注网页就会越容易。自动标注工具的发展与标注激励的增多，会使得自底向上的方法更加引人注目。尽管工具与激励都有了，但要使得自底向上的方法流行起来还是有相当的难度。事实上，今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地，自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主要是利用自然语言处理的技术来进行实体的抽取，这些方法包括识别文档中特定实体（与人名、公司、地点等）的文本分析技术，以及能获取特定领域信息的垂直搜索引擎。

　　自顶向下的技术关注于从非结构化的信息中获得知识，但它同样可以处理结构化的信息，自底向上的标注技术越多，自顶向下方法的性能就越能得到提高。在自底向上的标注方法中，有几种候选的标注技术，它们都很强大，对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF：一种强大的基于图的语言，用于表示事物、属性及事物间的关系。简单地来说，你可以认为RDF是这样的一种语言，它通过这样的方式来表达事实：Alex IS human (类型表达), Alex HAS a brain (属性表达), and Alex IS the father of Alice, Lilly, and Sofia (关系表达)。RDF很强大，但因为它是以高度递归、精确与数学化而著称的，同时它也是很复杂的。当前，大多RDF的使用都是为了解决数据的互通性。例如，医学组织使用RDF来表述染色体组数据库。因为信息被标准化了，所以，原来孤立的数据库就可以被一起查询并相互比较了。一般说来，除了语义方面的意义，RDF最主要的好处在于实现互通性与标准化，特别是对于企业来说（下文有论述）。Microfomats提供了一个简单的方法――CSS风格－―来给现有的HTML文档添加语义标记，简洁的meta数据被嵌入到原有的HTML文档中。比较流行的Microformats标签包括hCard：描述个人及公司联系信息；hReview：添加到评论页的meta信息；与hCalendar：描述事件的标签。Microformats因它的简单而得到流行，但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描述，它就做不到。此外，为了使得标记集最小化，难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题：把标签嵌入到HTML文档中是不是一种合适的做法？然而，虽然仍存在很多的问题，Microformats还是因为它的简单而广受青睐，像Flickr, Eventful, LinkediIn及其它很多公司都在采用microformats，特别在是Yahoo的搜索声明发布之后。还有一种更为简单的方法就是把meta数据放在meta头中。这种方法已经在一定程度上被使用，可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩展，这种方法的好处已经在那些主题或事件页面中显现出来。例如，一个新闻页面可以通过一组关键词来标识：地点、日期、时间、人物与类别。另一个例子是关于书的页面，已经在页面的meta头里加入了书本的信息：作者、ISBN与书的类别。尽管所有这些方法不尽相同，但相同之处是它们都是很管用的。越多的网页被标注，就会有越多的标准会被实现，同时信息也会变得更为强大与更易于得到。

　　关于语义网的讨论中，在用户与企业的关注点是不一样的。从消费者的立场来说，我们需要一个杀手级的应用（killer app），可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性，而不会在乎它建立在什么技术之上。问题在于，直到目前为止，语义网的关注点更多的都还停留在理论层面，如标注信息以使得机器可读。我们可以给出这样的承诺：一但信息都被标注，网络就会变成一个大型的RDF数据库，大量激动人心的应用也会应运而生。但也有怀疑者指出，首先你必须得达成那样的假设。

　　已经有很多基于语义网的应用，如通用及垂直搜索引擎、文本助理工具、个人信息管理系统、语义浏览工具等等，但在它们为大众所接受之前，还有很长的路要走。即便这些技术成功了，用户也不会有兴趣知道那背后使用了些什么技术。所以说在用户层面推广语义网技术是没什么前景的。

　　企业就不一样了，第一，企业比较习惯于技术方面的论调，对于它们来说，利用语义技术可以增加产品的智能程度，从而形成市场价值。“我们的产品更好更聪明，因为我们使用语义网”，听起来这对企业来说是一个很不错的宣传。

　　从企业层面来说，RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现，你可以忘掉语义网，只把它看作是一个标准协议，一个使得两个程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案，它所描述的前景使得企业并不在乎它的复杂性。但还存在着一个扩展性的问题，跟已经普及优化的关系型数据库不同，基于XML的数据库并没有普及，这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样，基于XML的数据库承载了太多的期望，让我们拭目以待。

　　语义API是随着语义网的发展而发展的，这类网络服务以非结构化的文本作为输入，输出一些实体与关系。例如路透社的Open Calais API，这项服务接受原始文本的输入，返回文本中的人名、地点、公司等信息，并在原文中加以标注。另一个例子是TextWise的Hacker API，该公司还提供了一百万美元的悬赏，以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别（称为语义指纹），输出文档中的实体与主题。这点和Calais的很相似，但它还提供了一个主题的层次结构，文档中的实际对象是结构中的叶节点。再一个例子来自于Dapper，那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性，比如，一个图片出版商会定义作者、ISBN和页数的信息在哪里，然后Dapper应用就可以为该站点创建一个识别器，之后就可以通过API来读取它的信息。从技术的角度来看，这似乎是个倒退，但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例，对于一个并没有专门API可以读取其信息的网站，即便是一个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。

　　可能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主要的竞争者Hakia与PowerSet都已经做出不少的进步，但仍然不足够。因为，基于统计的google算法，在处理人物、城市与公司等实体时表现得与语义技术同样的好。当你提问“法国总统是谁”时，它能返回一个足够好的答案。越来越多人意识到对搜索技术边缘化的改进是很难击败google的，因而转向寻找语义网的杀手级应用。很有可能，理解语义对于搜索引擎是有帮助的，但就此并不足以构建一个更好的搜索引擎。充分结合语义、新颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别，用户可以决定他们对哪些类别感兴趣。搜索是一场竞赛，很多语义公司都在追逐其中。也许会有另一种提高搜索质量的可能：文本处理技术与语义数据库的结合。下面我们即将谈到。我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象，并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。让我们想得更远一些，文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词，而是依赖于对网络文档的分析。这样对语义的理解会更为精确，或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前的方式。同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情，因而可以想像上下文、文本工具可以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案，如Interclue, ThumbStrips, Cooliris与BlueOrganizer等。

　　语义数据库是标注型语义网应用的一个发展方向。Twine正在beta测试阶段，它着眼于建立一个关于人物、公司、事件、地点的私人知识库，数据来源为各类论坛的非结构化内容，这些内容可通过书签、邮件或手工的方式进行提交。这项技术仍有待成熟，但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索，通过个人的知识库来对搜索结果进行过滤。Twine底层的数据表示方式是RDF，可以开放给其它的语义网络服务所采用，但其核心的算法，如实体提取是通过语义API的方式商业化的。路透社也提供了类似的API接口。另外一个语义数据库的先行者是一家叫Metaweb的公司，它的产品的Freebase。从它所展现的形式来看，Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像wikipedia那样的世界信息库，这个信息库的强大之处在于它可以进行精确的查询（就像关系型数据库那样）。所以它的前景依然是更好的搜索。但问题在于，Freebase怎样保持与世界信息同步俱进？google每天对网络文档进行索引，可以随着网络发展而发展。Freebase现在的信息仅来自于个人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品，就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说，需要有不断的用户数据加入，而对于Freebase来说，则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单，在真正实用之前都必须要有一个妥善的处理。所有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景：提高信息的可发现性，实现复杂的搜索，新颖的网络浏览方式。此外语义网对不同的人有不同的意义，它对于企业和对于消费者的定义是不同的，在自顶向下VS自底向上，microformats VSRDF等不同类型中也有不同的含义。除了这些模式，我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段，但都承载着改变我们与网络信息交互方式的期望。

　　语义网的高级阶段使得图书馆，售订票系统，客户管理系统，决策系统均能发挥很好的效果。譬如要出去旅行，只要把具体时间要求与自己喜爱的国内旅游类型提供给语义网支持的查询系统，那么很快相应的国内景点，最佳旅游方案与注意事项，提示以及旅行社的评价均能很快速得准备在浏览器页面上。

　　语义网终会把网络的高级阶段应用到世界的每一个角落，每个人均有自己的网络IP一样的身份证明.个人消费信用、医疗、档案等等全在自己的网络身份里面。同时网络社区更比现实社区更有活跃力，网络社会更有秩序、和谐。

参考资料：语义网英文权威资料：http://www.w3.org/2001/sw/ 中文语义网论坛：http://bbs.w3china.org

扩展阅读：我的主页：http://abc.wm23.com/NYI0615 我的微博：http://weibo.com/gzhxlive 我的博客：http://blog.sina.com.cn/u/1882825782