月蝎研究: XML

Showing posts with label XML. Show all posts

Saturday, November 15, 2008

你博客的 ping 列表真的全在工作吗？

我们知道在博客发表文章时，可以利用 XML-RPC 技术将更新通知到各种 Blog 的服务商、搜索引擎等，好让它们主动来抓取，从而提高博客文章被收录的速度和范围。

Google 的 Blogger 不像 WordPress，后者提供了一个方便的 Update Service，只要将 Blog 服务商公布的 XML-RPC 接口地址填进去就可以方便的在发布的时候 ping 这些地址。Blogger 只是在 Settings » Basic 有一个“Add your blog to our listings?”的选项，解释说选择了“Yes”，Google Blog Search 以及 Weblogs.com 就会来收录，除此之外并没有一个可以设置 ping 接口地址列表的地方。

我强烈怀疑 Blogger 这个选项的作用，因为曾经有很长一段时间 Google Blog Search 都没有收录我的文章，后来为了确保收录效果，每次发布文章后我都手工 ping，于是通常 5 分钟内文章就会被收录，而 10 分钟左右，Google 的网页搜索也会收录这篇文章（观察到的最快纪录为 8 分钟）。但是每次都要手工去 ping 确实很麻烦，于是今天就琢磨着自己用 PHP 写一个简单的 XML-RPC 客户端来做这个工作，顺便还可以把其它主流的 ping 服务地址加进去，批量执行。

结果是不试不要紧，一试吓一跳。我参考 Weblogs.com 和 Google Blog Search 提供的标准 ping 操作 API 文档写了一个 XML-RPC 的客户端，测试了一下主流的 ping 服务地址列表，发现其中有很大一部分都不能正常工作。

http://blogsearch.google.com/ping/RPC2 http://rpc.pingomatic.com/ http://api.my.yahoo.com/RPC2 http://api.moreover.com/RPC2 http://rpc.newsgator.com/ http://rpc.weblogs.com/RPC2 http://www.feedsky.com/api/RPC2 http://ping.feedburner.com/ http://rpc.technorati.com/rpc/ping http://ping.blog.qikoo.com/rpc2.php http://blog.iask.com/RPC2 http://www.xianguo.com/xmlrpc/ping.php http://www.zhuaxia.com/rpc/server.php

以下就来一一看一下 ping 这些地址得到的具体结果。

以上这些地址中，能够完全按照标准 API 正常工作的有：

http://blogsearch.google.com/ping/RPC2 http://api.my.yahoo.com/RPC2 http://api.moreover.com/RPC2 http://rpc.weblogs.com/RPC2 http://rpc.technorati.com/rpc/ping

以下是其它有问题的 ping 接口的具体情况。

http://rpc.pingomatic.com/

这是一个十分有名，被博客界所有人争相 ping 之的地址，但是，真的有人见过它返回正确的结果吗？我试了很多次，无论是请求 weblogUpdates.extendedPing 方法，还是weblogUpdates.ping 方法，无论是提供两个参数还是三个、四个参数，它返回的 HTTP 头永远只会是“501 Not Implemented”，正文部分没有任何内容。我另外还试了 http://rpc.pingomatic.com/RPC2 和 http://pingomatic.com/ 两个地址，得到的结果一样。

http://rpc.newsgator.com/

这个地址存在大家的列表中，我感到非常诧异，因为这个域名都已经不存在了，我换了很多个 DNS 服务器都不能解析出它的 IP 地址。后来发现了 NewsGator 的另一个 ping 接口：

http://services.newsgator.com/ngws/xmlrpcping.aspx

经过测试，这个是可以正常工作的。

http://ping.feedburner.com/

起先 FeedBurner 的接口很长时间都不返回，纳闷了很久；细查之下，发现 ping.feedburner.com 这个域名做成了 feeds.feedburner.com 的 CNAME 纪录，而众所周知后者已经被墙，所以实际上这个 ping 接口是没有办法直接通知到的，除非发起 ping 动作的客户端在国外运行。

http://www.feedsky.com/api/RPC2

Feedsky 趁着 FeedBurner 被封在国内很是火了一把，可是做事情的态度和质量还是和人家有差距。首先是没有实现 weblogUpdates.extendedPing 方法，而在请求 weblogUpdates.ping 方法时，返回的结果也很不稳定。有时是正常的结果，有时会以错误码 304 将整个 Feed 的内容放在 message 字段中返回，有时又干脆什么都不返回。

http://ping.blog.qikoo.com/rpc2.php

这个似乎是奇虎官方给出的地址，而几乎网上搜到的所有 ping 列表中都有它。奇怪的是，这个地址根本打不开，HTTP 状态码为 404。我曾经猜测是不是大家在传抄过程中不小心弄错了大小写，于是也试了 RPC2.php, RPC.php, rpc.php，结果都是 404。

http://blog.iask.com/RPC2

新浪这个表面看起来很不错，相应速度很快，返回的 XML 格式也很标准。可是无论怎么提交，返回结果都是 flerror: 1; message: sorry,failing。以至于让我怀疑，这个接口背后的后台程序真的有在运作吗？

http://www.xianguo.com/xmlrpc/ping.php

发出请求大约 5 秒钟后，返回如下内容：

Fatal error: Call to undefined function xmlrpc_server_create() in /opt/lamp/code/common/rssreader-common-2008-11-12-14-31-18/topgene/feed/xmlrpc/server.php on line 15

怎么？PHP 的扩展库都还没配置好就当公共运营的服务器了？而且还直接把错误信息输出到页面上，服务器路径信息一览无余。鲜果啊鲜果，让我说你什么好哇！

http://www.zhuaxia.com/rpc/server.php

抓虾比鲜果好点，至少还返回了，只不过不知道返回的是啥。返回结果如下：

<?xml version="1.0" encoding="utf-8"?>
<methodResponse>
<params>
 <param>
  <value>
   <boolean>0</boolean>
  </value>
 </param>
</params>
</methodResponse>

如果说你看不懂 Weblogs.com 的英文文档倒也情有可原，但是照着 Google 的中文文档依葫芦画瓢总会吧？自己想当然的随便弄一下就完事了？

由以上可以看出，大公司终究还是大公司。令人深思的是，这些不能正常工作的接口中，几乎全是国内的服务商，其中有些暴露出来的问题，更是令人汗颜。

Friday, October 24, 2008

挑战 XHTML 的 Strict 标准

我的 Blog 网页在 Doctype 声明上一直使用的是 XHTML 的 Strict 标准，当初在模板制作完成时是校验过的，可是随着后来无数次的修改、内容添加，现在已经不能通过 W3C 的语法校验了，加上 Google Blogger 在发布页面的时候似乎也并没有考虑目标模板的 Doctype 标准，也部分导致校验的失败。

经过一个下午的努力，终于基本上解决了所有 XHTML 的语法问题，总结如下。

<a> 标签没有 target 属性

在 Strict DTD 里面，超链接 <a> 标签没有 target 属性，因此不能利用 target="_blank" 这样的代码来达到新开页面打开链接的目的。为了实现同样的功能，通常的办法是用 rel="external" 来替代 target="_blank"，然后用如下 JavaScript 代码来处理链接：

function externalLinks() {
  var linkArray = document.getElementsByTagName('a');
  for (var i = 0; i < linkArray.length; i++) {
    var link = linkArray[i];
    if (link.getAttribute('rel') == 'external') {
      link.target = '_blank';
    }
  }
}

然后将该 externalLinks() 函数添加到页面的 onLoad 事件中。如：

<body onload="externalLinks();">

<img> 标签必须添加 alt 属性

对于 <img> 标签来讲，alt 属性是必须的。给图片添加 alt，一方面当图片因为各种原因无法显示的时候，能给访问者以提示；另一方面也便于搜索引擎判断图片的内容，以及更准确的建立索引。

<img> 标签没有 border 属性

<img> 标签是没有 border 这个属性的。我们通常会加上 border="0"，主要是因为把图片放在链接标签 <a> 里时，浏览器会加上一个链接默认颜色的边框，而这通常是多余的。在 Strict 标准中，不能用 border 属性来去掉边框，而只能使用 CSS 控制。同样 align 属性也是不存在的，要实现 absmiddle 这样的目的，也只能用 CSS 代替。

<blockquote> 标签内必须使用 block 级别的标签

<blockquote> 标签用来在页面上表示引用的内容，例如，最常见的，引用代码。我通常习惯将代码的内容放在 <code> 标签中，而这个标签是 inline 级的，不符合 Strict DTD 的要求。<strong>、<b> 等同样会导致问题。符合要求的 block 级标签包括：<address>, <blockquote>, <del>, <div>, <dl>, <fieldset>, <form>, <h>, <h2>, <h4>, <h5>, <h6>, <hr>, <ins>, <noscript>, <ol>, <p>, <pre>, <script>, <table>, <ul>。

不能使用 <embed> 标签

这个问题最容易出现在引用外部媒体文件时，例如 MP3 音乐、视频等。很多资料推荐同时使用 <object> 和 <embed> 来增强媒体引用元素的浏览器兼容性，但是很不幸的，Strict DTD 并未定义 <embed>。其实我们完全可以不使用 <embed> 一样能够兼容浏览器。例如 Youtube 给的代码一般是这样的：

<object width="425" height="344">
  <param name="movie" 
         value="http://www.youtube.com/v/uhsjNTEJD3c"></param>
  <param name="allowFullScreen" value="true"></param>
  <embed src="http://www.youtube.com/v/uhsjNTEJD3c" 
         type="application/x-shockwave-flash" 
         allowfullscreen="true" 
         width="425" height="344"></embed>
</object>

这样无法通过校验。我们可以改成：

<object type="application/x-shockwave-flash"
        width="425" height="344">
  <param name="movie" 
         value="http://www.youtube.com/v/uhsjNTEJD3c"/>
  <param name="allowFullScreen" value="true"/>
</object>

实体用法问题

在 XML 中，实体的写法是 &entity;，以一个 & 符号开头，一个分号结束。因此，Strict 标准的 XHTML 里面不允许出现任何单独的 & 符号，即使是在 URL 中用来分隔查询参数。需要用到这个符号的时候，要用 & 来表示。通常一个实体用法的错误会同时导致 5 个校验时的错误，当解决以后，这 5 个错误会同时消失。由于 Blogger 在发布页面时 URL 直接使用了 & 符号，因此会直接导致 Strict 标准的 XHTML 校验失败。

重复的 id 值

对于 XHTML 标签来讲，id 属性的值必须唯一，如果一个文档中出项重复的 id 就会导致问题。出现这种问题，通常是把 id 属性放在了 Blogger 模板会循环输出的部分。

另外，Blogger 提供的模板中，backlinks 那一部分会导致 4 个不同类别的问题。凭心而论，Blogger 模板在 backlinks 这一块的代码实在写的很烂，用了三个不同的 js 文件，用 JavaScript 输出 CSS，不但使得不同模板之间难以更改这一部分显示的样式，也导致了很多 XHTML 的语法校验问题。例如 Blogger 自己的 Buzz，打开任一个文章的独立页面的源代码，Doctype 声明赫然是 XHTML 1.0 Strict，然而 backlink 那一块的代码不用校验也能看出漏洞百出。

Blogger 目前版本的网站出自著名设计师 Douglas Bowman 之手，其本人对 XHTML 以及 CSS 有着非常深刻的研究。在设计之初，Blogger 还没有 Backlinks 的功能，显然这个蹩脚的 Backlinks 是后来由其他人加上去的。不知道 Bowman 先生在看到这一幕后会做何感想。

Google 黑板报用的是同样的 backlink 代码，不过比 Buzz 知趣的是它的模板干脆去掉了 Doctype 声明。只不过作为 Google 旗下的网站，页面连 Doctype 声明都没有，也是一件汗颜的事情。

言归正传，以下列出 backlink 这部分代码导致的问题以及解决方法。

<div> 和 <dl> 之间的嵌套问题: 在 Blogger 给出的默认模板代码中，是用 <dl> 来实现反向链接列表的；可问题在于，他们将 <BlogItemBacklinks> 放在了 <dl> 之内，而在生成页面时，会将 <BlogItemBacklinks> 这一对模板标签替换成一对 <div> 标签，从而导致 <div> 被嵌套在 <dl> 内。在 Strict DTD 里，<dl> 标签内只允许出现 <dt> 和 <dd> 两个子标签。解决办法是把 <BlogItemBacklinks> 放到 <dl> 外面，当然这样虽然让 XHTML 语法通过校验，但实际的运行结果，会导致每个反向链接条目会占用一个 <dl> 块，而不是预期的放在循环的若干个 <dt> 和 <dd> 中。通过 CSS 可以解决条目之间间距的问题。如果要完美解决这个问题的话，就只有自己重写 Blogger 提供的 JavaScript 函数来改变这一行为了。
<script> 标签的 defer 属性: 在 Blogger 用模板生成页面时，除了将 <BlogItemBacklinks> 替换成一对 <div> 以外，还会在开标签的 <div> 之前加上一个 <script;> 用来引入相关的 JavaScript，同时给出了一个 defer="true" 属性，然而，根据 Strict DTD，defer 属性只能有一个值，只能是 defer="defer"。
<noscript> 内只能用 block 级别标签: 在生成以上 <script> 标签的同时，Blogger 给出了一个 <noscript>，用来当浏览器不支持脚本的时候显示一个 Blog Search 的链接。可是 <noscript> 标签内只能用 block 级别的标签，直接用 <a> 这样的 inline 标签是不行的。
模板占位符问题: 在模板中这段关于 backlink 的代码中，Blogger 用了一些模板标签作为占位符。通常模板标签会在生成具体网页时替换掉，但这里的占位符不会，它们要在实际生成 backlink 条目时被 JavaScript 程序换掉。但是在做 XHTML 语法校验时，这些占位符以 HTML 标签的形式存在于代码中，而又显然不属于 XHTML 定义的范围，从而导致校验失败。解决办法是将它们的尖括号转移，写成诸如 <$BlogBacklinkTitle$> 的形式，这样既能够被 JavaScript 成功识别，保证功能正常，又能通过 Strict 语法校验。要特别注意，其中 <$BlogBacklinkDeleteIcon$> 不要转义，这个模板标签是在页面生成时被替换的，而不是 JavaScript 的数据占位符。

最后，Google 黑板报最近也发布了一篇关于互联网标准性的文章，这篇文章也提供了很多关于改进网站 HTML 代码的参考信息。

Friday, September 05, 2008

测试手机的 User-Agent

由于最近工作中需要得到一些手机的 User-Agent 以及 X-Wap-Profile 两个 HTTP 头的值，于是写了个简单的 PHP 程序，检测 HTTP 头，输出到 Response，然后放到网站上，让手机用 WAP 浏览器打开查看。

开始这个程序只是简单的输出纯文本，结果是 NOKIA、Sony Ericsson 以及 Samsung 手机都能正确读出，而 Motorola 却不行（实际测试过程中用的是 Motorola RAZR V3i），仅显示白页。

后来把程序改成输出标准 WML 页面，HTTP 头的 Content-Type 设置成 application/vnd.wap.xhtml+xml，NOKIA、Sony Ericsson 以及 Samsung 仍然能够正确显示而 Motorola 还是不合作。

最后找到答案，Content-Type 要设置成“text/vnd.wap.wml”，这下 Motorola 终于老实了…… 可是结果中只有 User-Agent，没有 X-Wap-Profile。

另外，在用中国移动的 SIM 卡测试的时候，发现 HTTP 请求中并没有 User-Agent 和 X-Wap-Profile 这两个头，而有个奇怪的

VIA: HTTP/1.1 SCCD-PS-WAP-GW02 (infoX-WISG, Huawei Technologies)

开始以为是手机的问题，但看到“Huawei”字样，觉得很蹊跷，后来换成 Orange France 的 SIM 卡，则一切正常了。

看来拦截 HTTP 请求是中国运营商的“优良传统”啊！

Update 2009/08/03:

最近发现中国移动这个问题只存在于 cmwap，用 cmnet 则正常。

Wednesday, November 15, 2006

Feeds of Blogger Beta

今天爬 Blogger Beta 的资料，发现 Blogger Beta 除了可以提供整站帖子、整站评论以及分帖子评论的 feed 以外，甚至可以按照单个的 label 来提供 feed，格式如下：

http://beta.blogger.com/feeds/blogID/posts/default/-/labelname

URL 中的 labelname 就是要订阅的 label，注意中间的“-”符号不能少！

另外，把其它的订阅地址的格式也一并写在这里：

订阅整站帖子全文：

http://beta.blogger.com/feeds/blogID/posts/full

订阅整站帖子默认，即按照 Blogger 的 Site Feed 设置选项：

http://beta.blogger.com/feeds/blogID/posts/default

订阅整站评论：

http://beta.blogger.com/feeds/blogID/comments/default

订阅单贴评论：

http://beta.blogger.com/feeds/blogID/postID/comments/default

Update on 2006/11/17:
对于 label 的 Feed，发现如果 labelname 中含有空格，则无法正确获取 Feed 内容，会出现 Blogger 的“We're sorry, but we were unable to complete your request.”报错页面，例如：

http://beta.blogger.com/feeds/blogID/posts/default/-/Knowledge Base

无论中间的空格是否被 urlencode 成 %20，都会出现这个情况。已经向 Blogger GData API 讨论组提交了这个问题，不过至今仍未有任何回复。

Update on 2007/01/12:
这个问题在 Blogger GData API 的另一个讨论串中被再次提到，并被认定为一个 bug，可以通过这里来追踪。希望这个问题能够早日得到解决。

Tuesday, October 18, 2005

SSI 和 document.write()

这两天一直在考虑怎么给 Blogger 加上 Calendar 和分类的功能。原来是这么打算的：

首先，要让生成的 HTML 代码尽量符合 XHTML 规范，以便可以写程序用 XML 解析器来分析并从中提取数据。只要是合法的 XML，应该问题就不大，不一定要完全遵循 XHTML 的 DTD，反正 Dom4J 没有 DTD 照样能分析 XML，不过，这个还有待试验证实。

Blogger 的帖子数据里面，link 这个字段似乎没有什么用，可以利用它来存储分类。通过程序分析提取以后，套用 Blogger 的模板生成 HTML，并把出现过的分类列表写到一个单独的 HTML 中，由需要的页面通过 SSI include 进来。

同样利用分析出来的数据，生成日历的 HTML，每个月一个文件，供需要的页面调用。

不过，要让 Resin 支持 SSI 功能，可能性不太大，必须另外想办法。

昨天给 BlogBus 做模板，发现这个 Blog 的默认模板里头，所有侧边栏（日历，最近贴，存档，Tags 等）全部都是由 JavaScript 来 document.write() 的，而 JavaScript 代码本身，也貌似是发布的时候根据数据动态产生的，估计这个是为了达到这些数据块可以在需要的地方重复调用的目的。

于是，我想，是不是我也可以将 Blogger 里头需要的 Calendar 和分类数据也在发布时用 Servlet 写成 JavaScript，然后再在需要的地方用这些 JavaScript 来 document.write()。

嗯，有空试验一下就知道了…… 理论上应该是可行的……

Updated on 11/13/2005:

经过试验，用 document.write() 方式输出是可行的，现在此 blog sidebar 上的日历就是用 document.write() 打印出来的，而数据是由 Servlet 分析生成的 HTML 文件后自动写的 JavaScript 代码。问题有两个，一是用 Dom4j 解析的时候，对实体 (entities) 的解析有点问题，要把除 & 以外的所有实体全部清楚掉才能解析正确，应该有正确的识别方法，尚在研究中。另一个问题是，documents.write() 写出来的内容，无法被搜索引擎识别，但对网站本身功能影响不大。