日記
微妙にinvalidなRSSを手軽にvalidにする方法 (13:51)Edit

微妙にinvalidなRSSってのが世の中には結構ある。微妙にinvalidってのは、たとえば、

  • charsetが宣言と違っていたり(日本語なのにISO-8859-1のままになっているパターンが多いかな)
  • URLに「&」とかが含まれていてもescapeされていなかったり(これは結構多い気がする)
  • 不正な文字コードが含まれていたり

とか。

ありもののRSSパーサーとかを使うとちょっとでもinvalidな要素が含まれているとパースできなかったりするんだけど、この程度の微妙なinvalidさだったら自動で修正して読み込んでしまってもかまわない気がする。特に2番目とか。

「&」「<」「>」「"」「'」「&#[0-9A-Fa-f]+;」以外の「&」を「&」にするとかでいいかなー。それとも「&#?[0-9A-Za-z]+;」以外の「&」を「&」にした方がいいのか。

Published At2004-03-16 00:00Updated At2004-03-16 00:00