Feed

何故検索できたのか?

Posted on 3月 1st, 2008 in 倉庫 by apj

 お茶大の方の掲示板に書いてるのだが、一応こちらでも書いておく。
 仮の名をAさんとする(メールアドレスa@abc.jpとする)から、メールアドレスがウェブサーバで公開されているというクレームがあった。Yahooで検索するとatom11.phys.ocha.ac.jpが引っ掛かる、という連絡であった。
 全く覚えのないアドレスであったので、不思議に思いつつ検索してみたら、確かにatom11.phys.ocha.ac.jp内のsearch_200411.htmlとsearch_200510.htmlなるファイルが引っ掛かった。search_200411.htmlの中にはa@abc.jpが存在しなかったが、search_200510.html中を見るとa@abc.jpが書かれている。
 serach何チャラとうファイルは、httpdのログからwebalizerが自動で生成する、サーチエンジンの検索キーワードをまとめたファイルである。ここに検索キーワードとしてa@abc.jpが登録されるということは、2005年の10月に、どこかの誰かがa@abc.jpと入れてYahoo!なりGoogleなりで検索し、その結果atom11.phys.ocha.ac.jpのどれかのファイルが検索結果に出たので、リンクをつついて見に来たのがhttpdのログに残った、ということではないか。すると、2005年の10月以前に、サイトのどこかにa@abc.jpなる文字列が含まれたファイルが無ければいけないはずである。ところが、これまでにatom11.phys.ocha.ac.jp内にa@abc.jpが含まれたファイルはsearch_200510.html以外に存在していなかった。

 ということで、最初の1回目の検索をa@abc.jpというキーワードでやって、なぜatom11.phys.ocha.ac.jpに到達し、apacheのログにそれが残ったのかがさっぱりわからない。さらに、a@abc.jpが含まれていないファイルがなぜヒットするのかもわからない。

 一応、キーワードファイルを出した後で、sedで@の含まれている行を全部消すという対応をしたが、何でまたファイル内に存在しないメールアドレスで検索でき、それがログに残るのかがが謎である。

【追記】
 向こうの掲示板で(ぱ)さんが指摘して下さったのだが、今回はこういう状況ではないかと。

1)たまたま、メールアドレスの@の両側の「a」「abc」が、同じ月のうちに全く独立に検索され、ばらばらの状態でsearch_200411.htmlに記録された(2004年11月)
2)2005年10月に、誰かが「a@abc.jp」で検索し、search_200411.htmlに到達した。このこため、「a@abc.jp」がsearch_200510.htmlに記録された。
3)webalizerの集計ファイルは一定期間(1年くらい)は、リンクをたどって到達できる。この期間に、サーチエンジンが見に来て登録した。

 2)をやったのが全く別の人なら不幸な偶然だが、もし本人だったらある意味自業自得ということになる。