アマゾン検索(A9)から分かるグーグル検索の出来の良さと、スパム排除の難しさを憶測

(昨日の記事は1つの中に話が2つ入っていて分かりにくくていかんなあと思うのですけども、ちょっとわざとでもあります。どちらかというと、かなり知っている人向けに書いた部分は後半あたりにチョロっと書いているんですよね。見る人だけ見てって感じで。buzzurlで拾っていただいているのを見て、伝わっているかもと思った次第です。SEOは伝え方が難しくて、まだ試行錯誤中です。)

昨日に続いて、アマゾンのサイト内検索A9についてなのですが、検索の貧弱さが目立ちます。

検索ワードが少し違うくらいで見つけられないのですねぇ。

とはいえ、これってやむをえないところでもあるとも思います。グーグル(ヤフーも)が良く出来ているんですよね。

サイト内検索では、各ページ(データ)のコンテンツ内容だけを元に検索しますので、元に入れている言葉と検索ワードが少しでもズレるとアウトですね(グーグルのサイト内検索は違うと思いますけど、でも純粋にイントラ検索だとどうですかね)。

これって、こういうデータベース検索の元からの問題で、ボクらは最近ほとんど意識しなくなったのは、グーグル検索のおかげですね。改めてグーグルの凄さについては思います。

グーグルの場合、検索結果はコンテンツ内のテキストだけでなくて、他サイトからの名指し(要はリンクとアンカーテキスト)を検索インデックスとしてうまく利用しているので、必ずしもコンテンツ内になくても検索結果に出たりする(出ないこともありますけど)わけで、それが便利だったりしますね。

「出口」で検索してYahoo Japanが検索結果トップにランクされるというのが極端な例ですが。

それ以外でも名前の微妙な読み間違えとか、書名の微妙な違いといったよくある間違いなら、ウェブで誰かが間違えてリンクしてくれると、そういうものが自然にカバーできてしまうという精妙さがグーグル検索にはありますネ。(まあ、今の検索エンジンは、検索語入力時にうまく処理して送り仮名違いなどをカバーしているのも検索結果の質の向上に貢献している面もありますが。また、間違い訂正のサジェストなども、人が間違うことについての検索エンジン側からのフォローですね。)

そこからすると、リンクを評価するというのは、人間の微妙な間違いもうまーく取り込めてしまう(逆に言えば間違いにも影響される)わけで、面白い仕組みだと思います。

こうしたことは普段はあまり意識しませんが、アマゾンの検索を使うときに、グーグルのありがたみを感じたりします。

逆に、この検索システムの精妙さを知ると、被リンクについて、どれは評価に入れて、どれは除外するというアルゴリズムによる解決はそう簡単でないと思えてきます。意外にこのあたりは簡単に思っている人がいそうなので補足説明してみます。

ある程度人為的なSEOによるリンクがあったりして(どこまでがクロでどこまでがシロかはグレーゾーンがありますが)、それのどれを人為的と判別するかは難しいだろう、という話なのです。だからこそ、グーグルはリンク評価与えたくないリンクにはnofollowつけろとか、サイトオーナーの貢献を要求しているわけだと思います。自分たちだけで解決できるならしているはずですから、サイトオーナーに要求するということは、その助けが必要ということだと思います。

それで、どうして判別が難しいかという話ですが、まあ、ここらへんはボクは検索エンジンのヒトではないので、憶測が続くというのを留保してほしいのですけども、ナチュラルリンクというのは、想像するよりも間違いが多いのだと思います。人間は間違いますから、ナチュラルリンクは、ばらつきという話を超えて、しばしば不適切に間違うんですネ。

正確に言えば、間違いというべきものではなくて、多くは、グーグルが考える適切なリンク、彼らにとってサイト評価に役立つリンクというものからは外れるケースがあるという話ですね。だからこそ、グーグルは最近の文書でも、説明的なアンカーテキストは好ましい、というような話が出てくるのだと思います。「これ」とか「ここ」みたいなアンカーテキストでは困るのです。普通のヒトからすると極めて天然な所作なんですけども。

まあ、ここまで説明するとカンの良いかたは分かると思いますが、普通のユーザーがアンカーテキストに書き入れていれてくれなそうなワード(たとえば産業装置的なもの)などは、広大なウェブを探してもあまり見つからないということが起きると思われます。

となるとどうなるか、というと被リンクで評価するというのが、被リンク数の少なさから、必ずしもうまく機能しないという話になってくるかなと。

そういう状況のときは、そのワードの被リンクを少し作るだけで結構簡単にそのワードでの検索結果上位に上がってきたりするというのが見えてきたり、逆に被リンクが少ないだけに、コンテンツ内にワード使用が適切であると、それで検索結果上位に上がってきたりしやすい、となったりするかなと。このあたりを押さえていないと、ウワサに振り回されるかと思います。

そういう状況があるはずと考えていくとですね、人為的なリンク(とはいえ、リンクって本来すべて人の手によるものですけど)で、どれを評価に入れるかどうか、はずすかどうかというのは難しいという話になるのだとボクは思っています。さらにはウェブの日本語圏は英語に比べるとかなり狭いですから、誤差の出る範囲も大きくなるかなあと。モバイル検索の精度向上も結局このあたりがネックなんだと思います。

たとえばリンクでリンク先はコンタクトの販売サイトで、アンカーテキストを「激安コンタクト」とした場合、それは検索結果に好影響なのか悪影響なのか？　

ここで、こういうリンクをする行為がSEOというものがなければやらないかと問うは少し意味がないのです。グーグルさんは基準として例示しますけど、内心に踏み込んだ判断基準というのは利用すべきではないんですね。それは倫理ではあるけど、何かの罰則基準にするにはあまりに人治でよろしくないとボクは思います。

そもそもリンクというのは、そのコンタクトの販売サイトが実際激安で、ユーザーさんが、これは激安だ〜と感動してリンクを作成してアンカーテキストが「激安コンタクト」なのかもしれない。それは心の中のことなので、少なくとも検索エンジンから外形的に判断するのは難しいと考えるのが妥当ではないかと思います。

検索エンジンさんは、ガイドラインではそういう倫理的なものを書いていますけども、実務的には外形的に判断することを追及していると考えるのが妥当です。アルゴリズムで類型的に処理するというわけです。グーグルは基本線はこの方針ですね。ここらへんは、ヤフーさんは結構、人治ではないか的な気がしなくもないのですけども、この話は置いておきます。

その場合、検索エンジン側からすると、どうするかと考えるに、基本的にはそういうリンクもコミで受け入れざるを得ないと思います。というのも、千億のサイトを評価するにあたって、千兆とかくらいの数のリンクを使って評価しているから、分離しにくい実情があると思います。

ただ、分離しにくいとはいえ、明らかにユーザーさんの意図がなさそうっぽい、というのは個別にパターナイズして排除していくというのは可能ではあるはずで、それをコツコツ対策中というのがスパム対策というものだと、ボクは思っているわけです。これはコツコツ作業が必要と思われるので大変だなあと。

類型で言えば、サブドメインでサイトを大量展開とか、いまだと、バーチャルドメインでサーバ費用節約しつつ、数千ドメインでサイトを大量展開というのは、特定のIPにやたら同タイプのサイトが集中しているとか見て排除という話になるでしょうけども、あきらかなスパム的なSEOと、実は激安レンサバ屋を借りていて、少ないIPに、バーチャルドメインで数千同居とかしてるかもしれないし、検索エンジンさんもうっかり誤爆してしまうと大変なので、なかなかに繊細な対処がいるだろうなあと。

ちなみに、こういうことがあるから、IP分散がいるとかいう話だと思いますヨ。IP分散がエエとかいうのは最近国内で言われていますけど、SEO的にプラスって話よりも、1つのIPで数百のドメイン管理して、それを全部露骨なSEO用に使ってるのがばれるとかそういう話だと思います。何しろ日本の場合はIPはそんなにもともと分散してないし、Cブロックが同じとかだったら意味ないし、普通の人はあまり神経質になるところではないかなと思いますけど。SEO屋さんは気にしたほうがいい話ですけど。

まあというような話があるのではないかと思いつつ、ぐーZzz(寝オチ)

written by asotetsu Jan 8, 2009

ワーディングラボ | 検索エンジンとSEOとネット広告のコラム

長く更新していません。はてなブログに移りました。