ワーディングラボ | 検索エンジンとSEOとネット広告のコラム

長く更新していません。はてなブログに移りました。

一つのダシで何度もスープを取るような

BuzzurlにブックマークBuzzurlにブックマーク


セミナー無事終わりました〜。


今回はスパムネタだったのですが、ちとメモ書き。


スパムだスパムだと騒がれるものの、しばしばリンクが注目されるけど、グーグルとかからペナルティ受けるのはデュプリケイト(複製)とか、キーワード詰め込みのほうが多いと思う。


サイトテーマと違うサイトからリンクだと有害というのは結構根強く信じられているけど、これが可能であれば、サイト下げという手法が大流行するはずなのだけど、そうはなっていない。


SEO屋だと、サイトを下げたいという依頼は割合とコンスタントに話だけはあって、ウチでは基本的にはこれには応えられないし(方法はなくもないけど、原始的な方法)、検索エンジンはそれはされないようにしている。それについては発言があったと思う(URL失念)。また、ライバルサイトを落としたいなんてのも、なくはない。それがないから、いかに自分のサイトを上げるか?だけに注力することになっていて、受験戦争的なフェアな競争になっていると思う。


だから、リンクされて有害なサイトというのは普通は考えにくい。ただ、リンクされても効果ないサイトというのは確実にある。効果が途中から無くなるサイトというのもある。また、アダルトサイト群とか違法コンテンツサイト群と相互リンクしていると、そちら側のグルーピングがされる可能性があるけど、たぶん相互リンクとか必要じゃないかなあ。


サイトテーマに関して言うと、グーグルの凄さが宣伝されすぎて、「奴らには出来る」となってしまって真の姿が見えなくなっていると思うけど、プログラムで意味を解するのは難しいと思う。セマンティック・ウェブは難しいと思う。聞きかじりのボクの(だからあまり信用はならないけど)20世紀後半の言語哲学の歴史を見ても、演算でうまくクリアできないように思うけどなあ。どうなんでしょ。第一、もともとのPageRankの発想は、意味が分からなくてもサイトの評価が出来る仕組みだからエライとボクは思ってる。それも、人々の個々に貼り付けたリンクという行為をうまく拾い上げているうまさかな。


むしろスパムというと、よく見かけるのは、altにキーワード入れるのだけど、画像の説明にするという理屈が理解されずに、ムチャ詰めこみやってるのを良く見かける。これは割合と良くないと思う。いわゆる隠しテキストになる典型。ページ内のaltをほとんど同じのキーワード含んだフレーズにすると順位は下がるみたい(未立証ではあるけど)。


アンカータグのアンカーテキストにキーワードがバッチリ入っているのは良いとして、そのアンカータグにtitle属性で同じフレーズが入れてあるのを見かけるけど、これもボクは隠しテキストだと思うけど、どうかなあ? 近接して繰り返し過ぎない?


隠しテキストというと、典型的なのはほぼflashのみのサイトで、javascriptで判別かけて、noscriptの方にテキスト詰め込んであるのを見たりしたことがあるけど、消されはしないけど、評価は上がりきらないみたい。


ページの最上部にH1でキーワードが書かれていて、CSSで小フォントかつ薄いグレー文字にしているのを見ると、スパムっぽく感じるけど、どうかな? たぶん、h1にしなくても、bodyの直下にくらいにテキストを置くのは有効だと思うけど、必ずしも、ああやって見えにくくする必要はないんじゃないだろうかと。



グーグルが先日方針を変えて動的URLのままでいいとか言い出したけど、最近のコロコロ言うことが変わるグーグルらしい。とはいえ、この2年くらい見てる範囲で言うと、動的URLでも普通にインデクシングはされるように進化していたので、1年くらい前からウチのコンサルでも静的化擬装は特にしなくてもいいとか言っていたので、まあ、そんなものだろ的な。ヤフーにはどうか?というのが未知数ながら、ヤフーのクロールは割合と力技でガシガシと読むことは読むので、とりあえずもはやどちらでもいいのではないだろうか、と。


むしろ静的化が良いとだけ聞きかじってきて、パラメータをディレクトリ名になるようリライトしたのはいいけど、トップから全コンテンツに対するリンク導線がないので、きちんとクロールされないサイトを見た。動的URLでも静的URLでも、むしろリンク構造をきちんと設計するほうが大事と思う。ちなみに、静的化の際は、パラメーターをディレクトリ名にする場合、どっちが上位階層かきちんと判別してつけないと意味がないので、パラメーターの設計が悪いとグダグダになりそう。グーグルが動的URLで良いっていうから、静的化については、まあいいか。


たぶんグーグルが嫌がってるのは、実質的なコンテンツが大してないのに、動的でうまいこと1万ページを生成するとかのテクニックだろうなあ、と。このあたりは、SEM-Rの渡辺さんがきちんとフォロー記事入っているのでこちらを参照。

http://www.sem-r.com/08h1/20080924185039.html



たとえば、商品DBをうまく使ってコンテンツを生成するとページが沢山作れる。コンテンツページが多いと検索エンジンの評価が高まるので、ガシガシ作るのが流行ったりしているのだけど、問題はその作り方。


典型例は、書籍サイトを作ったとして商品データベースがあるので、ビジネス書というカテゴリで1000冊分のコンテンツページを生成したりする、と。で、その中では、経営書もあるので、経営書というカテゴリも作って何百冊か、少しページの一部が違うだけの重複するコンテンツページを生成したりとか。こういうのをするとグーグルは凄く嫌がる。というのも、コンテンツを薄めて倍増させているだけだから。味噌汁を薄くして量倍増みたいな。この点はアマゾン見ればわかるけど、タグ付けは出来ても、最終コンテンツページは1つ(一応)。グーグルが嫌がらないように作ってある。だから、印刷用ページをrobot.txtでクロールさせないとかが大事な意味を持つわけで。これ意外に理解されていない。要は1つのダシで何度も取るのはダメ。ところが、1つのダシで何度もスープを取るのが流行ってるけど。


あと、これを更にサイト全体に拡張するのもグーグルは凄く嫌がる。つまり、物販サイトを1つ持っていて、そこでの月商が100万円とすると、同じような物販サイトを立ち上げて、それも検索上位に来ると、月商が倍になると計画して、色目変えただけくらいのコピーサイトを作ってしまうみたいな。これはペナルティ受ける確率がすごく高い。しかも、早くに上位表示を狙うためにほぼ間違いなく相互リンクしてしまう。するとすぐに分かるという次第で。


意外に理解されていないけど、検索エンジンが(特にグーグルが)大嫌いなのは、サイトのデュプリケイト、コンテンツページのデュプリケイト、無意味なページをクロールさせること、なんだけど。


たぶん、グーグルに限らず検索エンジンの側が悩んでいそうなのは、商品情報DBを利用した大量生成系のサイトではないかと思ったり。書籍とかPC製品なんか典型だけど、書名や、ISBNコード、製品型番で検索すると、商品情報サイトが山ほど出てきて、どこもほとんど同じ情報。書籍なんかはひどくて、アマゾンから情報配信受けて生成しているだけのサイトがわんさか出てくる。こういうのは、ある種のデュプリケイトだけど、排除するのは難しいみたい。テンプレートは違うし、運営者は別だし。データが共有できるようになって凄く増えた。


そういう点では、はてなキーワードも昔からスパムチックであるんだけども。まあでも、はてなというのは、はてな内でお互いに自動でリンクし関連しあうシカケでこれはこれで多分興味深いところで、そういう点からペナルティってのはされないのだろうと推測したり。つまり、機械的とは少し違う、はてな内でコンテンツを自動リンクしあう仕組みね。そこらへんがはてなの未来性。ただ、今のところそれが有用コンテンツを生み出しているか?というとどうかなあと思わなくもないけど(笑)。




というわけで、コンテンツ難はどこもそうで、商品DBから安直に作れるのは皆凄い勢いでやってしまっていて、行き詰まり感があるなあと。


ここらへんは、うーん、そうだなあ、まさに、梅田望夫さんが何度も紹介して有名になった、羽生さんの言う、高速道路が出来て大渋滞みたいな感じではないかと。


たぶんね、やるべきはここじゃないと思う。エンジニアが物性とか機能から考え付くことはパズル解きの作業なので、処理スピード勝負になってしまう。でも、必要なのはパズル解きではなくて、パズルの設定なんだろうなと。




written by asotetsu Sep 26, 2008