[クローラー]ロボット対策スレ[robots.txt]
検索エンジンに登録されたくない、ロボット、巡回ソフトうざいという方まで クローラー、スパイダー対策について語りましょう。 参考 http://c-moon.jp/robots.shtml 有名らしい ttp://www.daj.co.jp/filter/index.htm <血液型A型の一般的な特徴>(見せかけのもっともらしさ(偽善)に騙されるな!!) ●とにかく神経質で気が小さい、了見が狭い(臆病、二言目には「世間」(「世間」と言っても、一部のA型を中心とした一部の人間の動向に過ぎない)) ●他人に異常に干渉して自分たちのシキタリを押し付け、それから少しでも外れる奴に対しては好戦的でファイト満々な態度をとり、かなりキモイ(自己中心、硬直的でデリカシーがない) ●妙に気位が高く、自分が馬鹿にされるとカッと怒るくせに平気で他人を馬鹿にしようとする(ただし、相手を表面的・形式的にしか判断できず(早合点・誤解の名人)、実際にはたいてい、内面的・実質的に負けていることが多い) ●権力、強者には平身低頭だが、弱者に対しては八つ当たり等していじめる(強い者にはへつらい、弱い者に対してはいじめる) ●あら探しだけは名人級でウザく、とにかく否定的(例え10の長所があっても褒めることをせず、たった1つの短所を見つけては貶す) ●基本的に悲観主義でマイナス思考に支配されているため性格が鬱陶しい(根暗) ●何でも「右へ習え」で、単独では何もできない(群れでしか行動できないヘタレ) ●少数派の異質・異文化を理解しようとせず、あるいは理解を示さず、排斥する(差別主義者、狭量、視野が狭い、多数派=正しい と信じて疑わない) ●集団によるいじめのリーダーとなり皆を先導する(陰湿かつ陰険で狡猾) ●他人の悪口・陰口を好むと同時に、自分は他人からどう見られているか、人の目を異常に気にする(自分がそうだから容易に他人を信用できない、ポーズだけで中身を伴っていないことが多い、世間体命) ●自分の感情をうまく表現できず、コミュニケーション能力に乏しい(同じことをレコードの再生のように何度も言って変) ●たとえ友達が多い奴でも、いずれも浅い付き合いでしかなく、心の友達はいない(心の感度が低く・包容力がなく・冷酷だから) ●頭が硬く融通が利かないためストレスを溜め込みやすく、また短気で、地雷持ちが多い(不合理な馬鹿) ●たとえ後で自分の誤りに気づいても、素直に謝れず強引に筋を通し、こじつけの言い訳ばかりする(もう腹を切るしかない!) ●男は、女々しいあるいは女の腐ったみたいな考えのやつが多い(例:「俺のほうが男前やのに、なんでや!(あの野郎の足を引っ張ってやる!!)」) >>7 マジレスなんだがね。 norobotとか何とかは所詮「持ってかないで下さいお願いします」程度の実行力しかない訳で。 何個あるかわからないrobotエンジンすべてのUAやホスト名を弾くのも現実的ではない。 ほら、Webサイトを公開しない位しか選択肢はない。 google、Yahoo、goo程度なら>>3 のスレで答えが出てるからそもそもこのスレの存在意義はない。 robots.txt を読まないバカ。@本日03/03/11分 deny にしてあげよう。 24.138.50.177 - - [11/Mar/2003:16:53:09 +0900] "GET / HTTP/1.1" 200 9881 "-" "Mozilla/4.0 (compatible; grub-client-1.0.7; Crawl your own stuff with http://grub.org )" adsl-64-165-111-42.dsl.snfc21.pacbell.net - - [11/Mar/2003:17:58:18 +0900] "GET / HTTP/1.1" 302 279 "-" "Mozilla/4.0 (compatible; grub-client-1.0.7; Crawl your own stuff with http://grub.org )" >>10 FAQに User-agent: grub-client Disallow: / で制限できるって書いてあるけど >>8 特に悪質なのだけUA、IPアドレスで弾けばいいのでは >>11 あー別にどーでもいーサイトなので放置しています。 >>11 ちゅーか、そもそもrobots.txtを読まないので、(ry 検索エンジンは別にいいんだが、厄介なのはarchive.orgだ。 いつまでも保存しておくんじゃねーよ(-_-;) Diskあぼーんしてもうて、バックアップしていなかったものを archive.orgから再構築したことがあるのは秘密。 自分ですら忘れていたような3年前のデータを律儀にとっておいて くれたことをありがたがったことも秘密。 robots.txtに↓を入れると見えなくなって、英文でメールを出すと完全に削除してもらえるんだっけ? User-agent: ia_archiver Disallow: / >>11 User-Agentを指定しないとダメな仕様って好きじゃない 使う前に十分な宣伝をする訳じゃないんだから 一度喰らってからじゃないと制限できないもん >>18 だからここで情報を交換しようと言うわけじゃ無いのか? >>19 無駄な抵抗なんだよ。公開しない。HTTPを使わない。認証システムの導入。これ。 robots.txt は Disallow があっても Allow がない腐れ仕様。 つーか、板違い。Web制作板へ。 この板でやるなら、HTTPレベルではなく、ロボットがやってくるIPアドレスを ファイアウォールでdenyするぐらいの話をしてください。 って言うかそこまでして読まれたくない 公 開 サイトって何よ? >>23 見られるかもしれないっていうどきどき感が良いんじゃない? robots.txtってルートに置かないとダメだから 自宅鯖向きの話題だと思うけどなぁ・・・ 読まれたくないってんじゃなくて CGIの出力とかクロールしてもしょうがないものをやめさせて 鯖の負担を軽くするもんじゃないの? >>27 そんな数時間に一回飛んでくるとかならまだしも。 >>28 こんなのもあるぞ 確証はないが、おそらく デジタルアーツ の 企業情報収集代行 (Net iScope)用 のロボット、 もしくは フィルタリングソフト (「i-フィルター」)のデータベース構築用。 ドメイン名からすると後者っぽいですが、データを流用している 可能性もあり。 大義名分のためか、/robots.txt は読みません。UAもなし。 HEAD→GET したり、 "...#XXX" と "...#YYY" は別に取得するといった、 シロート製ロボットに非常にありがちな動作をします。 (HEAD→GET間は基本的にあかない。 2001/10以降のものはGETのみ) ドブさらい系ではなく、めぼしい人の物だけを持っていく模様。 取得は割とアグレッシブで、非ブラウザではヒット数1位となる日も めずらしくありません。 単に有害サイト検出にしてはえらく頻度が高いので、 「企業情報収集」に使われているような気もします。 http://www.dais.is.tohoku.ac.jp/logs/agentgripes.html#netfilter >非ブラウザではヒット数1位となる日も なぁ、この書き方だとその他1%のトップの場合もあり得るわけだ。 ロボット対策で一ついい事を教えてやろう。 自分のサイト内コンテンツ閲覧の際、常にリファ必須とすればよろし。 リファなし或いは自サイトと関係ないまたは存在しないURLのリファだった場合、警視庁にでも 飛ばせばよろし。 以上。 >>33 ハァ? まートップページは読まれてしまうが、それ以降は読まれないぞ? 少なくともグーグルボットはリファ吐かないから自サイト外へ飛ばせるが何か? >>35 最近のパーソナルファイヤーウォールソフトはブラウザにリファ吐かせないようにしたりするから そのやり方だとユーザからクレームがバンバン入るぞ。 リファ吐かせないことで何を守ってるのかよくわからんけど。 >>36 んなヤシは切り捨てればよろし。マジで。 というか、なんでリファ消すかなぁ?>そういうヤシら。 リファがあるのが普通なんだしね。無いほうが異常。そんな異常なヤシがアクセス するから鯖の方も異常をきたす。 なんかのセキュリティ対策なのかな?もしそうならただのアホだよね。 というか、漏れからみればただのバカ。 RFC2616(HTTP1.1) では Referer を送るかどうかは MUST ではないし。 むしろ、Referer を送るか送らないかをユーザで選択できるインターフェースを 作りこむことをブラウザの作者に推奨してるし。 むしろ、前に見ていたページではない URL を Referer として送ってしまう バグ(RFC では MUST NOT とされている)のあるブラウザが後を立たない現状では パーソナルファイアウォールやローカルプロキシで消してしまうのが いらん情報漏曳を防ぐためのもっとも合理的な解。 >>32 つーか、そもそも Referer をちゃんと送ってくるロボットなんて珍しくないし。 たとえば、>>29 で挙げられているロボットはアクセス先 URL と同じ URL を 常に Referer として送ってくる。 つまりそれらと同じ事を鯖側も選択自由ということですよ。 リファがあろうがなかろうが、鯖側がリファ見る仕様ならクライアントが対応すれば いいこと。鯖側が対応する次元の話ではない。それが気に入らないクライアントは コンテンツを見なければいいだけの事。そこで自我を通そうとする行為はまた別の お話。 リファが情報漏洩の引き金になった話は聞いたことがないが? それ以前にあんな糞ブラウザなんぞ使っているヤシの気が知れない。 というか、リファ認証なんかは通れなくなるのだが? まーリファを消しているクライアントがリファをオンにすればいいだけの話だが。 >たとえば、>>29 で挙げられているロボットはアクセス先 URL と同じ URL を >常に Referer として送ってくる。 というか、それではリファとは言えないのだが。。。 んでもリファラー見るってロボット対策の一つになるんじゃないの? >リファが情報漏洩の引き金になった話は聞いたことがないが? 勉強不足です。セッション ID を URL の一部に含めるような Web アプリケーションでは、referer 漏れによって第三者に セッションハイジャックを許す脆弱性を持ったものがあります。 >それ以前にあんな糞ブラウザなんぞ使っているヤシの気が知れない。 過去には IE も mozilla も referer 漏れするバグがありましたが。 au の携帯電話にも。 というか、セッションジャックされるスクリプト言語とそれを走らせてる鯖が悪い。 リファラーは潔白。 つーかバイオレンスジャックはかなり好きだぞ。 ロボットへの対策としてある程度は有効。 ここではそれだけ分かればいい。 何らかの認証かけときゃ済む話のような気がしなくもない。 とりあえずさ、真っ当な有名所ならrobots.txtやMETAで防げばいいわけだし 真っ当じゃ無い所はその情報をここで出せばいいじゃん? セキュリティと一緒でこれだけをやっておけば安心と言うのは無いと思うが? > とりあえずさ、真っ当な有名所ならrobots.txtやMETAで防げばいいわけだし 対策が掲載されている所ならの間違い ここで書かれたこと全部やれば対策になるんじゃない? ロボット、リファ、ホスト制限。 特定の人にしか公開しないならポート番号変えるとか 各種認証入れればいい。 ━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━― ∧_∧ ピュ.ー ( ^^ ) <これからも僕を応援して下さいね(^^)。 =〔~∪ ̄ ̄〕 = ◎――◎ 山崎渉 すみません、質問なんですが User-agent: ia_archiver Disallow: /aaa Allow: /aaa/bbb User-agent: ia_archiver Allow: /aaa/bbb Disallow: /aaa このとき順番はどっちが正しいんでしょうか… aaaというディレクトリの中でbbbだけ許可したいんです。 robots.txt の仕様に Disallow はありますが、Allow はありません。 # Allow を解釈するロボットもあるかもしれんけど。 http://www.robotstxt.org/wc/norobots.html http://www.robotstxt.org/wc/exclusion-admin.html 複雑な robots.txt を書いても、それをロボットが意図したとおりに 解釈してくれなきゃ意味がないので、「正しい書き方はどっち」と聞くよりも、 意図どおり解釈される書き方を試行錯誤して見つけだす方がいいのではないかと。 すんげー面倒だけど。 なるほど。勘違いをしていたようです。 親切な説明有り難うございました! まずはURLに行って勉強し直します。 Allowあるよ。ほれ。 http://www.robotstxt.org/wc/norobots-rfc.html まあ「ないよ」と言い切られてしまう程度の知名度では ロボットが実装していない可能性も非常に高いわけだが。 携帯ゲーム機"プレイステーションポータブル(PSP) このPSPは、新規格UMD(ユニバーサルメディアディスク)というディスクを利用しており、そのサイズは直径6cmととても小さい(CDの半分程度)。 容量は1.8GBとなっている。 画面は4.5インチのTFT液晶で、480px x 272px(16:9)。MPEG4の再生やポリゴンも表示可能。外部端子として、USB2.0とメモリースティックコネクタが用意されているという。 この際、スク・エニもGBAからPSPに乗り換えたらどうでしょう。スク・エニの場合、PSPの方が実力を出しやすいような気がするんですが。 任天堂が携帯ゲーム機で圧倒的なシェアをもってるなら、スク・エニがそれを崩してみるのもおもしろいですし。かつて、PS人気の引き金となったFF7のように。 __∧_∧_ |( ^^ )| <寝るぽ(^^) |\⌒⌒⌒\ \ |⌒⌒⌒~| 山崎渉 ~ ̄ ̄ ̄ ̄ ロボットが拾っていくのは問題ないが、そのロボットの挙動が不信だったりすると 拒否したくなるんだよな。 挙動不審のロボットとは関係ないが、ia_archiverはどこかに適当に英語で消せやゴルァメールを送ると 直ちに注意することにするよ。 変わったのがわかるまで2〜3営業日かかる。 参加してくれなくて残念だ。 とかいうメールが返ってきて しばらくするとブロックしたとかでて見ることが出来なくなる。 ∧_∧ ∧_∧ ピュ.ー ( ・3・) ( ^^ ) <これからも僕たちを応援して下さいね(^^)。 =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕 = ◎――――――◎ 山崎渉&ぼるじょあ usen-(略).ap-US.usen.ad.jp ってやつが、画像だけ持っていくようなアクセスをよくしてるんですが、 イメージ検索か何か動いてますか? >>74 (略)だしねぇ。 その画像とはそやつが(;´Д`)ハァハァしそうな画像でつか? 毎回同じ画像でつか? そこらへんが分からんと(ry プログラマの日記に載せてる写真とか、ぜんぜん(*´д`*)ハァハァできない画像です。 毎回違う画像ですが、何日かしたら前に取った画像もまた持っていきます。 過去ログのリンクを辿らないと出てこないような去年のものとかも、取得対象のようですが、 毎回全部持っていくわけではなくて、1ファイルとか3ファイルとか。 とにかく、なにが目的なのかサッパリ分からないので、そんなアクセスログを見たことがないでしょうか? ってつもりでカキコしてみました。 ちなみに、そいつのUserAgentは Mozilla/3.01 (compatible;) になってます。 >>77 うーん、robotはぢきのページにも出てなかったしよく分からん……(w どうしても気になるようだったらルーターとかでdenyしてみるとかどうよ? 明日あたり漏れの鯖のログも検索してみようかな。 NetCache だか CacheFlow だかのプロキシ箱がそういう UA で 先読みキャッシュしたような記憶があったようなないような。 (⌒V⌒) │ ^ ^ │<これからも僕を応援して下さいね(^^)。 ⊂| |つ (_)(_) 山崎パン msnbotもすごいやってきます。 ほかのロボットは一週間に一回ぐらいやってくるのですが、msnbotは一日一回は必ず来ます。 リンクがあるところは、更新されていないページも含めて全部。 CGIとか呼び出しまくりです(;´д⊂) >>84 おおっ、この記事は読み落としていました。 二回読んで更新がなかったページの取得頻度は下げて欲しいなぁ あんなに激しく取りに来るわりには、技術プレビューの検索結果にも出てこないし (;´Д`) msnbotはp2みたいなの動かしていると凄い勢いでスレ を舐めていくし… アクセスログの半分以上がmsnbotなのは勘弁してくれよ。 ひとまずrobots.txtを置く、UAを見て無効なデータを返す、 ルータでフィルタする等の対策をとってみるかな? SetEnvIf User-Agent "msnbot.*" nolog CustomLog access_log.txt combined env=!nolog わたしは、これで無視することにしました DDNSで今まで http://hoge.ddns.net/ ~ore/ としてたのを バーチャルホスト http://hoge.ddns.net/ で見られるようにしたんだが、 相変わらずbotは /~ore でアクセスして来るんだけど、 これを拒否する方法ってある? 単純に User-agent: * Disallow: /~ore でいいの? >>88 /~ore/でアクセスしてきた時に404を返してやれば、そのうち来なくなるんじゃないの? Yahoo! Slurp ってのがよく来るがヘ(゚д゚)ノ ナニコレ? 2ch型掲示板のcgiがあるディレクトリ(/test/)を禁止にしたら凄く減った。 ロボットは来ているのだが、Googleで検索して飛んでくる人が 最近とんと減ってしまった。なんでだろう? YahooやMSNからの検索はそこそこ定常的にあるのに。 Googleからのもゼロって訳じゃないんだけどね。 うちのように小さなサイトは検索エンジンからのアクセスが 大切なアクセス源なのに。 原因がわかる人いる? スパム認定かも。 あんまり同じ単語繰り返しても無視される傾向にある様な気がする。 >>97 うーん、普通にいろんな日々の話題を扱ったブログを公開している程度で、 目を付けられるような動きじゃないはずなんですが…。 もしかしたら、IPアドレスの逆引きがISPのドメイン名になっている事が まずいのかも知れないと思い、逆引き設定してくれるISPに引越し予定です。 うち、逆引きはプロバのドメイン名だけど、普通に登録されてるよ。 自分で検索してみて出てくる? 自分で検索しても出てこんのです。(T_T) そっか、逆引き不一致でも問題ないのかなぁ。とすると、原因は別のところか。 原因を探ってみます。 情報感謝です。 >>89 レスさんくす。亀レススマソ。 ずっと、/~ore/を403かえすようにしてたら、 2,3ヶ月経った今、検索結果も更新されてた。 しかし、本当に最近はmsnとyahooのbotがすごい勢いでくる。 そのせいか、更新頻度はyahooとかのほうが高い気がする。 アニマル横町 第11話 第12話 「どき☆どき 占いパラダイス/どき☆どき 大げんか」 (WMV9 VGA 120f).avi rTS5D56UkW 225,006,346 ebae1fe40bdee39518a56c7109901839 ttp://www.imgup.org/file/iup115747.jpg (=゚ω゚)ノ dissalowされたサイトだけ検索するエンジン作ったらヒットしそうだね! 誰か作って! 大体RFC化もされていない「紳士協定」に対して 目くじら立てるやつっておかしいと思わないか? フリーオを問題視してる団体と完全に構図が一緒だ naver の Yeti というのは、naver しか使ってないのか ? それなら、USER_AGENT で Yeti を丸ごと弾いてしまおうと思うが。 htaccessでBaiduspiderはrobots.txtだけにアクセス出来るように設定したなら、 他のファイルに1秒20回アクセスするという暴挙に至っている。 それだけでエラーログが巨大化しているw こうなるとルータで弾くしかないのか。 javascript使って、ブラウザアクセスでしか開けないようにしておけば良いんでない? 趣旨が違う? 俺、掲示板に広告書き込むスクリプトがウザくて使ったら、一切来なくなったよ。 こんな感じ↓ http://www.google.co.jp/ ←隠したいアドレス -top.html- <html><head> <script type="text/javascript"><!-- function code(){add.innerHTML='<a href="http://www.goog'+'le.co.jp/ ">隠したいアドレス</a>';} //--></script></head> <body onLoad="code();"> <span id="add"><a href="noscript.html">隠したいアドレスへのジャンプページ</a></span> </body></html> -noscript.html- <html><head></head><body> 以下のアドレスをコピーして移動してください。<br> http://www< ;span>.google</span>.co.jp/<br> </body></html> アドレスをブツ切りにして記載してやれば、単純にテキストを検索して来た時は見えないし。 トップページは隠すの無理だけど。 とんだ先にアフィ貼るとかそういう落ちに期待したい(^◇^; robots.txtって、クローラはどこかのページにアクセスする際、 必ず見に来るものなのかな? お行儀が良いクローラならね。 見る義務は無いし、見ても記述内容に従う義務は無い。 アクセスログを見ると、グーグルさんはちゃんとrobots.txtを見てくれてる 66.249.69.91 googlebotのIPらしいけど、 sshの辞書攻撃を毎日してくる。 >>124 IPヘッダ書き換えりゃ偽装自体は出来る。 でもIPパケット送りつける事しか出来ない。 Ajaxばりばりのサイトでも突破できるクローラーってありますか? かんたんなDHTMLはいけても、 さすがに、GoogleMapも自動でリンクたどるとか無理ですよね? yahooの検索結果に表示されては困る、でもgoogleやその他にはむしろガンガン表示して欲しいんだが、 そんな指定metaタグでできる? 無理ならブラウザ拡張のアドオンでもいいんだが。 教えてください。 今yahooの検索エンジンってgoogleのやつを使ってるんじゃなかった? そこが問題なんだよなー。 なんかいい方法ないかな。 アドオン探してもgoogleのは見つかるが、yahooで検索結果から除外できるようなアドオンは無いみたいだし。 八巻正治さんについて思うこと。 いつもは宗教心あふれる教師面して"福祉とはかくあるべき"と講釈たれてるのに、 自分の気に食わないことを言われると個人的な感情全開にして、己の懐の狭さが露見するよね。 八巻正治さんは、他人には潔さを求めるのに、自身の発言には一切の責任を取らない。 これ程まで薄っぺらい人間を、他には知らない。 ニューポート大学大学院博士だけのことはあるね。 ∧_∧ ( ・∀・) 人 ガッ ( つ―-‐-‐-‐-‐-‐○ < >__Λ∩ 人 Y ノ. V`Д´)/ し(_) / ←>>59 !!押川の悪事警報!! ※常識的に事実でなければこの様な内容は書けません! 毎度お馴染みの極悪人、押川定和の被害にご注意下さい。 押川定和の悪事は犯罪の領域に達している。 大企業(株)クボタ筑波工場からも情報を盗み取ったのは決定的で対応に注目が集まる。 http://www.kubota.co.jp/siryou/jigyos.html 創価学会押川定和の 勤め先・株式会社WEIC(ウェイク)104-0053 東京都中央区3-1 http://www.ntt.com/bizhosting-basic/data/case2_1.html yandexに本気で殺意を覚えた どこから来やがった氏ね 最近,Baiduクローラーからのアクセスが来るよになったのでIPが変わったのかと思って, 確認したら変わっていない。 Apacheでアクセス拒否にしているのに… で,しょうがないので上流のファイヤーウォールでアクセス拒否にしても何故かやってくる… これは一体どういうことだw 送信元を詐称して,詐称先にパケットを返しているのかな? 謎挙動なんだがw read.cgi ver 07.5.5 2024/06/08 Walang Kapalit ★ | Donguri System Team 5ちゃんねる