namazuでサーバーを立てたい
この板の過去ログを検索したくても不便です。 そこでnamazuを使って検索用のサーバーを立てようと思います。みんなのために。 namazuのインストールは終了しました。動作もばっちりです。 ただログを収集するのが大変です。 自動的にログを収集してくれるスクリプトってないですか? っていうかそんなの持ってる人いたらください。 あと http://cocoa.2ch.net/linux/dat/ ↑ここからログを拾うとdatファイル形式なのでhtmlで表示されません。 ログはどこから拾ってくればいいんでしょうか? html形式で保存されているほうが何かと便利なんですけど。 ちなみに >>312 >>313 は自分で書き込みました。 誰も反応してくれないとさみしいんで。。。 >>311 技術的なことはちんぷんかんぷんですが、 本当におめでとうございます。 あ、本当に祝ってもらえた。うれしいです。ありがとうございます。 >>311 おめでとうございます。 まだ見てないから見てみよ。 Web ページで検索できるようにする前に、emacs から検索してみようと思って namazu.el を入れてみた。 でも、M-x namazu で検索文字列を入れてみると Wrong type argument: stringp, nil と表示されて検索できなかった。 コマンドラインから namazu で検索するとちゃんと検索できてるのになぁ。 何が悪いのでしょうか? emacs-lisp を勉強していない俺が悪いのでしょうか? 最近、管理がめんどい。。。 過去ログ取得スクリプトにバグはあるしディスク障害もあるわで。 http://mimizun.mine.nu/ >318 自己レス。 ~/.namazurc でのデフォルトのインデックス指定が Index ほげ だったのが敗因でした。 INDEX ほげ じゃないとだめなんですね。いや、 namazu はどっちでもいいんですが、 namazu.el で .namazurc を解析するところが INDEX しか見てくれないんですよね。それだけでした。スマソ。 >321 何がおすすめ? 合計 20GB 程度の Web サイト内の全文検索をしたい。 Mitake Search なりなんなりの売り物つかうのはどうよ。 >>321 は例の私怨厨か... まだいたんだな。 >323 なるほど、と思っていろいろ商用のものを見てみたんですが、 きづいたこと。 Namazu をつかってて、致命的に困っていることが、無い。 というわけで Namazu を使いつづけることにしました。 Debian 用パッケージも用意されていることだし。 Namazu いいよね。便利だし、早いし。 まぁ検索精度は低く感じるけど無料だから文句ないし。 つか、index作るのに時間かかるね・・・メモリも食うし。 kakasi の辞書、mysql とかのデータベースに格納できるとありがたいんだけどなぁ。 DocuWorks 文書用のフィルタってどなたかしりませんか? 昨年10月ごろの ML で Fuji Xerox の開発部でも UNIX 用のフィルタの必要性は認識しているって言う話がでてたらしいんですが、その後まったく話を聞きません。 広報にたずねてみては? 個人でも邪険にされることはありませんよ >>327 それ、ずーっと昔に試したことがあるけど、かなり遅いよ(汗 postgresでもmysqlでもoracleでもsybaseでも。 データ型のチェックとか格納のためのソートツリーの作成とか、 kakasiを使うにあたって不要な部分がボトルネックになる模様。 >330 それって、kakasi のソースをいじってってことですか? それとも毎回データベースから単語ファイルを作成して辞書ファイルを作成して…ってことですか? もしかして前者の場合だったらパッチがあるとか…。 >320 なんか久しぶりにこのスレ読んで、おもだしたので、BTS にあげときました。 wvWare v0.5.x.tar.gz どっかに無いかな。 v0.6以降からおいらのスキルじゃWord文章をうまく検索できんようになってしまった。 >>334 CVS から最新のフィルタだけ持ってきたらどうですかね。 http://cvs.namazu.org/ ~checkout~/namazu/filter/msword.pl?rev=1.30 なんと早くも1周年。おめでたいです。 よく頑張りました。(自画自賛) >>338 コテハンはひさしぶりだな。 掲示板すごいことになってるね。 すごいことになってるっていうから荒らしでも来てるのかと思って見に行っちゃいました、、 あの質問づくしのことですか?もう慣れました。メールでも「削除して下さい。」とか 「書き込みができないんですけどなんでですか?」ってメールがしょっちゅうきます。 わかる範囲で答えてますけど。 1年ってあっという間だなあとしみじみとした気分です。 アーリーらっぱ飲みしながら>1から読破。 知らずに使っていた2ch検索にこんな歴史があったなんてね。 空欄にしたら「名前:login:Penguin」になってしまいました。 詐称ではありませぬ。 UNIX板から来ました。 "namazu.cgi"を間違って消してしまいました。今から使おうと思ったのに redhat7.3のrpmから入れたやつです。ちなみにバージョンは namazu-2.0.10-4 namazu-cgi-2.0.10-4 だれかアップしていただけると助かります。お願いします。 にちゃんねる検索はいいと思うんだけど、 自宅でサーバー立ててる人とかってさー namazu何に使ってんの? なんかおもしろい使い方ってある? つか/settei/がIndex表示になってないな。 shスクリプトとか欲しいのに。 2ch.shだと思ってたが名前変更されてたんだな。俺もちょっと探したけど見つけた。 http://2ken.net/settei/linux.sh これだろう。でもわざわざこれを取得しなくてもこのスレに書かれてるのと同じだと思うが。 但し、今はdatディレクトリが見れないからこれでは動作しないと思う。 あと3行目の set | grep LANG は不要だと思う。ここでgrepしてどうする・・ /usr/lib/mozilla/searchplugin/Googlejapan.src に ちょっと変えてこんなんを作ってみた。 # Mozilla/2chSearch plugin <search name="2ch search" description="2ch search" method="GET" action="http://2ch.dyn.to/cgi-bin/namazu.cgi " queryEncoding="2561" queryCharset="Shift_JIS" > <input name="key" user> <input name="whence" value="0"> <input name="lr" value="lang_ja"> <input name="dbname" value="all"> <input name="max" value="20"> <input name="sourceid" value="mozilla-search"> <interpret charset = "Shift_JIS" resultEncoding = "2561" resultListStart="<!--a-->" resultListEnd="<!--z-->" resultItemStart="<!--m-->" resultItemEnd="<!--n-->" > </search> インデックスから日本語を排除したいと思っています。 検索対象は日本語のテキストファイル(含む LaTeX ソース、メール、ニュース)なのですが、 検索後として日本語を指定することがほとんどありません。 そこでインデックスを作る際に日本語は省いてしまいたいと思っています。 mknmzrc はどのように設定するといいのでしょうか? 現在は kakasi, chasen 共に使用できるようになっています。 あと、メールやニュースの Message-ID, In-Reply-To, References: フィールド以下の 文字列に対しては、メッセージ ID そのままの状態でインデックスに含めたいのですが、 可能でしょうか? つまり、検索文字列としてメッセージIDを指定したいことがあるということです。 nkf ~/Mail/ML/IETF/1 | chasen -j -F '%?U/%m/ / ' | jless で望む結果が得られ多っぽいです。 chasen のマニュアルによると %?U/STR1/STR2/ っての 『if unknown word, STR1, otherwise, STR2』 ってことなのですが、 UNKNOWN ってのは辞書に無いってことですよね? てことは chasen の辞書に英単語が載っていたらだめなんだな。 nkf ってデフォルトで BASE64 のデコードしてくれるんですね。 メールの Subject: の日本語(BASE64エンコードされている) が、 デコードされててちょっと感動した。 Namazu文書フィルタの作成方法 〜 Namazu 2.0 用 〜 http://www.namazu.org/ ~kenji/dekiru-namazu-filter.txt ほかに参考になるサイトはありますでしょうか? 特にフィールド検索に重点をおきたいと思っています。 実験結果のファイルがあって、それには実験の条件が書き込まれているので、 Word や Excel 文書の「文書のプロパティ」みたいな扱いができればと。 使用している OS は Debian GNU/Linux 3.0 (woody) です。 いくつかのフィルタを読んでみたところ、フィルタの側ではとにかく可能な限り、 フィールドの情報を抽出して返しているように思います。 フィールド名などもフィルタのほうで勝手にいくらでも作ることができるみたいです。 どのフィールドをインデックスに採用するかというのは、 フィルタから返された情報を見て mknmz が決定するのでしょうか? つまり、"+subject:linux" みたいな検索式の subject の部分に何を使えるかは、 誰がどうやっていつ指定しているか、ってことなんですが。 REMAIN_HEADER vs SEARCH_FIELD http://www.namazu.org/ml/namazu-devel-ja/msg02065.html 全文検索 Namazu 講座 http://www.rfs.jp/server/namazu/02.html $REMAIN_HEADER RFC 822 Header などのうち本文として検索出来るものを指定 $SEARCH_FIELD フィールド検索(「+subject: 検索語」のような形式)に使える項目を指定する $META_TAGS 検索対象にするMETAタグを指定 %FIELD_ALIASES メール見出名の置換ルール フィールド検索に関係しそうな mknmzrc の変数というと、これくらいでしょうか? どのフィルタがどの設定項目を見ているのか、これからフィルタを読んでみます。 フィルタ読んでみました。 $REMAIN_HEADER → mailnews.pl が見ている $META_TAGS → html.pl が見ている $SEARCH_FIELD と %FIELD_ALIASES は mknmz 本体だけが見ている? (まぁ conf.pl でデフォルト値を設定しているのは別として) うむ〜 NMZ.field.* 出力している部分をよんでみまつ・・・ 1)フィルタからフィールドのデータが連想配列で返ってくる。 2)%FIELD_ALIASES を使ってフィールド名を変換 %FIELD_ALIASES は キー = フィルタから返ってくるフィールド名 値 = インデックスに登録するときのフィールド名 3)フィールド名が SEARCH_FIELD にあるものは NMZ.field.<フィールド名> に出力 META_TAGS を使うようオプションで指定されていたときは SEARCH_FIELD だけでなく META_TAGS にあるものも対象。 ってことか・・・・ちょっと気持ち悪いのは、なぜか mailnews.pl では メールヘッダの Subject: の内容を 'title' フィールドとして返しておいて、 mknmz 本体でわざわざ 'title' -> 'subject' への別名置き換えをやってるところ。 だったらはじめから mailnews.pl で $fields->{'subject'} = $line とかすればいいのに。 今朝になって突発的に独自フィルタ作りたくなって、 my とか local ってなに? perl の名前空間ってどうなってんの? @ とか % とか \ とか $ とかなに? ってとこからはじめたんで、ちゃんとソース読めてないかもしれない・・・ Windows の Outlook の *.msg ファイルがあるんですが、 これのフォーマット分かる方おられませんか? フィルタかいてみようかとおもったんですが、 MH 形式とはちょっと違うみたいです。 いらないバイナリデータがあちこちにちりばめられていて。 確かにテキスト部分は一部読めるんですが。 これを使えば何とかなりそうな気がしてきました。 Converter for Microsoft Outlook 2000 (TM) .msg files http://www.brodo.de/english/pub/msg2a/ Matijs van Zuijlen has written a Perl scriptwhich does convert Microsoft Outlook .msg files to mbox format. He found out that the file format is OLE-compatible. This script uses many Perl modules to extract the information, but you should be able to find all Perl Modules either in your favourite Linux distribution, or at CPAN. You can find his program (License: GPL), as well as documentation, at http://www.xs4all.nl/ ~mvz/software/msgconv.html . 【まさかの】ひろゆきブチキレ【降臨】 とうとうキレさせてしまった過疎板の住人達。 あの一言さえなければこんなことにはならなかったのに。。。 目の前で忽然と消えていくスレ達。 一つのスレに集中(むしろ、おいやられていく)住民達。 ひろゆきVS住民 無論、俺は面白半分w 問題の発言 http://choco.2ch.net/test/read.cgi/bobby/1038742045/119 問題のスレ http://choco.2ch.net/test/read.cgi/bobby/1038742045/ IP記録実験 http://qb.2ch.net/test/read.cgi/accuse/1042013605/ 1 名前:ひろゆき ◆3SHRUNYAXA @どうやら管理人 ★ 投稿日:03/01/08 17:13 ID:??? そんなわけで、qbサーバでIPの記録実験をはじめましたー。 27 名前:心得をよく読みましょう 投稿日:03/01/08 17:20 ID:yL/kYdMc SETTING.TXT管轄でないということは全鯖導入を視野に、か? 38 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:22 ID:rLfxQ17l >>27 鋭いです。 73 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:27 ID:rLfxQ17l >ところで、IPが抜かれて何か今までと変わることってあるのでしょうか? ・今までより、サーバが重くなる。 ・裁判所や警察からの照会があった場合にはIPを提出することがある。 >>47 HDDがいままでより早くいっぱいになってひろゆきと夜勤さんが困る 犯罪者はIP提出してとっとと警察へ連れて行って欲しいけど 荒らしは減らないような気がするんですが、、 そこんとこどうでしょうか? >ひろゆきさん IP記録実験 http://qb.2ch.net/test/read.cgi/accuse/1042013605/ 1 名前:ひろゆき ◆3SHRUNYAXA @どうやら管理人 ★ 投稿日:03/01/08 17:13 ID:??? そんなわけで、qbサーバでIPの記録実験をはじめましたー。 27 名前:心得をよく読みましょう 投稿日:03/01/08 17:20 ID:yL/kYdMc SETTING.TXT管轄でないということは全鯖導入を視野に、か? 38 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:22 ID:rLfxQ17l >>27 鋭いです。 73 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:27 ID:rLfxQ17l >ところで、IPが抜かれて何か今までと変わることってあるのでしょうか? ・今までより、サーバが重くなる。 ・裁判所や警察からの照会があった場合にはIPを提出することがある。 ひろゆきのレイプ予告したらIP晒されちゃうかな? | | ∧ |_|Д゚) こっそり保守 |文|⊂) | ̄|∧| | | ∧ |_|Д゚) こっそり保守 |文|⊂) | ̄|∧| | | ∧ |_|Д゚) ageないと保守できないと思っているなんて・・・。 |文|⊂) | ̄|∧| >>387 お腹減らないのかしら・・・? そうか! ヌイグルミの猫ちゃんなのかしら。。。 クククのクーン。。。 __∧_∧_ |( ^^ )| <寝るぽ(^^) |\⌒⌒⌒\ \ |⌒⌒⌒~| 山崎渉 ~ ̄ ̄ ̄ ̄ ∧_∧ ∧_∧ ピュ.ー ( ・3・) ( ^^ ) <これからも僕たちを応援して下さいね(^^)。 =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕 = ◎――――――◎ 山崎渉&ぼるじょあ 懐かしいスレだわ。。。 ククーン。。。 ククーン ... (⌒V⌒) │ ^ ^ │<これからも僕を応援して下さいね(^^)。 ⊂| |つ (_)(_) 山崎パン 画面綺麗だし、パフォーマンスもいいし、 なんか無性に感動した。 応援&保守sage >>19 おいおい、三流大学とはいえ、医学部は偏差値だけはそれなりだぞ。 namazuって、昔よく使かってたけど、 今は、どうなったの? Hyper Estraier にお株を奪われて終了 >>406 Hyper EstraierってPerl動作版とかあるの? レンタルサーバで使えないんじゃちょっとなぁ。 目玉のP2P並列処理もAPIだけ公開されてるけど 実運用するには敷居が高い。高すぎる。 あとResultページのカスタマイズとかできないし。 エンジン自体はNamazuよりずっといいと思うんだけどなぁ 確かに Namazu における pnamazu みたいなのはないな。 QDBM とべったりだから、Pure Perl で実装するのは難しそうだね。 >あとResultページのカスタマイズとかできないし。 あー、確かに標準添付の estseek.cgi はいまいちね… API は提供するから各自でフロントエンド書けってのが作者のスタンスなんだろうな。 今日で、北京オリンピックは終了か、 Beijing 2008. 次は、またロンドンで逢おう。 read.cgi ver 07.5.1 2024/04/28 Walang Kapalit ★ | Donguri System Team 5ちゃんねる