オープンソースの全文検索ソフト

**はるお** · 02/11/01 03:28

オープンソースの全文検索エンジン全般を扱うスレッドです。

ソフトウェアによっては固有のスレッドが立てられている場合もあります。
それらについては適宜リンクを張ります。

Namazu http://www.namazu.org/
Glimpse http://webglimpse.org/
SWISH++ http://homepage.mac.com/pauljlucas/software/swish/
ht:/Dig http://www.htdig.org/

Comparing Open Source Indexers
http://www.infomotions.com/musings/opensource-indexers/

関連スレッド
全文検索ユーティリティ統一スレッド
http://pc.2ch.net/test/read.cgi/bsoft/1006680403/
　ビジネスソフト板のスレッドです。
　主に Windows のパッケージソフトについてのようです。

Microsoftの全文検索ソフト(Indexing Service等)
http://pc3.2ch.net/test/read.cgi/win/1035387243/

**はるお** · 02/11/01 03:29

Namazu は専用スレがあります。
Namazu 固有の話題はそちらの方がいいでしょう。
他の全文検索エンジンとの比較などはこちらのスレが良いかも。

【UNIX板】全文検索エンジンNamazu
http://pc.2ch.net/test/read.cgi/unix/1009715036/

【Linux板】namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/

【Webプログラミング板】Namazu全文検索システム
http://pc.2ch.net/test/read.cgi/php/992477868/
【Webプログラミング板過去スレ】Namazu全文検索システム
http://pc.2ch.net/test/read.cgi/perl/981352718/

**はるお** · 02/11/01 03:32

オープンソースに限りませんが、全文検索ソフトのリストがこちらにあります。

日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html

THX to 馬場さん＠宇物

**login:Penguin** · 02/11/01 03:32

>>1 スレ立てありがとうございました。

**分かち書き、形態素解析など** · 02/11/01 03:50

Namazu など、日本語を扱うことができる全文検索ソフトの多くは、
kakashi や chasen などの補助ソフトを使っています。

KAKASI - 漢字→かな(ローマ字)変換プログラム
http://kakasi.namazu.org/

Morphological Analyzer ChaSen
http://chasen.aist-nara.ac.jp/

○参考リンク
　日本語全文検索での索引作成・検索アルゴリズム
　http://www-6.ibm.com/jp/software/data/cm/txt.html
　ASCII24 デジタル用語辞典 - 形態素解析
　http://yougo.ascii24.com/gh/60/006070.html

**login:Penguin** · 02/11/01 04:31

渋さの漂うスレですな。

**Snatcher** · 02/11/01 11:39

Snatcher Full-text Search System ver. 3
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher.html (English)
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher-ja.html (Japanese)
Copyright (c) 2002 Mikio Hirabayashi. All rights reserved

概要(上記サイトより引用)
Snatcherは、全文検索システムです。

GoogleやAltaVistaをご存じの方は、それが個人向けに簡単になったものだと思ってください。
検索フォームに検索語を入力すると、その語を含む文書の情報を一覧することができます。
検索結果は、該当文書の検索条件への適合度（スコア）の順で、文書の要約とともに表示されます。
Snatcherは、中規模（文書数100000、総容量1GB程度まで）のWebサイトやファイルサーバでの運用に適したシステムです。
それ以外に、メールボックスやオンラインマニュアルの検索にも使うことができます。

**日本語を飛ばす** · 02/11/01 11:44

入力ファイルから日本語部分を削除するのに使えそうな方法。
【Linux板】namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/357n

Namazu, Snatcher などでは日本語を扱うことができます。
しかし多くのオープンソースの全文検索ソフトでは日本語を適切に扱うことができません。
無理やり日本語ファイルをインデックス化すると、
2バイトコードのかけらなどを単語として認識してしまい、
インデックスファイルのサイズが異常に大きくなってしまうことがあります。

**ファイル形式の判別** · 02/11/02 07:35

ファイル形式の判別には、拡張子あるいはパス名と正規表現のマッチングで行っているものが多いようですが、
Namazu など Perl ベースで書かれているものは File::MMagic を使っているようですね。

http://search.cpan.org/dist/File-MMagic/

**mknmz w/kakasi** · 02/11/02 07:38

Namazu の mknmz で ~/Mail/inbox をインデックス化してみました。
分かち書きには kakasi -w を使っています。

[Append]
Date: Fri Nov 1 21:02:37 2002
Added Documents: 981
Deleted Documents: 2
Size (bytes): 10,434,220
Total Documents: 981
Added Keywords: 61,229
Total Keywords: 62,044
Wakati: module_kakasi -ieuc -oeuc -w
Time (sec): 447
File/Sec: 2.19
System: linux
Perl: 5.006001
Namazu: 2.0.10

real 7m28.223s
user 1m57.340s
sys 0m3.600s

**mknmz w/kakasi** · 02/11/02 07:43

できたインデックス (NMZ.* ファイルたち) の大きさは、合計で 3200KB でした。

**login:Penguin** · 02/11/02 23:47

>>5 こんなのも。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
Mhttp://cl.aist-nara.ac.jp/~taku-ku/software/mecab/

C++ で書かれていて ChaSen よりも高速らしい。
他言語への binding も豊富。

**login:Penguin** · 02/11/03 01:35

>>12
情報ありがとうございます。
しばらく namazu をいじってました。
独自フィルタを作る方法を知りたくって。

namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/

**Windows で namazu w/chasen** · 02/11/03 14:12

Windows で namazu + chasen を使ってみました。
namazu も chasen もそれぞれ Windows 用バイナリが用意されているのですが、
組み合わせて使おうとすると cygwin 上でソースからコンパイルしたものが必要です。

Namazu全文検索システム
http://pc.2ch.net/test/read.cgi/php/992477868/99-102

げた · 02/11/08 20:25

こんなの、どーよ？ http://geta.ex.nii.ac.jp/

**login:Penguin** · 02/11/08 23:46

namazu + kakashi/chasen で決まりでしょう。
んでもってapache上でnamazu.cgi動かす。

glimpseって有料じゃなかったかな?
ht://dig は日本語とおらないし。

**login:Penguin** · 02/11/18 18:35

ねえ、日本語ってどう処理すればいいの？

**login:Penguin** · 02/11/29 19:22

保全age

**login:Penguin** · 02/12/07 20:28

>>15 GETA って scheme や Haskell との interface も考えてたりして、ちょっとマニアックかも

**login:Penguin** · 02/12/07 20:36

>>17
まず形態素解析器で形態素を解析します。(Chasen, Juman, MeCab)
その後、必要であれば、どの文節がどの文節に係っているか(係り受け構造)を構文解析器にて、解析します。(CaboCha, KNP)
構文解析器に関しては、以前はKNPが良く利用されていたようですが、最近は CaboCha が良く使われるようです。
# SVM を使用していて精度が高い (らしぃ

**login:Penguin** · 02/12/10 18:32

>>19
FreeBSDをベースに開発している所からしてマニアックdayo!

**login:Penguin** · 03/01/06 11:24

ひさびさにmknmzちう...たぶん今日中にはIndexができているだろう。

@@ Processing gzip file ... (using Compress::Zlib)
70/27876 - /usr/share/doc/HOWTO/en-txt/Encourage-Women-Linux-HOWTO.gz [text/plain]
71/27876 - /usr/share/doc/HOWTO/en-txt/Enterprise-Java-for-Linux-HOWTO [text/plain]
@@ モジュール: html.pl
@@ Processing html file ...
72/27876 - /usr/share/doc/HOWTO/en-txt/Esperanto-HOWTO [text/html]
@@ モジュール: gzip.pl
@@ Processing gzip file ... (using Compress::Zlib)
73/27876 - /usr/share/doc/HOWTO/en-txt/Ethernet-Bridge-netfilter-HOWTO.gz [text/plain]
74/27876 - /usr/share/doc/HOWTO/en-txt/Ethernet-HOWTO [text/plain]
インデックスを書き出しています...

22 · 03/01/06 20:10

所要時間 8.5h でした。

インデックスを書き出しています...
[追加]
日付: Mon Jan 6 19:44:54 2003
追加された文書の数: 22,453
削除された文書の数: 2,890
更新された文書の数: 4,916
サイズ (bytes): 275,352,781
合計の文書数: 40,141
追加キーワード数: 840,373
合計キーワード数: 2,874,103
わかち書き: module_kakasi -ieuc -oeuc -w
経過時間 (秒): 30,674
ファイル/秒: 0.89
システム: linux
Perl: 5.006001
Namazu: 2.0.12

**IP記録実験** · 03/01/08 22:16

IP記録実験
http://qb.2ch.net/test/read.cgi/accuse/1042013605/

1 名前：ひろゆき ◆3SHRUNYAXA ＠どうやら管理人 ★ 投稿日：03/01/08 17:13 ID:???
そんなわけで、qbサーバでIPの記録実験をはじめましたー。

27 名前：心得をよく読みましょう投稿日：03/01/08 17:20 ID:yL/kYdMc
SETTING.TXT管轄でないということは全鯖導入を視野に、か？

38 名前：ひろゆき ◆3SHRUNYAXA 投稿日：03/01/08 17:22 ID:rLfxQ17l
>>27
鋭いです。

73 名前：ひろゆき ◆3SHRUNYAXA 投稿日：03/01/08 17:27 ID:rLfxQ17l
＞ところで、IPが抜かれて何か今までと変わることってあるのでしょうか？
・今までより、サーバが重くなる。
・裁判所や警察からの照会があった場合にはIPを提出することがある。

**login:Penguin** · 03/01/09 01:04

>>292
>245
>働かざるもの食うべからず。
ということで、ひろゆきちゃんが保存（ｗ

**login:Penguin** · 03/01/09 01:21

>>417
一人釣れたようだぜにょろゆき

**login:Penguin** · 03/01/09 01:31

ひろゆきさまお疲れ様また会える日まで?

**IP記録実験** · 03/01/09 01:50

IP記録実験
http://qb.2ch.net/test/read.cgi/accuse/1042013605/

1 名前：ひろゆき ◆3SHRUNYAXA ＠どうやら管理人 ★ 投稿日：03/01/08 17:13 ID:???
そんなわけで、qbサーバでIPの記録実験をはじめましたー。

27 名前：心得をよく読みましょう投稿日：03/01/08 17:20 ID:yL/kYdMc
SETTING.TXT管轄でないということは全鯖導入を視野に、か？

38 名前：ひろゆき ◆3SHRUNYAXA 投稿日：03/01/08 17:22 ID:rLfxQ17l
>>27
鋭いです。

73 名前：ひろゆき ◆3SHRUNYAXA 投稿日：03/01/08 17:27 ID:rLfxQ17l
＞ところで、IPが抜かれて何か今までと変わることってあるのでしょうか？
・今までより、サーバが重くなる。
・裁判所や警察からの照会があった場合にはIPを提出することがある。

**login:Penguin** · 03/01/09 01:54

ｳｪｰ､ﾊｯﾊｯﾊ･･･

**login:Penguin** · 03/01/09 02:51

2ｃｈは全部ＩＰ表示すればよい

**login:Penguin** · 03/01/09 03:38

>97
2chやってるからヒッキーって責任転嫁が既に敗北者っぽ・・。

**山崎渉** · 03/01/15 11:31

（＾＾）

03/02/14 02:48

さげ。

**名無しさん** · 03/02/14 11:13

あげ

まだ · 03/03/06 10:59

原田さんの(odinじゃないやつ)http://www.ingrid.org/~harada/interface/

**login:Penguin** · 03/03/10 05:58

QDBMあげ

**login:Penguin** · 03/03/10 12:25

http://hoshizawa.no-ip.com/suzaku/index.html

これみたいにロボットとセットになったやつって他にないかな。

**login:Penguin** · 03/03/21 11:17

ﾆﾔﾆﾔ(･∀･)

: · 03/03/21 23:46

☆^～^★「探し物とくとくページ」☆^～^★
http://sagatoku.fc2web.com/
あなたの探し物きっとみつかります
ほぼ毎日　新着情報追加　毎日更新
新着情報メールでお知らせ

**login:Penguin** · 03/03/23 18:06

QDBMいいね。http://qdbm.sourceforge.net/
結構簡単に全文検索エンジン作れそう。

m · 03/03/23 18:08

★男はココを見るべし★女と金とサンプルムービー★
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
http://www.pink-angel.jp/betu/linkvp2/linkvp.html

**bloom** · 03/03/23 18:17

http://www.agemasukudasai.com/bloom/

**login:Penguin** · 03/03/25 00:52

>>40
perlの言語バインド希望

**山崎渉** · 03/04/17 12:12

（＾＾）

**山崎渉** · 03/04/20 06:08

　　 ∧＿∧
　　（　　＾＾）＜ぬるぽ（＾＾）

**login:Penguin** · 03/05/12 02:28

age

03/05/16 10:37

良スレあげ。

**login:Penguin** · 03/05/17 01:08

http://mnogosearch.org/doc/msearch-cjk.html
(　´_ゝ｀)フーン

**動画直リン** · 03/05/17 01:12

http://homepage.mac.com/hitomi18/

**login:Penguin** · 03/05/17 01:51

糞スレsage

**login:Penguin** · 03/05/18 21:04

>>43
Perl用APIあるみたいよ。

**動画直リン** · 03/05/18 21:12

http://homepage.mac.com/hitomi18/

**login:Penguin** · 03/05/18 22:35

おい、聞いてくれ！
リナックス板の自治厨が、一切規定に反していない
ディストリｽﾚを、通告もなく一方的に削除しやがった！
これは、そのディストリを発売した会社に対する
侮辱であり、1の言論の自由を侵害し
ユーザーに対する差別的行為だ！
まじで、どうにかしてくれ！
２ちゃんねるは、削除人が横暴すぎる！
革命を起こそう！正常化を図るのだ！
　　　　　　　　　　　　　　　　　　　　　　　　　

**login:Penguin** · 03/05/18 23:15

>>51
Ruby用APIも入ったみたいだね。
あとメジャーどころでサポートされていないのは
PHPとPythonくらいか。

**山崎渉** · 03/05/22 01:54

━―━―━―━―━―━―━―━―━[JR山崎駅（＾＾）]━―━―━―━―━―━―━―━―━―

**login:Penguin** · 03/05/25 14:46

保存age

**山崎渉** · 03/05/28 16:51

　　　　∧＿∧
ﾋﾟｭ.ｰ　(　　＾＾）＜これからも僕を応援して下さいね（＾＾）。
　　＝〔~∪￣￣〕
　　＝ ◎――◎ 　　　　　　　　　　　　　　　　　　　　　山崎渉

**山崎渉** · 03/07/15 11:33

　__∧＿∧_
　|（　　＾＾）|　＜寝るぽ（＾＾）
　|＼⌒⌒⌒＼
　＼ |⌒⌒⌒~|　　　　　　　　　山崎渉
　　 ~￣￣￣￣

**ぼるじょあ** ◆yBEncckFOU · 03/08/02 05:28

　　　　∧＿∧　 ∧＿∧
ﾋﾟｭ.ｰ　（　・３・） (　　＾＾）＜これからも僕たちを応援して下さいね（＾＾）。
　　＝〔~∪￣￣￣∪￣￣〕
　　＝ ◎――――――◎ 　　　　　　　　　　　　　　　　　　　　　山崎渉&ぼるじょあ

**login:Penguin** · 03/08/03 21:51

　（　・∀・）　　　|　|　ｶﾞｯ
　と　　　　）　　 |　|
　　Ｙ　/ノ　　　人
　　　 /　）　　 < 　>__Λ∩
　＿/し'　／／. Ｖ｀Д´）/
　（＿フ彡　　　　　　　/ 　←>>57-59

**login:Penguin** · 03/08/03 21:55

http://slashdot.jp/journal.pl?op=display&uid=64&id=145402

mnoGoSearchがChaSen使えることは知っていたけど、MeCabにも
対応してたのか...

**山崎渉** · 03/08/15 23:03

　　　 (⌒V⌒)
　　　│ ＾＾ │＜これからも僕を応援して下さいね（＾＾）。
　　⊂|　　　　|つ
　　　（＿）（＿）　　　　　　　　　　　　　　　　　　　　　　山崎パン

03/08/27 13:44

保守

保守 · 03/09/20 20:35

>>15
8/28 に GETA の微修正があったらすぃ

**login:Penguin** · 03/09/20 22:25

外国産検索ソフトを日本語化してるようなプロジェクトって無いの？

**login:Penguin** · 03/09/20 22:27

>>65
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/index.html

**login:Penguin** · 03/09/25 16:55

(･∀･)renice!

**login:Penguin** · 03/10/12 21:26

grep使え

**login:Penguin** · 03/10/20 12:05

Snatcher Full-text Search System
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher-ja.html

これ使ってる人いる？

**login:Penguin** · 03/10/23 14:26

んで、何でこのスレがLinux板なの？

03/10/23 14:53

>>70 ほかに適当な板が無かったから…
あと、ビジネスソフト板とウィンドウズ板にはすでにスレッドがあったけど、
そっちはパッケージソフトの話題がメインだったから。

**login:Penguin** · 03/10/23 21:52

>>69
それの後継が出たみたいよ。日本語には対応してないっぽいが
http://qdbm.sourceforge.net/cgi-bin/qfts.cgi

**login:Penguin** · 03/10/24 00:10

ソフトウエア板を知らないのか？

**login:Penguin** · 03/10/24 00:50

ソフト板に立てたら、オープンソースという言葉だけで変なのが沸いてくるよ。

**login:Penguin** · 03/10/24 03:35

なぜ Unix 板じゃないのか、と。

**login:Penguin** · 03/10/24 20:48

インデックス作るのが面倒なんでインデックス作らないソフトでのお勧めは何ですか？

**login:Penguin** · 03/10/24 21:03

grep

**login:Penguin** · 03/10/24 21:15

migemo

**login:Penguin** · 03/10/25 16:29

QDBM日本語化期待あげ

**login:Penguin** · 03/12/04 19:59

Snatcherの掲示板より

> とりあえず、QDBMの全文検索機能を日本語化しただけのものを作ってみました。
> 以下の場所に置いてあります。
>
> http://estraier.sourceforge.net/

全然気がつかなかったけど、キテタ━━(ﾟ∀ﾟ)━( ﾟ∀)━( 　ﾟ)━(　　)━(　　)━(ﾟ　)━(∀ﾟ )━(ﾟ∀ﾟ)━━!!!!!

**login:Penguin** · 03/12/17 15:15

もつかれさん

**login:Penguin** · 03/12/24 03:38

>80
人柱＆報告よろ。

**login:Penguin** · 04/01/03 20:35

うへ、QDBMもEstraierもリリース頻繁杉…
いや、まあいいことなのかもしれないけど、人柱になるのも大変だな。

**login:Penguin** · 04/01/04 00:41

とか言ってる間にもまた新しいバージョン出てるし。
ハングルの需要とかあんのか？

**login:Penguin** · 04/01/04 14:26

> ハングルの需要とかあんのか？

少なくとも日常的にハングルの読み書きをしている人たちには
需要はあるんじゃない？

**login:Penguin** · 04/01/04 18:08

mhtに対応してほしいところだな。

**login:Penguin** · 04/01/15 15:51

>>86
もう対応したらしい。早っ！

**login:Penguin** · 04/02/14 11:46

Snatcher掲示板がなくなっとる。＿|￣|◯

**login:Penguin** · 04/02/15 01:33

Estraierに移行するからSnatcherの保守は停止するって掲示版に書いてあった。
それはいいとして、代わりにできたMLが英語だけっぽいのがどうにもこうにも。

**login:Penguin** · 04/02/15 08:15

msearch使ってるひといる？
namazuより導入簡単だしカスタマイズも簡単だし。

**login:Penguin** · 04/02/15 13:11

>1 は、「全文検索」と「Index検索」を間違えてないか？
namazuは全文検索じゃないぞ。

スレタイ見たときに、「grepの話か？」と思ったんだが。

**login:Penguin** · 04/02/15 13:15

うわあ……サムイやつが出現したな……

**login:Penguin** · 04/02/15 13:41

>>91は日経Linuxのアレな記事を鵜呑みにしているアフォ。
平河町の書き換えも困ったものだ。

**login:Penguin** · 04/02/15 14:49

>>93
で、全文検索の正確な定義って何？
俺は当時あの記事みて考え込んだYO

**login:Penguin** · 04/02/15 20:28

全文検査君ソフト

**login:Penguin** · 04/02/16 01:48

記事のことは知らんけど、
ファイル名や更新日などから特定のファイルを見つけ出すのと違って、
ファイルの内容からキーワードを拾ってファイルを探すのが全文検索。
全文検索にとってINDEX検索とは、検索の一手段ということになる。
って感じか。

94 · 04/02/16 08:33

>>96
その定義だと「全文」の言葉を使うのはおかしいんでねーの？
むしろ「ファイル検索」というのがふさわしいと思う
あくまでテキストすべて（全文）を検索するから「全文検索」じゃないの？
だったらやっぱりINDEX検索だけだと全文検索の要件を満たさないと思うなー
NamazuがINDEX検索だけなのかどうかは分かりませんが

**login:Penguin** · 04/02/16 09:17

ナンセンスな方向に逝く悪寒...

**login:Penguin** · 04/02/16 09:24

インデックスを作るにあたって記事の全文を対象にしてるわけだから、全文検索と言えるでしょ。
やたら狭義に解釈してもしょうがない。

94 · 04/02/16 09:28

>>99
INDEX作成はNamazuだと自立語だけしか対象にしないんじゃない？
それって全文対象と本当に言えるのかね
例えば「萌え語INDEX」を作って検索したとしても全文検索？