X



トップページLinux
232コメント73KB
オープンソースの全文検索ソフト
0001はるお
垢版 |
02/11/01 03:28ID:5yfQC/Z+
オープンソースの全文検索エンジン全般を扱うスレッドです。

ソフトウェアによっては固有のスレッドが立てられている場合もあります。
それらについては適宜リンクを張ります。

Namazu http://www.namazu.org/
Glimpse http://webglimpse.org/
SWISH++ http://homepage.mac.com/pauljlucas/software/swish/
ht:/Dig http://www.htdig.org/

Comparing Open Source Indexers
http://www.infomotions.com/musings/opensource-indexers/

関連スレッド
全文検索ユーティリティ統一スレッド
http://pc.2ch.net/test/read.cgi/bsoft/1006680403/
 ビジネスソフト板のスレッドです。
 主に Windows のパッケージソフトについてのようです。

Microsoftの全文検索ソフト(Indexing Service等)
http://pc3.2ch.net/test/read.cgi/win/1035387243/
0076login:Penguin
垢版 |
03/10/24 20:48ID:6ND9YDuW
インデックス作るのが面倒なんでインデックス作らないソフトでのお勧めは何ですか?
0079login:Penguin
垢版 |
03/10/25 16:29ID:G0KBMFW/
QDBM日本語化期待あげ
0080login:Penguin
垢版 |
03/12/04 19:59ID:nE27Bo0X
Snatcherの掲示板より

> とりあえず、QDBMの全文検索機能を日本語化しただけのものを作ってみました。
> 以下の場所に置いてあります。
>
> http://estraier.sourceforge.net/

全然気がつかなかったけど、キテタ━━(゚∀゚)━( ゚∀)━(  ゚)━(  )━(  )━(゚  )━(∀゚ )━(゚∀゚)━━!!!!!
0081login:Penguin
垢版 |
03/12/17 15:15ID:jszsTTTz
もつかれさん
0082login:Penguin
垢版 |
03/12/24 03:38ID:OxnB4HEQ
>80
人柱&報告よろ。
0083login:Penguin
垢版 |
04/01/03 20:35ID:8l191Pw0
うへ、QDBMもEstraierもリリース頻繁杉…
いや、まあいいことなのかもしれないけど、人柱になるのも大変だな。
0084login:Penguin
垢版 |
04/01/04 00:41ID:IhVjMv+b
とか言ってる間にもまた新しいバージョン出てるし。
ハングルの需要とかあんのか?
0085login:Penguin
垢版 |
04/01/04 14:26ID:cMFZ5pqM
> ハングルの需要とかあんのか?

少なくとも日常的にハングルの読み書きをしている人たちには
需要はあるんじゃない?
0086login:Penguin
垢版 |
04/01/04 18:08ID:YeVwrTI/
mhtに対応してほしいところだな。
0087login:Penguin
垢版 |
04/01/15 15:51ID:4hNsgU5V
>>86
もう対応したらしい。早っ!
0088login:Penguin
垢版 |
04/02/14 11:46ID:ZilSN3qC
Snatcher掲示板がなくなっとる。_| ̄|◯
0089login:Penguin
垢版 |
04/02/15 01:33ID:0Iqfu11q
Estraierに移行するからSnatcherの保守は停止するって掲示版に書いてあった。
それはいいとして、代わりにできたMLが英語だけっぽいのがどうにもこうにも。
0090login:Penguin
垢版 |
04/02/15 08:15ID:z0/wDnUA
msearch使ってるひといる?
namazuより導入簡単だしカスタマイズも簡単だし。
0091login:Penguin
垢版 |
04/02/15 13:11ID:z+Cgu3BW
>1 は、「全文検索」と「Index検索」を間違えてないか?
namazuは全文検索じゃないぞ。

スレタイ見たときに、「grepの話か?」と思ったんだが。
0092login:Penguin
垢版 |
04/02/15 13:15ID:NZlEcpUW
うわあ……サムイやつが出現したな……
0093login:Penguin
垢版 |
04/02/15 13:41ID:yQb5nWSx
>>91は日経Linuxのアレな記事を鵜呑みにしているアフォ。
平河町の書き換えも困ったものだ。
0094login:Penguin
垢版 |
04/02/15 14:49ID:QIqnUolY
>>93
で、全文検索の正確な定義って何?
俺は当時あの記事みて考え込んだYO
0095login:Penguin
垢版 |
04/02/15 20:28ID:Ww9oGBM3
全文検査君ソフト
0096login:Penguin
垢版 |
04/02/16 01:48ID:byAKcKCV
記事のことは知らんけど、
ファイル名や更新日などから特定のファイルを見つけ出すのと違って、
ファイルの内容からキーワードを拾ってファイルを探すのが全文検索。
全文検索にとってINDEX検索とは、検索の一手段ということになる。
って感じか。
009794
垢版 |
04/02/16 08:33ID:jsLgsjIe
>>96
その定義だと「全文」の言葉を使うのはおかしいんでねーの?
むしろ「ファイル検索」というのがふさわしいと思う
あくまでテキストすべて(全文)を検索するから「全文検索」じゃないの?
だったらやっぱりINDEX検索だけだと全文検索の要件を満たさないと思うなー
NamazuがINDEX検索だけなのかどうかは分かりませんが
0098login:Penguin
垢版 |
04/02/16 09:17ID:/jHxVGIA
ナンセンスな方向に逝く悪寒...
0099login:Penguin
垢版 |
04/02/16 09:24ID:R6980Jy2
インデックスを作るにあたって記事の全文を対象にしてるわけだから、全文検索と言えるでしょ。
やたら狭義に解釈してもしょうがない。
010094
垢版 |
04/02/16 09:28ID:jsLgsjIe
>>99
INDEX作成はNamazuだと自立語だけしか対象にしないんじゃない?
それって全文対象と本当に言えるのかね
例えば「萌え語INDEX」を作って検索したとしても全文検索?
0101login:Penguin
垢版 |
04/02/16 10:07ID:fwCweVDc
>>100よくわからんが grep なら全文検索なのか?namazuは中身を区切ってindex作って検索するから全文検索ではないと?
0102login:Penguin
垢版 |
04/02/16 11:02ID:oD1epa/W
語の境界を無視するような検索がしたいときに悲しいとか、そういう話かな…
Namazu は二語のフレイズ検索には対応してて、三語以上は誤認識が入るってことみたいだけど。
010394
垢版 |
04/02/16 11:10ID:jsLgsjIe
>>101
とりあえずgrepは全文検索だよね。指定したファイルについては
全文をだーっとナメてるわけだから
だけどそれだと検索時間がかかるから、いわゆる全文検索ソフトは色々工夫をしてる
そのひとつがINDEX作成なわけですよね
で、私が思ったのは、その工夫によって「全文をナメる」のと違う結果(検索洩れとか)
が出るようなのは「全文検索ソフト」とは言えないんではないかってことです
先に挙げた「萌え語INDEX」は極端な例に見えるかもしれないけど
俺としては「自立語INDEX」(かどうかは知らんですが)も「全文をナメるのとは違う」
って意味では同じだと思う

>>102
フレイズ検索云々を意識しなければならない点で変な気がします
もちろん実用的には問題ないと思っていますし、Namazuは良いソフトとも思いますが
grepで検索するときって、フレイズ検索とか意識しませんよね?


0104login:Penguin
垢版 |
04/02/16 11:16ID:fLalTCNO
>フレイズ検索云々を意識しなければならない点で変な気がします
日本語で分かち書き処理しないでどうやって処理するの?
010594
垢版 |
04/02/16 11:29ID:jsLgsjIe
>>104
分かち書きは全文検索に必須ではないですよ
N-gramとか他にも方法はあるかと

0106login:Penguin
垢版 |
04/02/16 12:34ID:/jHxVGIA
それを検索に使うと効率が悪いように思えるんだが、どうよ?
ttp://www.ya.sakura.ne.jp/~moro/resources/ngram/
0107login:Penguin
垢版 |
04/02/16 12:46ID:+Ig7jOcp
N-gramって海外ではむしろ言語及び文字セットの判別の方で
よく使われているような気がする。mnoGoSearchのところの
mguesserとか。
010894
垢版 |
04/02/16 12:50ID:jsLgsjIe
>>106
N-gramだとノイズが増えるのは確かだよ。だけどそのリンク先にあるように検索洩れが少ない利点がある
どっちを使うかは用途次第で一慨に効率が良いとか悪いとかは言えないと思う
だけど今問題にしてるのはそういうことではなくて
検索洩れが生じるような検索方式は全文検索ではない、というのは結構的を射ている指摘じゃないかってことです
もちろん全文検索でなくても有用ならそれで言い訳だし、そもそも全文検索の定義が曖昧なら
どっちでも良いってことだろうけどね
010994
垢版 |
04/02/16 12:51ID:jsLgsjIe
「言い訳」→「良い訳」です。スマソ
011094
垢版 |
04/02/16 12:55ID:jsLgsjIe
>>109
特許検索とか、洩れが許されない用途での全文検索だとN-gramも結構あると思うよ
何にしても海外とはテキストの性質が全然違うので用語にしても同じ扱いをするのはマズいのかもね

0111login:Penguin
垢版 |
04/02/16 15:10ID:zuK7uokm
>>94氏が指摘している対立点は、全文を対象としているかいないか、ではなく、
あらゆる検索パターンを検索できるかできないかだと思う。

「全文全パターン検索」ではないと言いたいんでしょ。
011294
垢版 |
04/02/16 15:57ID:jsLgsjIe
>>111
うーん。それよりも「なぜ全パターン検索できないの」→「全文を対象にした検索じゃないからでしょ」
という感じでしょうか。つまり検索対象がfull textならば、全パターン検索できて当然
できない理由はINDEXから情報が欠落しているから、つまりfull text searchではない、という考え方です
結局は「全文検索」って何よ?という定義の問題になるわけですが…
0113login:Penguin
垢版 |
04/02/16 20:37ID:IioubxCd
そんなに全文検索がいいなら おれが書いてやるよ。
#! /bin/sh
grep $1 /
0114login:Penguin
垢版 |
04/02/16 20:42ID:fRbfYEJy
>>113
乙!
使ってみたYO!

$ ./search.sh gorua
grep: /: Is a directory
0115login:Penguin
垢版 |
04/02/16 20:52ID:feCC2G5u
文書の編者が意識的に選んだキーワードを頼りにして検索する「キーワード検索」との対比で、
対象文書のテキスト全体を操作して抽出した語やフレーズを頼りに検索する手法を総称して
「全文検索」と呼んでいるのだと思われ。
とすると、必ずしも再現率が100%である必要はないんじゃない?
0116login:Penguin
垢版 |
04/02/16 22:06ID:VugyC+Al
「全文検索」の「全文」は、grepが対象とするところの、いわゆるプレーンテキスト
の「全文」とは、抽象度が異なるものでしょう。
011894
垢版 |
04/02/16 23:55ID:jsLgsjIe
>>115
キーワード検索ってそういう意味なのかな
単に「キーワードを使った検索」じゃなくてですか?
初めて聞いたんで、そういう用例のWeb文書とか示してくれると嬉しい

>>116
説明が抽象的すぎて分からん
抽象度がどういう風に異なるのか説明してけれ
0119login:Penguin
垢版 |
04/02/17 00:08ID:h7B5N+7I
まぁ、定義は馬場さんのページに書いてあるのが
わかりやすいんでないの?

おれは辞書を使わない,わかち書きしないタイプの
インデクス作成型検索エンジンを使ってるけど。
0120login:Penguin
垢版 |
04/02/17 00:11ID:Xzw7cMrK
「全文検索」を細分化して概念化しておくことには意味はあるだろうね。

「完全全文検索」とかさ。
012194
垢版 |
04/02/17 01:37ID:PO7wP2QS
>>119
馬場さんのページってこれですよね
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
私の見落としかもしれませんが、ここには全文検索システムの定義は
無いように思います。定義部分を教えてくれませんか

ちなみに「全文検索とは」でぐぐったらこんなのがありました
「漏れなく」なんてあるから私の見方に近いかも
http://www.rosei.or.jp/ISearch/help/user/japanese/is-us02/is-us007.htm

>>115さんの言うキーワード検索の用例もありました
つーか一般的な用法みたいですね失礼しました
http://www.ftsanet.com/dbtokyo02/Db02.htm
http://magazine.fujitsu.com/vol48-3/3-2.html
http://panasonic.biz/it/patlics/faq_1.html

つまり全文検索=フリーワード検索ってことでFA?
ん?それってやっぱりINDEX検索単独じゃ全文検索じゃないってことか?

詳しい方、スパっと疑問を解決してくだされ
0122login:Penguin
垢版 |
04/02/17 21:56ID:fFyt8P5S
例えば「走る」について知りたい時は、「走った」とか「駆ける」といった単語を含む文書も
ヒットしてほしいわけです(そうではない場合もあるでしょうが)。
そのために、形態素解析、ステミング、シソーラス展開といった手法を応用している全文検索
システムも多くあります。
それらはもはやパターンの厳密な一致を探すのとは違う領域にある技術ですよね。
どっちが上とか下とか言うわけではないですが、、、
012394
垢版 |
04/02/17 23:42ID:PO7wP2QS
>>122
そういった要望がありそれを実現するための技術があるのは分かります
で、その技術で検索幅が広がるのはいいんです。ブレるのは検索パターンの方であって検索対象はfull textですから
ただ、ここで問題にしてるのは、そういった工夫によって検索漏れが生じるようなシステムが「全文検索」の名に値するかってこと
しかも検索漏れの原因が「INDEXに検索パターンがのってない」ってことにあるなら
「それって検索対象がfull textじゃないじゃん」つまり「全文検索ではない」と思う人がいてもおかしくない

まぁ、ここ数日で「全文検索」という用語がかなり曖昧に使われているのが分かって来たんで
厳密性を求めるのは野暮ってもんでしょう。そして日経Linuxが嘲笑されたのは、まさしくこの「野暮」が原因でしょうな

実は私もあの記事を読んで最初カチンと来た。馬鹿じゃねーのとも思った
だけど上で書いたように「全文検索」をgrepと同様、検索漏れのないシステムと考える人もいるとした場合、
野暮をおしてああ書くのは親切というか、良心的なんじゃないかと思い返したわけです
012494
垢版 |
04/02/18 00:04ID:99PKKBxR
でさ、>>122氏が言うように私の言う狭義の全文検索システムであろうがなかろうがどっちでもいいわけです
実用上は、ユーザーが特性を理解して、目的に合わせて使えば良いわけです。Namazuが有用ってことにも異義はないし
でもだったらさ「全文検索システム」と言わなくてもいいわけじゃん。「語句検索システム」とか誤解のない言い方はあると思う
(この用語はあくまで例で最適とも誤解がないとも言いませんが)
「全文検索」という用語には、そんなに魅力があるんすかねぇ
0125login:Penguin
垢版 |
04/02/18 10:13ID:jYINYOWL
閑話提供
ttp://www.jepa.or.jp/ken/Ken_00.html
0126login:Penguin
垢版 |
04/02/18 17:05ID:k8UVZXaq
繰り返しになりますが、全文検索は、
「属性やキーワードを改めて付与するなどの手間をかけずに、機械的にテキスト全体をスキャンし、
ユーザが所望の文書を捜し出す技術」
の総称なわけです。
grepの文字列探索は、全文検索を実現するにあたって実装方法の一つであることは確かです。
もちろん、予め文字列から単語を切り出してインデックスを作成する手法も、実装方法の一つです。
インデックス型の弱点として、単語の切り出し方がユーザの想定するものと違う場合に期待通りに
検索できないということがありますが、それは速度と精度のトレードオフを考えて実装上の選択を
した結果に過ぎません。つまり、「全文検索」は目的であって、実装については言及していないという
わけです。
そもそも、全文検索という語に定着した意味や用法が、自分の想定したニュアンスと違うから
といって、「お前ら間違ってるよ」的な事を言っても仕方のないことです。
012794
垢版 |
04/02/19 09:25ID:tKKtqfPY
>>126
繰り返しとか言ってるけど、そういう定義をまとめてくれたのはこのスレでは初めて聞いたよ
定義してくれたのは感謝するけど、一応
つまりあなたの定義だと「萌え語辞書」を使った「萌え語INDEX」を使ったテキスト全体をスキャンする検索システムは
何の注釈もなく全文検索システムと言っていいわけですね。何か一般に想定する全文検索システムと違う気がするけど、いいんですか?
それともこういう仕組みは「属性を改めて付与」することになるので違うってこと?
だったら何で「自立語」という属性は付与していいの?

>>「お前ら間違ってるよ」的な事を言っても仕方のないことです。

何だかんだ言ってるけど、私も全文検索システムの解釈にブレがあるのは理解してるわけよ
だったらさ誤解がないように、より厳密な用語を使って行こうという気はないの?
結局、誤解して困るのはユーザーなんだし
012894
垢版 |
04/02/19 11:20ID:tKKtqfPY
ああ勘違いしてた。Namazuでは付属語を捨てたりはしてないのか
「自立語」というのは「形態素」におきかえてくだされ。それでも文意は変わらんと思う
0129126
垢版 |
04/02/19 13:13ID:McDu8NC5
> 何だかんだ言ってるけど、私も全文検索システムの解釈にブレがあるのは理解してるわけよ
> だったらさ誤解がないように、より厳密な用語を使って行こうという気はないの?
> 結局、誤解して困るのはユーザーなんだし

例えるなら「スポーツカー」に厳密な定義ができないように、「全文検索」にも厳密な定義は
できないと思います。乗る人がスポーティだと思ってくれるような車はスポーツカーでいいと
思います。同じように、ユーザが対象文書の全体をスキャンしているような気分で検索できる
システムは全文検索システムと呼んでいいと思います。
もちろん、あなたの感じ方と私の感じ方は違ってあたりまえですから、私があなたの定義を
否定したりはしませんが。
0130login:Penguin
垢版 |
04/02/19 13:25ID:wXxKmQwW
なんか俺定義な話になっているような気が…
013194
垢版 |
04/02/19 15:10ID:G2RVB1RM
>>129
>同じように、ユーザが対象文書の全体をスキャンしているような気分で検索できる
>システムは全文検索システムと呼んでいいと思います。

やっぱそんなぐらいの曖昧な用語だってことですかね。「気分で」という表現いいなw
>>130さんの言うように俺定義の話を続けてもアレなんでこの辺で私は終了にしますわ
0132login:Penguin
垢版 |
04/02/21 23:58ID:UOmOpP9E
形態素解析方式の全文検索エンジンは実用にならないってのは一般的な見解ですか?
俺的には、シビアなユースケース(特許検索とか)でなければ十分使えるというか、
大抵のケースではn-gram方式より使いやすいと思うのですが。
0133login:Penguin
垢版 |
04/02/22 10:16ID:xRMgLWY5
#! /bin/sh

find / -print | xargs grep $1
0134login:Penguin
垢版 |
04/02/22 11:48ID:/tZPZccw
富豪的というか大富豪だな(w
0138login:Penguin
垢版 |
04/12/16 11:44:45ID:y/5+X1zz
N-gram をつかったフリーの全文検索ソフトはありませんか?
検索対象のファイル数は数千ファイルです。
0144login:Penguin
垢版 |
05/03/09 23:12:58ID:wATt7zX4
Rast 0.0.0 released
0145login:Penguin
垢版 |
05/03/10 10:03:15ID:dSBxBqCX
朱雀、v2 リリース
ttp://hoshizawa.no-ip.com/suzaku/
0149login:Penguin
垢版 |
2005/04/09(土) 10:38:27ID:+mu7EK3e
全文じゃないのですが、イメージ検索できるエンジンってないでか?
相当ググったんですが・・・やはりないんですかね?
0152login:Penguin
垢版 |
2005/04/14(木) 16:05:44ID:u3OwVqgq
4 名前:仕様書無しさん[] 投稿者:2005/04/12(火) 00:17:42
  blogWatcher
  http://www.lr.pi.titech.ac.jp/blogwatcher/blog/
  が検索エンジンを情報処理振興事業協会(IPA)が実施した
  「独創的情報技術育成事業」の研究成果であるGETAから
  オープンソースで開発されているLuceneに変更したのは
  GETAが税金を無駄にしただけの糞で鈍間で役立たずの
  ポンコツだと言うことですか?
0153login:Penguin
垢版 |
2005/04/20(水) 18:15:48ID:lbPp4dex
心無いこと言うなよ。
0154login:Penguin
垢版 |
2005/05/06(金) 08:37:21ID:lI2CCtV2
Namazuだと、全然文字が引っ掛からない(INDEX作成にはkakashi, chasen,
どちらも使ってみました)のです…
INDEX自体はまともに作成されてるようなのですが、
そもそも、適切に分ち書きできてないみたいです。

何か設定を変更することで上手く行くようになりますでしょうか。
0155login:Penguin
垢版 |
2005/05/06(金) 10:31:42ID:AlEjD5fH
mknmz -L jaでインデックス作るとどうよ。
0156login:Penguin
垢版 |
2005/05/07(土) 10:44:20ID:WnWxEbDH
>>154 LANGUAGE とか LC_ALL の環境変数が ja になってないと
日本語keyword 正しく生成しないんだが、その話しか?
0157login:Penguin
垢版 |
2005/06/19(日) 18:11:43ID:8H2hS4Uc
GETAって説明見るかぎりではよさげだけど
0158login:Penguin
垢版 |
2005/07/01(金) 11:04:42ID:yhjcuNWo
>>156
知識が古い
0160login:Penguin
垢版 |
2005/07/01(金) 12:15:01ID:yhjcuNWo
>>159
> そうなの?今はどうなの?

…… (あきれている)
0161login:Penguin
垢版 |
2005/07/01(金) 20:09:16ID:5zVf7Ksr
たしかに煽りだけのアホにはあきれる罠
0162login:Penguin
垢版 |
2005/07/03(日) 22:55:14ID:z6TH4X8n
>>154
あるねぇ、あれは酷い。
まぁ、FAQには書いてあったからいいけど。

さっさと捨てるべきだとおもったよ。
0164login:Penguin
垢版 |
2005/10/20(木) 15:33:40ID:gTZ54A3C
gdestraierの使用レポきぼんぬ。
0165login:Penguin
垢版 |
2005/11/07(月) 22:23:25ID:1VrgDytv
luceneってむちゃくちゃよくね?
小規模なら、何も考えずに使えるし、
日本語もそのまま通る。

俺何か見逃してるかなぁ。
0166login:Penguin
垢版 |
2005/11/08(火) 10:13:48ID:pE5I1Nnu
>>165
昔、日本語が使用できなかったとか、Javaベースだからとかじゃない?

使用することに限ればnamazuやHyper Estraierでもいいと思うけど。
0167login:Penguin
垢版 |
2005/12/03(土) 04:02:20ID:/hc4pm5p
>>165
小規模ならいいけど、大規模(10万件以上)だとめちゃくちゃ遅い
0168login:Penguin
垢版 |
2005/12/03(土) 13:05:12ID:SsJtQiWj
>>167 何か設定やらチューンやらできないの?
0170login:Penguin
垢版 |
2005/12/05(月) 09:54:08ID:gHetzDlJ
Nutchってその辺どうしてるんだろ?
0171login:Penguin
垢版 |
2006/01/08(日) 13:08:32ID:/SfDDqW0
なまずがもうすぐバージョンアップするって本当?
0173login:Penguin
垢版 |
2006/02/24(金) 12:47:39ID:VEoUF2uq
>>166
LuceneはC#へのポーティングがあるな。
0174login:Penguin
垢版 |
2006/12/19(火) 08:51:48ID:H/fR0rQV
で、世の中 Google Desktop Search とか Spotlight が当たり前になってる今、
みなさん最近は何使ってんの?
0175名無しさん@お腹いっぱい
垢版 |
2006/12/19(火) 10:12:39ID:9M7VxUKD
>>174
> が当たり前になってる今
なってねーよ。
0176age
垢版 |
2007/01/16(火) 23:04:15ID:sCPN49tb
ご存知の方おられたら教えてください。
Nutchは、AnalyzerにデフォルトでNutchAnalyzerを使っていて、
日本語はインデックス作成時に(クエリー処理時も)1文字ずつに
分解されてしまいます。そこで、bigramでインデックスを張れる
CJKAnalyzerを利用しようかと思ったのですが、nutchのソース修正が
必要でしょうか?
レスを投稿する


ニューススポーツなんでも実況