オープンソースの全文検索ソフト

**login:Penguin** · 04/02/16 01:48

記事のことは知らんけど、
ファイル名や更新日などから特定のファイルを見つけ出すのと違って、
ファイルの内容からキーワードを拾ってファイルを探すのが全文検索。
全文検索にとってINDEX検索とは、検索の一手段ということになる。
って感じか。

94 · 04/02/16 08:33

>>96
その定義だと「全文」の言葉を使うのはおかしいんでねーの？
むしろ「ファイル検索」というのがふさわしいと思う
あくまでテキストすべて（全文）を検索するから「全文検索」じゃないの？
だったらやっぱりINDEX検索だけだと全文検索の要件を満たさないと思うなー
NamazuがINDEX検索だけなのかどうかは分かりませんが

**login:Penguin** · 04/02/16 09:17

ナンセンスな方向に逝く悪寒...

**login:Penguin** · 04/02/16 09:24

インデックスを作るにあたって記事の全文を対象にしてるわけだから、全文検索と言えるでしょ。
やたら狭義に解釈してもしょうがない。

94 · 04/02/16 09:28

>>99
INDEX作成はNamazuだと自立語だけしか対象にしないんじゃない？
それって全文対象と本当に言えるのかね
例えば「萌え語INDEX」を作って検索したとしても全文検索？

**login:Penguin** · 04/02/16 10:07

>>100よくわからんが grep なら全文検索なのか?namazuは中身を区切ってindex作って検索するから全文検索ではないと?

**login:Penguin** · 04/02/16 11:02

語の境界を無視するような検索がしたいときに悲しいとか、そういう話かな…
Namazu は二語のフレイズ検索には対応してて、三語以上は誤認識が入るってことみたいだけど。

94 · 04/02/16 11:10

>>101
とりあえずgrepは全文検索だよね。指定したファイルについては
全文をだーっとナメてるわけだから
だけどそれだと検索時間がかかるから、いわゆる全文検索ソフトは色々工夫をしてる
そのひとつがINDEX作成なわけですよね
で、私が思ったのは、その工夫によって「全文をナメる」のと違う結果（検索洩れとか）
が出るようなのは「全文検索ソフト」とは言えないんではないかってことです
先に挙げた「萌え語INDEX」は極端な例に見えるかもしれないけど
俺としては「自立語INDEX」（かどうかは知らんですが）も「全文をナメるのとは違う」
って意味では同じだと思う

>>102
フレイズ検索云々を意識しなければならない点で変な気がします
もちろん実用的には問題ないと思っていますし、Namazuは良いソフトとも思いますが
grepで検索するときって、フレイズ検索とか意識しませんよね？

**login:Penguin** · 04/02/16 11:16

>フレイズ検索云々を意識しなければならない点で変な気がします
日本語で分かち書き処理しないでどうやって処理するの？

94 · 04/02/16 11:29

>>104
分かち書きは全文検索に必須ではないですよ
N-gramとか他にも方法はあるかと

**login:Penguin** · 04/02/16 12:34

それを検索に使うと効率が悪いように思えるんだが、どうよ？
ttp://www.ya.sakura.ne.jp/~moro/resources/ngram/

**login:Penguin** · 04/02/16 12:46

N-gramって海外ではむしろ言語及び文字セットの判別の方で
よく使われているような気がする。mnoGoSearchのところの
mguesserとか。

94 · 04/02/16 12:50

>>106
N-gramだとノイズが増えるのは確かだよ。だけどそのリンク先にあるように検索洩れが少ない利点がある
どっちを使うかは用途次第で一慨に効率が良いとか悪いとかは言えないと思う
だけど今問題にしてるのはそういうことではなくて
検索洩れが生じるような検索方式は全文検索ではない、というのは結構的を射ている指摘じゃないかってことです
もちろん全文検索でなくても有用ならそれで言い訳だし、そもそも全文検索の定義が曖昧なら
どっちでも良いってことだろうけどね

94 · 04/02/16 12:51

「言い訳」→「良い訳」です。スマソ

94 · 04/02/16 12:55

>>109
特許検索とか、洩れが許されない用途での全文検索だとN-gramも結構あると思うよ
何にしても海外とはテキストの性質が全然違うので用語にしても同じ扱いをするのはマズいのかもね

**login:Penguin** · 04/02/16 15:10

>>94氏が指摘している対立点は、全文を対象としているかいないか、ではなく、
あらゆる検索パターンを検索できるかできないかだと思う。

「全文全パターン検索」ではないと言いたいんでしょ。

94 · 04/02/16 15:57

>>111
うーん。それよりも「なぜ全パターン検索できないの」→「全文を対象にした検索じゃないからでしょ」
という感じでしょうか。つまり検索対象がfull textならば、全パターン検索できて当然
できない理由はINDEXから情報が欠落しているから、つまりfull text searchではない、という考え方です
結局は「全文検索」って何よ？という定義の問題になるわけですが…

**login:Penguin** · 04/02/16 20:37

そんなに全文検索がいいならおれが書いてやるよ。
#! /bin/sh
grep $1 /

**login:Penguin** · 04/02/16 20:42

>>113
乙!
使ってみたYO!

$ ./search.sh gorua
grep: /: Is a directory

**login:Penguin** · 04/02/16 20:52

文書の編者が意識的に選んだキーワードを頼りにして検索する「キーワード検索」との対比で、
対象文書のテキスト全体を操作して抽出した語やフレーズを頼りに検索する手法を総称して
「全文検索」と呼んでいるのだと思われ。
とすると、必ずしも再現率が100%である必要はないんじゃない？

**login:Penguin** · 04/02/16 22:06

「全文検索」の「全文」は、grepが対象とするところの、いわゆるプレーンテキスト
の「全文」とは、抽象度が異なるものでしょう。

**login:Penguin** · 04/02/16 22:13

>>113-114
warata

94 · 04/02/16 23:55

>>115
キーワード検索ってそういう意味なのかな
単に「キーワードを使った検索」じゃなくてですか？
初めて聞いたんで、そういう用例のWeb文書とか示してくれると嬉しい

>>116
説明が抽象的すぎて分からん
抽象度がどういう風に異なるのか説明してけれ

**login:Penguin** · 04/02/17 00:08

まぁ、定義は馬場さんのページに書いてあるのが
わかりやすいんでないの？

おれは辞書を使わない，わかち書きしないタイプの
インデクス作成型検索エンジンを使ってるけど。

**login:Penguin** · 04/02/17 00:11

「全文検索」を細分化して概念化しておくことには意味はあるだろうね。

「完全全文検索」とかさ。

94 · 04/02/17 01:37

>>119
馬場さんのページってこれですよね
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
私の見落としかもしれませんが、ここには全文検索システムの定義は
無いように思います。定義部分を教えてくれませんか

ちなみに「全文検索とは」でぐぐったらこんなのがありました
「漏れなく」なんてあるから私の見方に近いかも
http://www.rosei.or.jp/ISearch/help/user/japanese/is-us02/is-us007.htm

>>115さんの言うキーワード検索の用例もありました
つーか一般的な用法みたいですね失礼しました
http://www.ftsanet.com/dbtokyo02/Db02.htm
http://magazine.fujitsu.com/vol48-3/3-2.html
http://panasonic.biz/it/patlics/faq_1.html

つまり全文検索＝フリーワード検索ってことでFA？
ん？それってやっぱりINDEX検索単独じゃ全文検索じゃないってことか？

詳しい方、スパっと疑問を解決してくだされ

**login:Penguin** · 04/02/17 21:56

例えば「走る」について知りたい時は、「走った」とか「駆ける」といった単語を含む文書も
ヒットしてほしいわけです（そうではない場合もあるでしょうが）。
そのために、形態素解析、ステミング、シソーラス展開といった手法を応用している全文検索
システムも多くあります。
それらはもはやパターンの厳密な一致を探すのとは違う領域にある技術ですよね。
どっちが上とか下とか言うわけではないですが、、、

94 · 04/02/17 23:42

>>122
そういった要望がありそれを実現するための技術があるのは分かります
で、その技術で検索幅が広がるのはいいんです。ブレるのは検索パターンの方であって検索対象はfull textですから
ただ、ここで問題にしてるのは、そういった工夫によって検索漏れが生じるようなシステムが「全文検索」の名に値するかってこと
しかも検索漏れの原因が「INDEXに検索パターンがのってない」ってことにあるなら
「それって検索対象がfull textじゃないじゃん」つまり「全文検索ではない」と思う人がいてもおかしくない

まぁ、ここ数日で「全文検索」という用語がかなり曖昧に使われているのが分かって来たんで
厳密性を求めるのは野暮ってもんでしょう。そして日経Linuxが嘲笑されたのは、まさしくこの「野暮」が原因でしょうな

実は私もあの記事を読んで最初カチンと来た。馬鹿じゃねーのとも思った
だけど上で書いたように「全文検索」をgrepと同様、検索漏れのないシステムと考える人もいるとした場合、
野暮をおしてああ書くのは親切というか、良心的なんじゃないかと思い返したわけです

94 · 04/02/18 00:04

でさ、>>122氏が言うように私の言う狭義の全文検索システムであろうがなかろうがどっちでもいいわけです
実用上は、ユーザーが特性を理解して、目的に合わせて使えば良いわけです。Namazuが有用ってことにも異義はないし
でもだったらさ「全文検索システム」と言わなくてもいいわけじゃん。「語句検索システム」とか誤解のない言い方はあると思う
（この用語はあくまで例で最適とも誤解がないとも言いませんが）
「全文検索」という用語には、そんなに魅力があるんすかねぇ

**login:Penguin** · 04/02/18 10:13

閑話提供
ttp://www.jepa.or.jp/ken/Ken_00.html

**login:Penguin** · 04/02/18 17:05

繰り返しになりますが、全文検索は、
「属性やキーワードを改めて付与するなどの手間をかけずに、機械的にテキスト全体をスキャンし、
ユーザが所望の文書を捜し出す技術」
の総称なわけです。
grepの文字列探索は、全文検索を実現するにあたって実装方法の一つであることは確かです。
もちろん、予め文字列から単語を切り出してインデックスを作成する手法も、実装方法の一つです。
インデックス型の弱点として、単語の切り出し方がユーザの想定するものと違う場合に期待通りに
検索できないということがありますが、それは速度と精度のトレードオフを考えて実装上の選択を
した結果に過ぎません。つまり、「全文検索」は目的であって、実装については言及していないという
わけです。
そもそも、全文検索という語に定着した意味や用法が、自分の想定したニュアンスと違うから
といって、「お前ら間違ってるよ」的な事を言っても仕方のないことです。

94 · 04/02/19 09:25

>>126
繰り返しとか言ってるけど、そういう定義をまとめてくれたのはこのスレでは初めて聞いたよ
定義してくれたのは感謝するけど、一応
つまりあなたの定義だと「萌え語辞書」を使った「萌え語INDEX」を使ったテキスト全体をスキャンする検索システムは
何の注釈もなく全文検索システムと言っていいわけですね。何か一般に想定する全文検索システムと違う気がするけど、いいんですか？
それともこういう仕組みは「属性を改めて付与」することになるので違うってこと？
だったら何で「自立語」という属性は付与していいの？

>>「お前ら間違ってるよ」的な事を言っても仕方のないことです。

何だかんだ言ってるけど、私も全文検索システムの解釈にブレがあるのは理解してるわけよ
だったらさ誤解がないように、より厳密な用語を使って行こうという気はないの？
結局、誤解して困るのはユーザーなんだし

94 · 04/02/19 11:20

ああ勘違いしてた。Namazuでは付属語を捨てたりはしてないのか
「自立語」というのは「形態素」におきかえてくだされ。それでも文意は変わらんと思う

**126** · 04/02/19 13:13

> 何だかんだ言ってるけど、私も全文検索システムの解釈にブレがあるのは理解してるわけよ
> だったらさ誤解がないように、より厳密な用語を使って行こうという気はないの？
> 結局、誤解して困るのはユーザーなんだし

例えるなら「スポーツカー」に厳密な定義ができないように、「全文検索」にも厳密な定義は
できないと思います。乗る人がスポーティだと思ってくれるような車はスポーツカーでいいと
思います。同じように、ユーザが対象文書の全体をスキャンしているような気分で検索できる
システムは全文検索システムと呼んでいいと思います。
もちろん、あなたの感じ方と私の感じ方は違ってあたりまえですから、私があなたの定義を
否定したりはしませんが。

**login:Penguin** · 04/02/19 13:25

なんか俺定義な話になっているような気が…

94 · 04/02/19 15:10

>>129
>同じように、ユーザが対象文書の全体をスキャンしているような気分で検索できる
>システムは全文検索システムと呼んでいいと思います。

やっぱそんなぐらいの曖昧な用語だってことですかね。「気分で」という表現いいなw
>>130さんの言うように俺定義の話を続けてもアレなんでこの辺で私は終了にしますわ

**login:Penguin** · 04/02/21 23:58

形態素解析方式の全文検索エンジンは実用にならないってのは一般的な見解ですか？
俺的には、シビアなユースケース（特許検索とか）でなければ十分使えるというか、
大抵のケースではn-gram方式より使いやすいと思うのですが。

**login:Penguin** · 04/02/22 10:16

#! /bin/sh

find / -print | xargs grep $1

**login:Penguin** · 04/02/22 11:48

富豪的というか大富豪だな(w

**login:Penguin** · 04/02/22 12:33

>>133 なんで find なの? 普通は grep -r では?

**login:Penguin** · 04/02/22 13:35

>>135
それはGNU grep 2.3以降の機能。

**login:Penguin** · 04/07/17 16:40

Freya を DeleGate の中の人が改造してる模様。
http://www.delegate.org/freyasx/index-ja.shtml

**login:Penguin** · 04/12/16 11:44:45

N-gram をつかったフリーの全文検索ソフトはありませんか？
検索対象のファイル数は数千ファイルです。

**login:Penguin** · 04/12/17 01:24:33

試してないけど lucene
http://d.hatena.ne.jp/adon/20040719

**login:Penguin** · 04/12/29 18:19:50

ウホッ、NutchもASF入りか？
http://wiki.apache.org/incubator/NutchProposal

**login:Penguin** · 05/03/01 12:58:01

gonzui: ソースコード検索エンジン
http://gonzui.sourceforge.net/

Rast - N-gram based full-text search system
http://www.netlab.jp/rast/

Estraierの中の人の開発メモ。Hyper Estraierを作るらしい。
http://qdbm.sourceforge.net/mikio/rbbs.cgi

**login:Penguin** · 05/03/01 13:00:01

関連スレ

全文検索エンジンNamazu
http://pc5.2ch.net/test/read.cgi/unix/1009715036/

全文検索エンジンEstraier
http://pc5.2ch.net/test/read.cgi/unix/1100221699/

gonzui
http://pc5.2ch.net/test/read.cgi/tech/1102086148/

**login:Penguin** · 05/03/02 14:19:57

こんなの発見した
http://tech.yappo.jp/

**login:Penguin** · 05/03/09 23:12:58

Rast 0.0.0 released

**login:Penguin** · 05/03/10 10:03:15

朱雀、v2 リリース
ttp://hoshizawa.no-ip.com/suzaku/

**login:Penguin** · 05/03/10 16:27:39

ruby ML 検索 powered by Rast
http://shugo.net/ruby/mlsearch.rbx

**login:Penguin** · 2005/03/23(水) 18:44:16

Senna 組み込み型全文検索エンジン
http://dev.razil.jp/project/senna/

**login:Penguin** · 2005/03/29(火) 23:23:06

gonzui 1.0 released

**login:Penguin** · 2005/04/09(土) 10:38:27

全文じゃないのですが、イメージ検索できるエンジンってないでか？
相当ググったんですが･･･やはりないんですかね？

**login:Penguin** · 2005/04/09(土) 10:49:16

>>149
試したことないけど

GNU Image-Finding Tool
http://www.gnu.org/software/gift/gift.html

イメージサーチャ for Java
http://www.sra.co.jp/people/m-asada/Isr4Java/

**login:Penguin** · 2005/04/09(土) 22:59:57

>>150
ありがとうございます。

**login:Penguin** · 2005/04/14(木) 16:05:44

4 名前：仕様書無しさん[] 投稿者：2005/04/12(火) 00:17:42
　　blogWatcher
　　http://www.lr.pi.titech.ac.jp/blogwatcher/blog/
　　が検索エンジンを情報処理振興事業協会（ＩＰＡ）が実施した
　　「独創的情報技術育成事業」の研究成果であるGETAから
　　オープンソースで開発されているLuceneに変更したのは
　　GETAが税金を無駄にしただけの糞で鈍間で役立たずの
　　ポンコツだと言うことですか？

**login:Penguin** · 2005/04/20(水) 18:15:48

心無いこと言うなよ。

**login:Penguin** · 2005/05/06(金) 08:37:21

Namazuだと、全然文字が引っ掛からない（INDEX作成にはkakashi, chasen,
どちらも使ってみました）のです…
INDEX自体はまともに作成されてるようなのですが、
そもそも、適切に分ち書きできてないみたいです。

何か設定を変更することで上手く行くようになりますでしょうか。

**login:Penguin** · 2005/05/06(金) 10:31:42

mknmz -L jaでインデックス作るとどうよ。

**login:Penguin** · 2005/05/07(土) 10:44:20

>>154 LANGUAGE とか LC_ALL の環境変数が ja になってないと
日本語keyword 正しく生成しないんだが、その話しか？

**login:Penguin** · 2005/06/19(日) 18:11:43

GETAって説明見るかぎりではよさげだけど

**login:Penguin** · 2005/07/01(金) 11:04:42

>>156
知識が古い

**login:Penguin** · 2005/07/01(金) 11:36:50

>>158
そうなの？今はどうなの？

**login:Penguin** · 2005/07/01(金) 12:15:01

>>159
> そうなの？今はどうなの？

…… (あきれている)

**login:Penguin** · 2005/07/01(金) 20:09:16

たしかに煽りだけのアホにはあきれる罠

**login:Penguin** · 2005/07/03(日) 22:55:14

>>154
あるねぇ、あれは酷い。
まぁ、FAQには書いてあったからいいけど。

さっさと捨てるべきだとおもったよ。

**login:Penguin** · 2005/09/06(火) 15:27:32

rast ML 発見
http://www.netlab.jp/rast/index.html.ja#label-12

rast 0.3.0 もリリースされてます
http://www.j96.org/w3ml/rast-ja/msg/2

あと matz 氏の morq もついに公開されたようですが…
debian sid な環境ですが動かすことはできず。orz

**login:Penguin** · 2005/10/20(木) 15:33:40

gdestraierの使用レポきぼんぬ。

**login:Penguin** · 2005/11/07(月) 22:23:25

luceneってむちゃくちゃよくね？
小規模なら、何も考えずに使えるし、
日本語もそのまま通る。

俺何か見逃してるかなぁ。

**login:Penguin** · 2005/11/08(火) 10:13:48

>>165
昔、日本語が使用できなかったとか、Javaベースだからとかじゃない？

使用することに限ればnamazuやHyper Estraierでもいいと思うけど。

**login:Penguin** · 2005/12/03(土) 04:02:20

>>165
小規模ならいいけど、大規模（10万件以上）だとめちゃくちゃ遅い

**login:Penguin** · 2005/12/03(土) 13:05:12

>>167 何か設定やらチューンやらできないの？

**login:Penguin** · 2005/12/04(日) 22:15:43

>>168
自分で下層のDBを用意する

**login:Penguin** · 2005/12/05(月) 09:54:08

Nutchってその辺どうしてるんだろ？

**login:Penguin** · 2006/01/08(日) 13:08:32

なまずがもうすぐバージョンアップするって本当？

**login:Penguin** · 2006/01/30(月) 18:44:33

>>171
きたよ

**login:Penguin** · 2006/02/24(金) 12:47:39

>>166
LuceneはC#へのポーティングがあるな。

**login:Penguin** · 2006/12/19(火) 08:51:48

で、世の中 Google Desktop Search とか Spotlight が当たり前になってる今、
みなさん最近は何使ってんの？

**名無しさん＠お腹いっぱい** · 2006/12/19(火) 10:12:39

>>174
> が当たり前になってる今
なってねーよ。

**age** · 2007/01/16(火) 23:04:15

ご存知の方おられたら教えてください。
Nutchは、AnalyzerにデフォルトでNutchAnalyzerを使っていて、
日本語はインデックス作成時に（クエリー処理時も）１文字ずつに
分解されてしまいます。そこで、bigramでインデックスを張れる
CJKAnalyzerを利用しようかと思ったのですが、nutchのソース修正が
必要でしょうか？

**age** · 2007/01/16(火) 23:05:32

pluginをいじるだけでできるかと調べたのですが、
なにぶんドキュメントが少なくて、よくわかりませんでした...。

**login:Penguin** · 2007/01/21(日) 22:34:31

ttp://wiki.apache.org/nutch/MultiLingualSupport
ttp://mail-archives.apache.org/mod_mbox/lucene-nutch-dev/200606.mbox/%3Cc822c4ce0606070158s6c16abc7yea846a546e735cf4@mail.gmail.com%3E

**login:Penguin** · 2007/01/31(水) 10:26:20

Google や Yahoo! がやっているような、表記揺れの展開をやってみたいのですが、
全文検索ソフトと併用できるような便利な表記揺れ展開用の辞書かライブラリってあるのでしょうか。
それとも自分で辞書を作らなければならないのでしょうか。

代用漢字、異体字、カタカナ語、送り仮名、検索ワードの誤り、略称、関連語など、
考え出すときりがないとも言えるのですが…
企業向けの商用ソフト（の形態素解析ソフトのおまけ？）にはあるらしいことは一応わかってきました。

なにかアドバイスください。

**login:Penguin** · 2007/02/01(木) 15:07:34

>>179
どこかの国立の日本語研究所が表記揺らぎ辞書を公開してたよ。

**179** · 2007/02/01(木) 16:59:00

国立国語研究所の「表記統合辞書」ですね。ありがとうございます。

kokken.go.jp がつながりにくいようですが…
必要に応じて電話で問い合わせしてみようかしら。

**login:Penguin** · 2007/02/02(金) 10:56:10

風博士ではRastが死亡認定された模様。

**login:Penguin** · 2007/02/08(木) 09:58:55

html内で、コメントを使わずにスタイルシートのhiddenを使ってコメントアウトしているページがあり
NAMAZUはもちろん対応していないのですが、対応できる検索エンジンってあります？

**login:Penguin** · 2007/02/08(木) 15:30:47

多分ない。

**login:Penguin** · 2007/02/08(木) 15:43:02

>>184
そうですよね。googleでも引っかかってしまうし。

**login:Penguin** · 2007/02/08(木) 22:54:22

対応ってどういう意味だろう。
そこが検索でヒットされて欲しくないってこと?
そんなエンジンはないだろうな。

**login:Penguin** · 2007/02/08(木) 23:29:33

対応できるってどういう意味だろう。
「作ればあるもん」だと思うのだが。

**login:Penguin** · 2007/02/13(火) 16:54:43

rastって死亡? なんか実質1年くらい動きがなさそうなんだけど。
matzがいるような会社でも、IPAから金めぐんでもらってやってただけで
それがなくなったら後は野となれ山となれなのかね? もしそうだったら寂しいね。

**login:Penguin** · 2007/02/13(火) 18:46:26

>>188
長い目で見れば、死亡させた方が金になるんだよ。

**login:Penguin** · 2007/02/14(水) 07:47:29

Hyper Estarierは未踏で開発が加速して、今はまったりとしつつも
きちんと続いている。
SennaもMySQL連携が効いたのか、じわじわと利用が進んでいる。

Rastはなあ... 構造を複雑にしすぎて、金が切れてからのメンテナンスが
難しくなったんじゃないかという気がする。あとは外部からの開発者を
集められなかったことが敗因か。

**login:Penguin** · 2007/02/14(水) 09:45:36

H.E. も個人開発だけどね

**login:Penguin** · 2007/02/14(水) 13:13:18

>>190
> 難しくなったんじゃないかという気がする。あとは外部からの開発者を
> 集められなかったことが敗因か。

いや～
金をもらって作られたブツの世話を引き継いで、タダで作業するのって、惨めだぞ～
特に多大な金が投入されたことをみんなが知っていると、いろいろあって鬱病になりそうになる。

もう2度とやりたくない。

**login:Penguin** · 2007/02/15(木) 11:59:16

>>191
作者はじつにいい会社に転職したよね。今後も安泰かというと不安だけど...
>>192
気持ちはよくわかる。最低限、「自分が使うから」ぐらいのモチベーションが
ないとやっていけないよなあ。

**login:Penguin** · 2007/07/12(木) 15:36:46

>>181
これの固有名詞版ってないのかしらん？

USA、米国、アメリカ、U.S.→アメリカみたいな

**login:Penguin** · 2007/08/28(火) 03:01:56

人少ないみたいだからアゲますね。

ちょっとダサい質問なんですが、インデックスを作成するタイプの全文検索で
そのものがインストールされていないレンタル鯖で使えるものってありますか？
PerlもしくはRubyから検索したいと思って
Namazu、HyperEstraierを試したんですが、
前者はPerlモジュールのインストールを断られ、
後者はインデックスがQDBMの形式だからどの道無理かと思いました。
(方法があればHEの方は使ってみたいけど）

頻繁に更新されるような対象じゃないので、MySQLのFULLTEXTでも・・・
と思ってはいるんだけど、
なにか方法(ソフト)があればおしえてください。

**login:Penguin** · 2007/08/28(火) 08:03:34

http://rubyforge.org/projects/ferret/

pure rubyでこんなのがあるよ。日本語が使えるかどうかはわからないけど。
Luceneにinspreされたとかいてあるから、UTF-8なら使えそうな気もする。

**195** · 2007/08/28(火) 20:02:17

>>196
少し触ってみたところ使いやすい感じで好感触でした！
完全かどうかはわかりませんが、日本語も大丈夫でした。
とりあえずレン鯖での動作も確認できました。
まだ不明な点もありますが、しばらく使ってみようと思います。
ありがとうございました！

**login:Penguin** · 2008/01/08(火) 00:46:08

gonzuiみたいなのでVB6検索できるエンジンありませんかね？

VB6病発病したソースコードを手術しないといけないので
頼みます。

**login:Penguin** · 2008/04/09(水) 00:25:01

こんなん出てた。
全文検索エンジンLux
http://luxse.sourceforge.net/

ToDo のところに
# 削除・更新
# 全角半角かなの同一視
とか書いてあるあたり見ると、まだ全然未完成みたいだけど。

**login:Penguin** · 2008/04/09(水) 13:25:32

apacheのluceneがeclipseのヘルプ?で使われていたことを知った。

**login:Penguin** · 2008/09/08(月) 17:32:23

InfoCrawlerとOmniFindってどう？

今研究室の文書管理システムを作らなきゃいけないんだが,ユーザビリティを損なわず文書管理したい．
ファイルドラッグできるフリーなシステムは見つからない．
⇒Sambaフォルダに適当にぶち込んで後から見るときは検索でおｋ

と言う風に今は考えてるんだが、間違ってないよな？
doc,pdf,ppt辺りを読み込んでくれる素敵なエンジンはない物か…

**login:Penguin** · 2008/11/20(木) 11:23:32

保守

**login:Penguin** · 2008/11/29(土) 10:11:46

http://www.jieks.com/2ch/

**login:Penguin** · 2009/12/23(水) 12:09:55

ど素人の質問で申し訳ないんですが、
ひらがな/カタカナのどちらでも検索可能にしたい場合、
「検索時に、両方のキーワードで検索する」案と、
「インデックス自体を、両方作っておく」案の、どちらが検索時間が短くすむのでしょうか？
（検証しろと言われれば、それまでなんですが）

私の事情的には、「大差はない」というのが理想ですが、
どうなんでしょうか？

ちなみに、使ってるのはLucene（2.3.2かな)で、すでに運用開始している状態です。

**login:Penguin** · 2009/12/23(水) 12:50:29

常にひらがな/カタカナのどちらでも検索していいなら、
インデックス作るときに、どっちかにまとめてしまうな。
あとは、検索時に指定されたのを同じルールで処理してから検索。

データが小さくなるし、analyzerでこの処理をさせれば、
本文はそのままだから、取り出し可能にもできるし。

**login:Penguin** · 2009/12/23(水) 13:01:14

あと、データ量と同時検索数次第な気がするけど、
両方のキーワードで検索した方が速いと思うよ。
インデックスを小さくしておいた方が速いと思う。

ひらがな/カタカナ混じりだったらどうするとか考えると、
統一しちゃう方が簡単だと思うんだよなー。

検索用フィールドをいくつか作るのはありかもね。
平仮名片仮名を無視する検索用はどちらかに統一して、
そうじゃない方はそのまま入れておく。

**login:Penguin** · 2009/12/24(木) 14:55:08

>>206
レスありがとうございます。

やはり「INDEXも検索も統一」というのが良さそうですね。

ただ、すでに運用してるシステムでして、
根本から作り直すことになると、コストやリソースの関係で、
お客様の希望する時期に出せそうになかったもので、
質問のような小手先の対応を考えていました。

**login:Penguin** · 2011/10/26(水) 09:08:10.23

dpkgとzeitgeistがXapianっていう全文検索ソフトを使っているけれどあれは何？
対応言語に日本語は入っていないみたい

**login:Penguin** · 2011/12/11(日) 16:26:21.87

「俺の全文検索」のソースをアップロードした。

http://www.ne.jp/asahi/sun/patagonia/fulltext/fulltext.html

うまく全文検索できないときには掲示板に書きこんでくれ。

**login:Penguin** · 2011/12/11(日) 16:52:48.77

postgresql 使ってるのか。
Hyper Estraier でいいと思うけどなあ。ずっと楽だし

**login:Penguin** · 2012/08/12(日) 05:00:25.96

>>209
NOT FOUNDだよ

半年も前かぁ・・・(´・ω・`)

**login:Penguin** · 2012/12/14(金) 05:08:44.92

Fessというソフトなんですけど、
検索されたファイルの名前に、スペースが含まれている場合に、
一覧から開くことができません。
対策ってありますでしょうか。

**login:Penguin** · 2012/12/14(金) 11:36:00.22

>>212
FessのMLがあるからそっちで聞けば？

**login:Penguin** · 2013/01/12(土) 01:36:56.87

聞こう聞こうと思っているうちに、
どなたかがメーリングリストで質問してくださっていました。
今、その回答町です。

**login:Penguin** · 2013/01/27(日) 16:23:24.30

全裸変換ソフトって読んでしまった。
寝てくるﾉｼ

**login:Penguin** · 2013/02/09(土) 12:29:36.38

専用サーバソフトいらずで
単純なインタプリタcgiのみで動くやつないかね？
まあ要するにフリーのレンサバで動かしたい

**login:Penguin** · 2013/02/09(土) 12:38:10.29

>>216
namazu

**login:Penguin** · 2014/02/18(火) 01:12:04.63

全文検索サーバ: Fess 9.0.0 リリース

http://sourceforge.jp/projects/fess/news/24562

本当に、新機能の搭載待っていました。
ありがとう。ありがとう。

勝手に記念して、専用スレッドを作りました。

http://engawa.2ch.net/test/read.cgi/linux/1392653371/

**login:Penguin** · 2015/06/20(土) 11:47:12.84

今のお勧め教えれ

**login:Penguin** · 2016/02/22(月) 11:39:34.04

自分はセナがいいよとか言われてた時代までしか知らん
ナマズは定番とかね

**login:Penguin** · 2017/06/15(木) 00:18:19.61

保守

**login:Penguin** · 2017/07/10(月) 04:10:38.96

Hyper Estraier

**login:Penguin** · 2017/07/10(月) 09:29:17.37

>>222
もうメンテされてない

**login:Penguin** · 2017/12/29(金) 14:39:05.17

誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒　『宮本のゴウリエセレレ』というブログで見ることができるらしいです。

グーグル検索⇒『宮本のゴウリエセレレ』

78TOY3CJA0

**login:Penguin** · 2018/04/11(水) 15:23:21.47

78TOY3CJA0

**login:Penguin** · 2018/05/22(火) 10:39:06.88

僕の知り合いの知り合いができた副業情報ドットコム
関心がある人だけ見てください。
グーグルで検索するといいかも『ネットで稼ぐ方法　モニアレフヌノ』

MT3J0

**login:Penguin** · 2018/09/10(月) 08:58:04.43

ぶっちゃけどれも反応が早くない

**login:Penguin** · 2019/02/20(水) 08:46:09.74

今の定番ってあるの？

**login:Penguin** · 2019/02/21(木) 01:27:54.47

Elasticsearchとかsolr/luceneとかじゃないの

**login:Penguin** · 2019/02/21(木) 14:56:57.32

NASとかでも検索機能あったりするけど
目に見えてどれを使ってるって分かるのかな？
その中でのシェアとかあるの？

**login:Penguin** · 2020/02/11(火) 15:34:57.02

チエオクレのハゲの悲惨なツイッター
https://twitter.com/aphonedollar

　　↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる

＞「DesktopHE」はWindows10に対応してないらしい

はぁ？？？　★★★大嘘デタラメ★★★を垂れ流すな！！！

■「DesktopHE」はWindows10でも、もちろん使えるわ！！！■
■「DesktopHE」はWindows10でも、もちろん使えるわ！！！■
■「DesktopHE」はWindows10でも、もちろん使えるわ！！！■
■「DesktopHE」はWindows10でも、もちろん使えるわ！！！■
■「DesktopHE」はWindows10でも、もちろん使えるわ！！！■

チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか！！！
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか！

hatenaとかでまで、必死こいて大嘘をばらまいているんだが　　
https://twitter.com/5chan_nel (5ch newer account)

**login:Penguin** · 2021/07/31(土) 00:46:25.71

今時はLuceneですかね
Twitterでも使われてるらしいし