オープンソースの全文検索ソフト
■ このスレッドは過去ログ倉庫に格納されています
ご存知の方おられたら教えてください。
Nutchは、AnalyzerにデフォルトでNutchAnalyzerを使っていて、
日本語はインデックス作成時に(クエリー処理時も)1文字ずつに
分解されてしまいます。そこで、bigramでインデックスを張れる
CJKAnalyzerを利用しようかと思ったのですが、nutchのソース修正が
必要でしょうか? pluginをいじるだけでできるかと調べたのですが、
なにぶんドキュメントが少なくて、よくわかりませんでした...。 ttp://wiki.apache.org/nutch/MultiLingualSupport
ttp://mail-archives.apache.org/mod_mbox/lucene-nutch-dev/200606.mbox/%3Cc822c4ce0606070158s6c16abc7yea846a546e735cf4@mail.gmail.com%3E Google や Yahoo! がやっているような、表記揺れの展開をやってみたいのですが、
全文検索ソフトと併用できるような便利な表記揺れ展開用の辞書かライブラリってあるのでしょうか。
それとも自分で辞書を作らなければならないのでしょうか。
代用漢字、異体字、カタカナ語、送り仮名、検索ワードの誤り、略称、関連語など、
考え出すときりがないとも言えるのですが…
企業向けの商用ソフト(の形態素解析ソフトのおまけ?)にはあるらしいことは一応わかってきました。
なにかアドバイスください。 >>179
どこかの国立の日本語研究所が表記揺らぎ辞書を公開してたよ。 国立国語研究所の「表記統合辞書」ですね。ありがとうございます。
kokken.go.jp がつながりにくいようですが…
必要に応じて電話で問い合わせしてみようかしら。 html内で、コメントを使わずにスタイルシートのhiddenを使ってコメントアウトしているページがあり
NAMAZUはもちろん対応していないのですが、対応できる検索エンジンってあります? >>184
そうですよね。googleでも引っかかってしまうし。 対応ってどういう意味だろう。
そこが検索でヒットされて欲しくないってこと?
そんなエンジンはないだろうな。 対応できるってどういう意味だろう。
「作ればあるもん」だと思うのだが。 rastって死亡? なんか実質1年くらい動きがなさそうなんだけど。
matzがいるような会社でも、IPAから金めぐんでもらってやってただけで
それがなくなったら後は野となれ山となれなのかね? もしそうだったら寂しいね。 >>188
長い目で見れば、死亡させた方が金になるんだよ。 Hyper Estarierは未踏で開発が加速して、今はまったりとしつつも
きちんと続いている。
SennaもMySQL連携が効いたのか、じわじわと利用が進んでいる。
Rastはなあ... 構造を複雑にしすぎて、金が切れてからのメンテナンスが
難しくなったんじゃないかという気がする。あとは外部からの開発者を
集められなかったことが敗因か。
>>190
> 難しくなったんじゃないかという気がする。あとは外部からの開発者を
> 集められなかったことが敗因か。
いや〜
金をもらって作られたブツの世話を引き継いで、タダで作業するのって、惨めだぞ〜
特に多大な金が投入されたことをみんなが知っていると、いろいろあって鬱病になりそうになる。
もう2度とやりたくない。 >>191
作者はじつにいい会社に転職したよね。今後も安泰かというと不安だけど...
>>192
気持ちはよくわかる。最低限、「自分が使うから」ぐらいのモチベーションが
ないとやっていけないよなあ。
>>181
これの固有名詞版ってないのかしらん?
USA、米国、アメリカ、U.S.→アメリカみたいな 人少ないみたいだからアゲますね。
ちょっとダサい質問なんですが、インデックスを作成するタイプの全文検索で
そのものがインストールされていないレンタル鯖で使えるものってありますか?
PerlもしくはRubyから検索したいと思って
Namazu、HyperEstraierを試したんですが、
前者はPerlモジュールのインストールを断られ、
後者はインデックスがQDBMの形式だからどの道無理かと思いました。
(方法があればHEの方は使ってみたいけど)
頻繁に更新されるような対象じゃないので、MySQLのFULLTEXTでも・・・
と思ってはいるんだけど、
なにか方法(ソフト)があればおしえてください。 http://rubyforge.org/projects/ferret/
pure rubyでこんなのがあるよ。日本語が使えるかどうかはわからないけど。
Luceneにinspreされたとかいてあるから、UTF-8なら使えそうな気もする。
>>196
少し触ってみたところ使いやすい感じで好感触でした!
完全かどうかはわかりませんが、日本語も大丈夫でした。
とりあえずレン鯖での動作も確認できました。
まだ不明な点もありますが、しばらく使ってみようと思います。
ありがとうございました! gonzuiみたいなのでVB6検索できるエンジンありませんかね?
VB6病発病したソースコードを手術しないといけないので
頼みます。 こんなん出てた。
全文検索エンジンLux
http://luxse.sourceforge.net/
ToDo のところに
# 削除・更新
# 全角半角かなの同一視
とか書いてあるあたり見ると、まだ全然未完成みたいだけど。 apacheのluceneがeclipseのヘルプ?で使われていたことを知った。
InfoCrawlerとOmniFindってどう?
今研究室の文書管理システムを作らなきゃいけないんだが,ユーザビリティを損なわず文書管理したい.
ファイルドラッグできるフリーなシステムは見つからない.
⇒Sambaフォルダに適当にぶち込んで後から見るときは検索でおk
と言う風に今は考えてるんだが、間違ってないよな?
doc,pdf,ppt辺りを読み込んでくれる素敵なエンジンはない物か… ど素人の質問で申し訳ないんですが、
ひらがな/カタカナのどちらでも検索可能にしたい場合、
「検索時に、両方のキーワードで検索する」案と、
「インデックス自体を、両方作っておく」案の、どちらが検索時間が短くすむのでしょうか?
(検証しろと言われれば、それまでなんですが)
私の事情的には、「大差はない」というのが理想ですが、
どうなんでしょうか?
ちなみに、使ってるのはLucene(2.3.2かな)で、すでに運用開始している状態です。
常にひらがな/カタカナのどちらでも検索していいなら、
インデックス作るときに、どっちかにまとめてしまうな。
あとは、検索時に指定されたのを同じルールで処理してから検索。
データが小さくなるし、analyzerでこの処理をさせれば、
本文はそのままだから、取り出し可能にもできるし。 あと、データ量と同時検索数次第な気がするけど、
両方のキーワードで検索した方が速いと思うよ。
インデックスを小さくしておいた方が速いと思う。
ひらがな/カタカナ混じりだったらどうするとか考えると、
統一しちゃう方が簡単だと思うんだよなー。
検索用フィールドをいくつか作るのはありかもね。
平仮名片仮名を無視する検索用はどちらかに統一して、
そうじゃない方はそのまま入れておく。 >>206
レスありがとうございます。
やはり「INDEXも検索も統一」というのが良さそうですね。
ただ、すでに運用してるシステムでして、
根本から作り直すことになると、コストやリソースの関係で、
お客様の希望する時期に出せそうになかったもので、
質問のような小手先の対応を考えていました。
dpkgとzeitgeistがXapianっていう全文検索ソフトを使っているけれどあれは何?
対応言語に日本語は入っていないみたい postgresql 使ってるのか。
Hyper Estraier でいいと思うけどなあ。ずっと楽だし >>209
NOT FOUNDだよ
半年も前かぁ・・・(´・ω・`) Fessというソフトなんですけど、
検索されたファイルの名前に、スペースが含まれている場合に、
一覧から開くことができません。
対策ってありますでしょうか。 >>212
FessのMLがあるからそっちで聞けば? 聞こう聞こうと思っているうちに、
どなたかがメーリングリストで質問してくださっていました。
今、その回答町です。 専用サーバソフトいらずで
単純なインタプリタcgiのみで動くやつないかね?
まあ要するにフリーのレンサバで動かしたい 自分はセナがいいよとか言われてた時代までしか知らん
ナマズは定番とかね 誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。
グーグル検索⇒『宮本のゴウリエセレレ』
78TOY3CJA0 僕の知り合いの知り合いができた副業情報ドットコム
関心がある人だけ見てください。
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』
MT3J0 Elasticsearchとかsolr/luceneとかじゃないの NASとかでも検索機能あったりするけど
目に見えてどれを使ってるって分かるのかな?
その中でのシェアとかあるの? チエオクレのハゲの悲惨なツイッター
https://twitter.com/aphonedollar
↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる
>「DesktopHE」 はWindows10に対応してないらしい
はぁ??? ★★★大嘘デタラメ★★★を垂れ流すな!!!
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか!!!
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか!
hatenaとかでまで、必死こいて大嘘をばらまいているんだが
https://twitter.com/5chan_nel (5ch newer account) 今時はLuceneですかね
Twitterでも使われてるらしいし ■ このスレッドは過去ログ倉庫に格納されています