オープンソースの全文検索ソフト
■ このスレッドは過去ログ倉庫に格納されています
オープンソースに限りませんが、全文検索ソフトのリストがこちらにあります。
日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
THX to 馬場さん@宇物 Namazu など、日本語を扱うことができる全文検索ソフトの多くは、
kakashi や chasen などの補助ソフトを使っています。
KAKASI - 漢字→かな(ローマ字)変換プログラム
http://kakasi.namazu.org/
Morphological Analyzer ChaSen
http://chasen.aist-nara.ac.jp/
○参考リンク
日本語全文検索での索引作成・検索アルゴリズム
http://www-6.ibm.com/jp/software/data/cm/txt.html
ASCII24 デジタル用語辞典 - 形態素解析
http://yougo.ascii24.com/gh/60/006070.html Snatcher Full-text Search System ver. 3
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher.html (English)
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher-ja.html (Japanese)
Copyright (c) 2002 Mikio Hirabayashi. All rights reserved
概要(上記サイトより引用)
Snatcherは、全文検索システムです。
GoogleやAltaVistaをご存じの方は、それが個人向けに簡単になったものだと思ってください。
検索フォームに検索語を入力すると、その語を含む文書の情報を一覧することができます。
検索結果は、該当文書の検索条件への適合度(スコア)の順で、文書の要約とともに表示されます。
Snatcherは、中規模(文書数100000、総容量1GB程度まで)のWebサイトやファイルサーバでの運用に適したシステムです。
それ以外に、メールボックスやオンラインマニュアルの検索にも使うことができます。 入力ファイルから日本語部分を削除するのに使えそうな方法。
【Linux板】namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/357n
Namazu, Snatcher などでは日本語を扱うことができます。
しかし多くのオープンソースの全文検索ソフトでは日本語を適切に扱うことができません。
無理やり日本語ファイルをインデックス化すると、
2バイトコードのかけらなどを単語として認識してしまい、
インデックスファイルのサイズが異常に大きくなってしまうことがあります。 ファイル形式の判別には、拡張子あるいはパス名と正規表現のマッチングで行っているものが多いようですが、
Namazu など Perl ベースで書かれているものは File::MMagic を使っているようですね。
http://search.cpan.org/dist/File-MMagic/ Namazu の mknmz で ~/Mail/inbox をインデックス化してみました。
分かち書きには kakasi -w を使っています。
[Append]
Date: Fri Nov 1 21:02:37 2002
Added Documents: 981
Deleted Documents: 2
Size (bytes): 10,434,220
Total Documents: 981
Added Keywords: 61,229
Total Keywords: 62,044
Wakati: module_kakasi -ieuc -oeuc -w
Time (sec): 447
File/Sec: 2.19
System: linux
Perl: 5.006001
Namazu: 2.0.10
real 7m28.223s
user 1m57.340s
sys 0m3.600s できたインデックス (NMZ.* ファイルたち) の大きさは、合計で 3200KB でした。 >>5 こんなのも。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
Mhttp://cl.aist-nara.ac.jp/~taku-ku/software/mecab/
C++ で書かれていて ChaSen よりも高速らしい。
他言語への binding も豊富。
>>12
情報ありがとうございます。
しばらく namazu をいじってました。
独自フィルタを作る方法を知りたくって。
namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/ Windows で namazu + chasen を使ってみました。
namazu も chasen もそれぞれ Windows 用バイナリが用意されているのですが、
組み合わせて使おうとすると cygwin 上でソースからコンパイルしたものが必要です。
Namazu全文検索システム
http://pc.2ch.net/test/read.cgi/php/992477868/99-102 namazu + kakashi/chasen で決まりでしょう。
んでもってapache上でnamazu.cgi動かす。
glimpseって有料じゃなかったかな?
ht://dig は日本語とおらないし。 >>15 GETA って scheme や Haskell との interface も考えてたりして、 ちょっとマニアックかも >>17
まず形態素解析器で形態素を解析します。(Chasen, Juman, MeCab)
その後、必要であれば、どの文節がどの文節に係っているか(係り受け構造)を構文解析器にて、解析します。(CaboCha, KNP)
構文解析器に関しては、以前はKNPが良く利用されていたようですが、最近は CaboCha が良く使われるようです。
# SVM を使用していて精度が高い (らしぃ >>19
FreeBSDをベースに開発している所からしてマニアックdayo! ひさびさにmknmzちう...たぶん今日中にはIndexができているだろう。
@@ Processing gzip file ... (using Compress::Zlib)
70/27876 - /usr/share/doc/HOWTO/en-txt/Encourage-Women-Linux-HOWTO.gz [text/plain]
71/27876 - /usr/share/doc/HOWTO/en-txt/Enterprise-Java-for-Linux-HOWTO [text/plain]
@@ モジュール: html.pl
@@ Processing html file ...
72/27876 - /usr/share/doc/HOWTO/en-txt/Esperanto-HOWTO [text/html]
@@ モジュール: gzip.pl
@@ Processing gzip file ... (using Compress::Zlib)
73/27876 - /usr/share/doc/HOWTO/en-txt/Ethernet-Bridge-netfilter-HOWTO.gz [text/plain]
74/27876 - /usr/share/doc/HOWTO/en-txt/Ethernet-HOWTO [text/plain]
インデックスを書き出しています...
所要時間 8.5h でした。
インデックスを書き出しています...
[追加]
日付: Mon Jan 6 19:44:54 2003
追加された文書の数: 22,453
削除された文書の数: 2,890
更新された文書の数: 4,916
サイズ (bytes): 275,352,781
合計の文書数: 40,141
追加キーワード数: 840,373
合計キーワード数: 2,874,103
わかち書き: module_kakasi -ieuc -oeuc -w
経過時間 (秒): 30,674
ファイル/秒: 0.89
システム: linux
Perl: 5.006001
Namazu: 2.0.12
IP記録実験
http://qb.2ch.net/test/read.cgi/accuse/1042013605/
1 名前:ひろゆき ◆3SHRUNYAXA @どうやら管理人 ★ 投稿日:03/01/08 17:13 ID:???
そんなわけで、qbサーバでIPの記録実験をはじめましたー。
27 名前:心得をよく読みましょう 投稿日:03/01/08 17:20 ID:yL/kYdMc
SETTING.TXT管轄でないということは全鯖導入を視野に、か?
38 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:22 ID:rLfxQ17l
>>27
鋭いです。
73 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:27 ID:rLfxQ17l
>ところで、IPが抜かれて何か今までと変わることってあるのでしょうか?
・今までより、サーバが重くなる。
・裁判所や警察からの照会があった場合にはIPを提出することがある。 >>292
>245
>働かざるもの食うべからず。
ということで、ひろゆきちゃんが保存(w IP記録実験
http://qb.2ch.net/test/read.cgi/accuse/1042013605/
1 名前:ひろゆき ◆3SHRUNYAXA @どうやら管理人 ★ 投稿日:03/01/08 17:13 ID:???
そんなわけで、qbサーバでIPの記録実験をはじめましたー。
27 名前:心得をよく読みましょう 投稿日:03/01/08 17:20 ID:yL/kYdMc
SETTING.TXT管轄でないということは全鯖導入を視野に、か?
38 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:22 ID:rLfxQ17l
>>27
鋭いです。
73 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:27 ID:rLfxQ17l
>ところで、IPが抜かれて何か今までと変わることってあるのでしょうか?
・今までより、サーバが重くなる。
・裁判所や警察からの照会があった場合にはIPを提出することがある。 >97
2chやってるからヒッキーって責任転嫁が既に敗北者っぽ・・。 原田さんの(odinじゃないやつ)http://www.ingrid.org/~harada/interface/
☆^〜^★「探し物とくとくページ」☆^〜^★
http://sagatoku.fc2web.com/
あなたの探し物きっとみつかります
ほぼ毎日 新着情報追加 毎日更新
新着情報メールでお知らせ
おい、聞いてくれ!
リナックス板の自治厨が、一切規定に反していない
ディストリスレを、通告もなく一方的に削除しやがった!
これは、そのディストリを発売した会社に対する
侮辱であり、1の言論の自由を侵害し
ユーザーに対する差別的行為だ!
まじで、どうにかしてくれ!
2ちゃんねるは、削除人が横暴すぎる!
革命を起こそう!正常化を図るのだ!
>>51
Ruby用APIも入ったみたいだね。
あとメジャーどころでサポートされていないのは
PHPとPythonくらいか。 ━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━― ∧_∧
ピュ.ー ( ^^ ) <これからも僕を応援して下さいね(^^)。
=〔~∪ ̄ ̄〕
= ◎――◎ 山崎渉
__∧_∧_
|( ^^ )| <寝るぽ(^^)
|\⌒⌒⌒\
\ |⌒⌒⌒~| 山崎渉
~ ̄ ̄ ̄ ̄ ∧_∧ ∧_∧
ピュ.ー ( ・3・) ( ^^ ) <これからも僕たちを応援して下さいね(^^)。
=〔~∪ ̄ ̄ ̄∪ ̄ ̄〕
= ◎――――――◎ 山崎渉&ぼるじょあ ( ・∀・) | | ガッ
と ) | |
Y /ノ 人
/ ) < >__Λ∩
_/し' //. V`Д´)/
(_フ彡 / ←>>57-59 (⌒V⌒)
│ ^ ^ │<これからも僕を応援して下さいね(^^)。
⊂| |つ
(_)(_) 山崎パン >>15
8/28 に GETA の微修正があったらすぃ 外国産検索ソフトを日本語化してるようなプロジェクトって無いの? >>70 ほかに適当な板が無かったから…
あと、ビジネスソフト板とウィンドウズ板にはすでにスレッドがあったけど、
そっちはパッケージソフトの話題がメインだったから。 ソフト板に立てたら、オープンソースという言葉だけで変なのが沸いてくるよ。 インデックス作るのが面倒なんでインデックス作らないソフトでのお勧めは何ですか? Snatcherの掲示板より
> とりあえず、QDBMの全文検索機能を日本語化しただけのものを作ってみました。
> 以下の場所に置いてあります。
>
> http://estraier.sourceforge.net/
全然気がつかなかったけど、キテタ━━(゚∀゚)━( ゚∀)━( ゚)━( )━( )━(゚ )━(∀゚ )━(゚∀゚)━━!!!!! うへ、QDBMもEstraierもリリース頻繁杉…
いや、まあいいことなのかもしれないけど、人柱になるのも大変だな。 とか言ってる間にもまた新しいバージョン出てるし。
ハングルの需要とかあんのか? > ハングルの需要とかあんのか?
少なくとも日常的にハングルの読み書きをしている人たちには
需要はあるんじゃない? Estraierに移行するからSnatcherの保守は停止するって掲示版に書いてあった。
それはいいとして、代わりにできたMLが英語だけっぽいのがどうにもこうにも。 msearch使ってるひといる?
namazuより導入簡単だしカスタマイズも簡単だし。 >1 は、「全文検索」と「Index検索」を間違えてないか?
namazuは全文検索じゃないぞ。
スレタイ見たときに、「grepの話か?」と思ったんだが。 >>91は日経Linuxのアレな記事を鵜呑みにしているアフォ。
平河町の書き換えも困ったものだ。 >>93
で、全文検索の正確な定義って何?
俺は当時あの記事みて考え込んだYO 記事のことは知らんけど、
ファイル名や更新日などから特定のファイルを見つけ出すのと違って、
ファイルの内容からキーワードを拾ってファイルを探すのが全文検索。
全文検索にとってINDEX検索とは、検索の一手段ということになる。
って感じか。
>>96
その定義だと「全文」の言葉を使うのはおかしいんでねーの?
むしろ「ファイル検索」というのがふさわしいと思う
あくまでテキストすべて(全文)を検索するから「全文検索」じゃないの?
だったらやっぱりINDEX検索だけだと全文検索の要件を満たさないと思うなー
NamazuがINDEX検索だけなのかどうかは分かりませんが インデックスを作るにあたって記事の全文を対象にしてるわけだから、全文検索と言えるでしょ。
やたら狭義に解釈してもしょうがない。 >>99
INDEX作成はNamazuだと自立語だけしか対象にしないんじゃない?
それって全文対象と本当に言えるのかね
例えば「萌え語INDEX」を作って検索したとしても全文検索? ■ このスレッドは過去ログ倉庫に格納されています