スキップしてメイン コンテンツに移動

投稿

ラベル(Namazu)が付いた投稿を表示しています

【Namazuの実行に必要だった色々】

【Namazuの実行に必要だった色々】 この投稿は、2023年は07月の18日メッセンジャーに記していた雑記を、ブログ用に纏めたものです。 fml の使用をしまし為に、いやさ既に MHonArc の使用をしまし為になっていますが、 Namazu の周りも一応なりと整えませんといけず。 当時の話しです。 Namazu を Windows 系で行なおうと思いますと、当時は Apach web server で良いんですが、 Windows での server は NT 系や 2000 で行なわれていましなかたが多くのことからに皆気が付きませんでしたの、 Microsoft Personal Web Server と言いましものが Windows98 にありました。 ディスク容量は40メガバイト の使用をしますが、これが便利でした。 95や98やら2000やらMeやら何年か前のものやらは持っていましたけれどね。 他にはですと、 nkf KAKASI などが要り用です。 Namazu が KAKASI 若しくは ChaSen の使用をし、 日本語 を わかち書き にしましてで インデックス の作成をしていましたので、これらが要り用でありですが、 Windows 版の Namazu は ChaSen には対応をしておらず。 簡単で速度重視ならKAKASI 、 品質の重視ならChaSen 。 KAKASI は、 漢字 や 仮名 混じりの文を、 ローマ字 などに変換をしましなもので、 高橋 裕信 さんと言いましかたにより、 simple kanakanji converter と言いまし 漢字入力システム を元に作成をされています。 ChaSen は、 奈良先端科学技術大学院大学自然言語処理学講座 の 形態素解析システム であり、(user/local/binに実行可能ファイルのインストールがされ、user/local/lib/chasenにライブラリーがインストールをされます)これな為に文の最小単位での抽出に威力の発揮をしていました。 また、当時は実験段階でしたも、 Namazu は、 品詞 の情報を元に 名詞句 での インデックス の作成をしましなことが