See the attachments on this page, for testing search capabilities. The Japanese text below, courtesy Wikipedia's Japanese entry on the Genji Monogatari, is what is contained in the attached files.
なお、平安時代末期に成立したと見られる『源氏物語絵巻』には、絵に添えられた詞書として『源氏物語』の本文と見られるものが記されており、その中には現在知られている『源氏物語』の本文と大筋で同じながら現在発見されているどの写本にも見られない本文が含まれている。この本文は、現在確認されている限りで最も古い時代に記された『源氏物語』の本文ということになるが、「絵巻の詞書」というその性質上もともとの本文の要約である可能性などもあるため本来の『源氏物語』本文をどの程度忠実に写し取っているのか解らないとして本文研究の資料としては使用できないとされている。
『源氏物語』の原文は、専門的な教育なしには、現代人にはかなり難しいもので、瀬戸内寂聴訳が、近年、ベストセラーになったように、むしろ現代語訳で親しんでいる人々の方が多いと言える。数ある日本の古典文学の中でも、恐らくその豊かな内容の故に、最も現代語訳が試みられており、また訳者に作家が多いのも特徴である。
古い時代に作られ現在まで伝わっている実際の写本は、出来上がった写本が完成当時の姿をそのまま伝えられていることは少なく、一部が欠けてしまったり、その欠けた部分を補うために別の写本と組み合わせたり、別系統の本文を持った写本と校合されていることも少なくない。またこのような状態の写本を元にしてそのまま写した写本を作成したために最初に完成した時点ですでに巻ごとに異なった系統の本文になったと見られる写本も存在する。
よく文字化けする文字テスト
| ― | ソ | Ы | | 噂 | 浬 | 欺 | 圭 | 構 | 蚕 | 十 | 申 | 曾 | 箪 | 貼 | 能 | 表 | 暴 | 予 | 禄 |
| 兔 | 喀 | 媾 | 彌 | 拿 | 杤 | 歃 | 濬 | 畚 | 秉 | 綵 | 臀 | 藹 | 觸 | 軆 | 鐔 | 饅 | 鷭 |
Lucene search in Deki Wiki is set up to index attachments by converting them to text using "filters". The filters are installed as packages during the Deki Wiki install process, and then somehow copied to /var/www/deki-hayes/bin/filters, where they are referenced by the startup xml file /var/www/deki-hayes/config/mindtouch.deki.startup.xml. Refer to the snip below.
Deki Wikiの検索エンジンは、フィルターを使い添付をテキストに変換して、インデックスしてます。Deki Wikiのインストール時、vwTextやpdf2textをパッケージとして導入して、/var/www/deki-hayes/bin/filtersにどうにかコピーされます。起動時、/var/www/deki-hayes/config/mindtouch.deki.startup.xmlと言う、スタートアップXMLよりロードされます。startup.xmlの一部を、以下をご参照。
<indexer>
<path.store>/usr/local/var/luceneindex</path.store>
<filter-path extension="doc">/var/www/deki-hayes/bin/filters/wvText</filter-path>
<filter-path extension="pdf">/var/www/deki-hayes/bin/filters/pdf2text</filter-path>
<filter-path extension="xhtml">/var/www/deki-hayes/filters/html2text</filter-path>
<filter-path extension="html">/var/www/deki-hayes/bin/filters/html2text</filter-path>
<filter-path extension="htm">/var/www/deki-hayes/bin/filters/html2text</filter-path>
<filter-path extension="docx">/var/www/deki-hayes/bin/filters/docx2txt</filter-path>
<filter-path extension="odt">/var/www/deki-hayes/bin/filters/odt2txt</filter-path>
<filter-path extension="odp">/var/www/deki-hayes/bin/filters/odp2txt</filter-path>
<filter-path extension="ppt">/var/www/deki-hayes/bin/filters/ppt2txt</filter-path>
<filter-path extension="pptx">/var/www/deki-hayes/bin/filters/pptx2txt</filter-path>
<filter-path extension="xls">/var/www/deki-hayes/bin/filters/xls2txt</filter-path>
<filter-path extension="pl"></filter-path>
<filter-path extension="c"></filter-path>
<filter-path extension="h"></filter-path>
<filter-path extension="inc"></filter-path>
<filter-path extension="php"></filter-path>
<filter-path extension="cs"></filter-path>
<filter-path extension="txt"></filter-path>
<filter-path extension="csv"></filter-path>
<filter-path extension="xml"></filter-path>
<filter-path extension="xsl"></filter-path>
<filter-path extension="xslt"></filter-path>
</indexer>
Wikiページ自体でLucene検査は、ザッとテストした結果動いてそうだが、添付は中途半端。フィルターを、ちゃんと日本語を認識するように、設定しないと行けないだろう。
If you enable the multiverse repository in /etc/apt, you can install xpdf-japanese, which includes a PDF text extractor "pdf2text" that works on Japanese PDFs. Deki Wiki originally uses pdftohtml, which is based on xpdf, but which ignores the xpdf resource config file. A filter would have to be set up for this to work correctly.
Here is a successful method for enabling PDF Indexing in Japanese.
日本語PDFにて、インデックス作成が成功できました。見つかった方法をご覧ください。
| File | Size | Date | Attached by | |||
|---|---|---|---|---|---|---|
| Archive.zip No description | 71.71 kB | 23:39, 24 Nov 2007 | RickCogley | Actions | ||
| Deki Search Test Japanese.pdf No description | 23.42 kB | 23:39, 24 Nov 2007 | RickCogley | Actions | ||
| Deki Search Test Japanese Powerpoint.ppt Preview No description | 82.5 kB | 23:39, 24 Nov 2007 | RickCogley | Actions | ||
| Deki Search Test Nihongo Excel.xls Preview No description | 28.5 kB | 23:39, 24 Nov 2007 | RickCogley | Actions | ||
| Deki Search Test Nihongo Word.doc Preview No description | 19.5 kB | 23:39, 24 Nov 2007 | RickCogley | Actions | ||
| Deki Search Test 日本語.pdf No description | 23.42 kB | 23:39, 24 Nov 2007 | RickCogley | Actions | ||
| Deki Search Test 日本語 エクセル.xls Preview No description | 28.5 kB | 23:39, 24 Nov 2007 | RickCogley | Actions | ||
| Deki Search Test 日本語 パワーポイント.ppt Preview No description | 82.5 kB | 23:39, 24 Nov 2007 | RickCogley | Actions | ||
| Deki Search Test 日本語 ワード.doc Preview No description | 19.5 kB | 23:39, 24 Nov 2007 | RickCogley | Actions | ||
| resources-ja.jp.txt Preview No description | 57.21 kB | 23:39, 24 Nov 2007 | RickCogley | Actions | ||
| エクセルテスト.xls Preview MS Execl2003添付文書が検索にヒットするかテストするためのテストデータ | 15 kB | 04:07, 21 Nov 2007 | Mio | Actions | ||
| パワポテストファイル.ppt Preview MS PowerPointl2003添付文書が検索にヒットするかテストするためのテストデータ | 10 kB | 04:07, 21 Nov 2007 | Mio | Actions | ||
| 日本語テスト.pdf Export of Japanese page via OS/X Leopard's Print PDF function. | 62.46 kB | 02:36, 12 Nov 2007 | RickCogley | Actions | ||
| 添付文書検索テスト.doc Preview MS Word2003添付文書が検索にヒットするかテストするためのテストデータ | 23.5 kB | 04:07, 21 Nov 2007 | Mio | Actions | ||
ftp://ftp.foolabs.com/pub/xpdf/xpdf-japanese.tar.gz
CentOSで再チャレンジしてますが、まだ、先は長そうです。
考慮点:php5-mcryptが普通のDistroにはないので、/etc/apt/sources.listを編集。これらをUncomment:
deb http://archive.ubuntu.com/ubuntu/ gutsy universe
deb-src http://archive.ubuntu.com/ubuntu/ gutsy universe
それから、php5.confも、一行を足さないと行けない。以下、3行目を足す:
root@fire:/etc/apache2/mods-available # cat php5.conf
<IfModule mod_php5.c>
AddType application/x-httpd-php .php .phtml .php3
AddType application/x-httpd-php-source .phps
AddType application/x-httpd-php .php4 .php5
</IfModule>
で動いてくれた。
aptitude install ubuntu-standard
ありがとうございます!、早速エンジニアチームに内容を伝えました。
無事解決してインストールしてくれるといいのですが・・
他にもTipsとかありましたら、教えてください!