トップ «前の日記(2014年10月02日) 最新 次の日記(2014年10月04日)» 編集

KeN's GNU/Linux Diary
... 料理とDebianと雑多な記録


2014年10月03日

_ [review] 『検索エンジン自作入門』

検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏
山田 浩之/末永 匡
技術評論社
¥ 2,894

RubyKaigiまとめ買いの1冊を読了。

転置インデックスに基づいた日本語の機械的検索手法の、アルゴリズムおよび実装(C言語による)の入門書。Wikipediaテキストを検索する簡易なwiserという検索エンジン実装を見ながら、検索の基本理論、効率化、圧縮高速化、言葉の揺れへの対策などが示される。

単に一度読むだけでなく、サブタイトル「手を動かしながら見渡す検索の舞台裏」とあるとおり、実際に記述に従ってコードで試していくことで、より深い理解を得られそう。

次のステップは、たとえばクローラーや形態素解析、あるいは分散環境といったあたりになるだろうか。

書籍制作分野に身を置く立場として読んでもいくつか興味深いことが。

  • カバーを外した表紙が真っ白で「すわ、事故か?」と思ったんだけど、編集担当の傳さんから「意図的です。これまで20冊ぐらいそうしています」というご連絡をいただいた。ちょっと驚いた。
  • カバーの紙は縦筋を用いた凹凸があり、手触りが楽しい。(ただ机が汚れていたためか、裏表紙がだいぶ汚れてしまった……。)
  • 黒丸数字が20番台どころか40番台まで使われている! 通常、黒丸数字の大きな番号はCIDで指定するほかなく、しかもコードポイントがバラバラなので、DTP泣かせ。たくさんあったのはどうやって処理したのか気になるところ。また、文字表現範囲に制約のあるEPUB版で、どう対処したのかも気になる。

_ [cooking] 鳥の唐揚げ、きゅうりのぬか漬け


久しぶりの揚げ物。