第10回 Solr 勉強会にいってきた - 復刊ボルシチは食べ物です。

3月26日に開催された、第10回 Solr 勉強会にいってきた。だいぶ遅くなったけどもろもろメモ。

株式会社ロンウイット関口さん
資料
- http://www.slideshare.net/KojiSekiguchi/wikipediasolr
Solr で同義語検索は SynonymFilter で簡単にできるけど、辞書を用意するのが大変。
Wikipedia から同義語辞書を作ってみましょう的なお話し。
誤抽出は検索時に上位にさせない工夫をする余地があるので、実用になりそう。
今回の抽出対象は原型語とその省略語ということで、「Mr.Children」と「ミスチル」のようなものは対象外。
- そのような類義語辞書が必要な場合は別の方法（手動？）が必要。
オライリーから Lucene / Solr 本（もちろん英語）が出るらしい。
- http://shop.oreilly.com/product/0636920028765.do
- これに今回のソースが載るとか載らないとか。

グリー株式会社尾形さん (@nobu666)
資料
- http://www.slideshare.net/NobutoshiOgata/solr10
- http://nobu666.com/2013/03/27/991.html
GREE の検索あんまり使われてない。
- 会場も使ったことある人の挙手なかった…。
- 担当も1人とかなんとか。
Senna → Tritonn → Lucene → Solr (2012年初頭から)
- Tritonn やめた理由はあるある感。
- 生 Lucene 大変そう。
Lucene → Solr は IF の互換保ったまま移行。
- クエリ変換、結果の XML のカスタマイズ、インデキシングの IF 等。
ユーザ、コミュニティなど用途別に7スキーマ、サーバ40台少々。
- 贅沢構成だなーと思ったら、サーバくれといえばもらえるらしい…。
- うらやましい…。
Range Query で slave が重くなるらしい。
- スパム回避のため、多くのクエリにユーザ登録日の Range Query が入っているとのこと。
インデクサはマルチスレッド。
無停止でスキーマ変更するの大変。
- よく聞く話…。
辞書のメンテが大変なので（多言語対応もあるため特に）トークナイザは bi-gram 。
大きいスキーマでインデクサ 80GB ほど。