第10回 Solr 勉強会にいってきた
3月26日に開催された、第10回 Solr 勉強会にいってきた。だいぶ遅くなったけどもろもろメモ。
辞書型コーパスからの類義語知識の自動獲得
- 株式会社ロンウイット 関口さん
- 資料
- Solr で同義語検索は SynonymFilter で簡単にできるけど、辞書を用意するのが大変。
- Wikipedia から同義語辞書を作ってみましょう的なお話し。
- 誤抽出は検索時に上位にさせない工夫をする余地があるので、実用になりそう。
- 今回の抽出対象は原型語とその省略語ということで、「Mr.Children」と「ミスチル」のようなものは対象外。
- そのような類義語辞書が必要な場合は別の方法(手動?)が必要。
- オライリーから Lucene / Solr 本(もちろん英語)が出るらしい。
- http://shop.oreilly.com/product/0636920028765.do
- これに今回のソースが載るとか載らないとか。
GREE における全文検索の歴史
- グリー株式会社 尾形さん (@nobu666)
- 資料
- GREE の検索あんまり使われてない。
- 会場も使ったことある人の挙手なかった…。
- 担当も1人とかなんとか。
- Senna → Tritonn → Lucene → Solr (2012年初頭から)
- Lucene → Solr は IF の互換保ったまま移行。
- クエリ変換、結果の XML のカスタマイズ、インデキシングの IF 等。
- ユーザ、コミュニティなど用途別に7スキーマ、サーバ40台少々。
- 贅沢構成だなーと思ったら、サーバくれといえばもらえるらしい…。
- うらやましい…。
- Range Query で slave が重くなるらしい。
- スパム回避のため、多くのクエリにユーザ登録日の Range Query が入っているとのこと。
- インデクサはマルチスレッド。
- 無停止でスキーマ変更するの大変。
- よく聞く話…。
- 辞書のメンテが大変なので(多言語対応もあるため特に)トークナイザは bi-gram 。
- 大きいスキーマでインデクサ 80GB ほど。
企業内の大規模ファイルサーバ検索事例
- ソフトバンクBB株式会社 野口さん
- 社内ファイルサーバの検索。
- Apache ManifoldCF と連携。
- 対象のファイル(だったかな?) 70TB 。
- 「僕らはサーバくれと言ってももらえないので。」
- 詰め込んだ感じの構成。
- 検索スコア BoostQuery, BoostFunction で調整。
- 外部データでブースト。 External file field で可能?
SolrCloud の導入事例
- 株式会社サイバーエージェント 弘瀬さん
- 資料
- Simplog 検索(スマホ用ブログサービス)への導入事例。
- Solr 4.1
- 295万 Docs
- インデックス 1.5GB
- 反映まで 5min 程度
- 3qps
- さまざまな構成によるベンチマーク。
- 人柱的なニュアンスでこの規模のサービスに導入したとのこと。
- メリットもあるけど、パフォーマンスが落ちる部分もある。
- なんだかんだで素の Solr が速い。
- 自分のお仕事で使うのはまだ早いかなーといった印象。