読者です 読者をやめる 読者になる 読者になる

第10回 Solr 勉強会にいってきた

tech

3月26日に開催された、第10回 Solr 勉強会にいってきた。だいぶ遅くなったけどもろもろメモ。

辞書型コーパスからの類義語知識の自動獲得

  • 株式会社ロンウイット 関口さん
  • 資料
  • Solr で同義語検索は SynonymFilter で簡単にできるけど、辞書を用意するのが大変。
  • Wikipedia から同義語辞書を作ってみましょう的なお話し。
  • 誤抽出は検索時に上位にさせない工夫をする余地があるので、実用になりそう。
  • 今回の抽出対象は原型語とその省略語ということで、「Mr.Children」と「ミスチル」のようなものは対象外。
    • そのような類義語辞書が必要な場合は別の方法(手動?)が必要。
  • オライリーから Lucene / Solr 本(もちろん英語)が出るらしい。

GREE における全文検索の歴史

  • グリー株式会社 尾形さん (@nobu666)
  • 資料
  • GREE の検索あんまり使われてない。
    • 会場も使ったことある人の挙手なかった…。
    • 担当も1人とかなんとか。
  • SennaTritonnLucene → Solr (2012年初頭から)
    • Tritonn やめた理由はあるある感。
    • Lucene 大変そう。
  • Lucene → Solr は IF の互換保ったまま移行。
    • クエリ変換、結果の XML のカスタマイズ、インデキシングの IF 等。
  • ユーザ、コミュニティなど用途別に7スキーマ、サーバ40台少々。
    • 贅沢構成だなーと思ったら、サーバくれといえばもらえるらしい…。
    • うらやましい…。
  • Range Query で slave が重くなるらしい。
    • スパム回避のため、多くのクエリにユーザ登録日の Range Query が入っているとのこと。
  • インデクサはマルチスレッド。
  • 無停止でスキーマ変更するの大変。
    • よく聞く話…。
  • 辞書のメンテが大変なので(多言語対応もあるため特に)トークナイザは bi-gram 。
  • 大きいスキーマでインデクサ 80GB ほど。

企業内の大規模ファイルサーバ検索事例

  • ソフトバンクBB株式会社 野口さん
  • 社内ファイルサーバの検索。
  • Apache ManifoldCF と連携。
  • 対象のファイル(だったかな?) 70TB 。
  • 「僕らはサーバくれと言ってももらえないので。」
    • 詰め込んだ感じの構成。
  • 検索スコア BoostQuery, BoostFunction で調整。
  • 外部データでブースト。 External file field で可能?

SolrCloud の導入事例

  • 株式会社サイバーエージェント 弘瀬さん
  • 資料
  • Simplog 検索(スマホ用ブログサービス)への導入事例。
    • Solr 4.1
    • 295万 Docs
    • インデックス 1.5GB
    • 反映まで 5min 程度
    • 3qps
  • さまざまな構成によるベンチマーク
  • 人柱的なニュアンスでこの規模のサービスに導入したとのこと。
  • メリットもあるけど、パフォーマンスが落ちる部分もある。
    • なんだかんだで素の Solr が速い。
  • 自分のお仕事で使うのはまだ早いかなーといった印象。