第9回 Solr 勉強会にいってきた
昨日 (11月26日) に開催された、第9回 Solr 勉強会にいってきた。もろもろメモ。
Who we are, what we do, and a little bit about Kuromoji
- Atilika Inc. Christian Moen さん
- Kuromoji コミッタ
- Atilika Inc. の紹介
- Kuromoji の紹介
Kuromoji の今後について
感想
- 試される英語力
- いくつか Solr 4.1 で取り込まれる改良が面白そう(サジェスタ?等)
Solr@ニコニコ生放送
- 株式会社ドワンゴ 吉村総一郎さん (@sifue)
- http://www.slideshare.net/sifue/20121126-solr
- MySQL + senna から Solr へ乗り換え
- 生放送開始後1分以内に検索にヒットするのが要件
- Google の方が反映早いケースがあった
- 生放送開始後1分以内に検索にヒットするのが要件
- Solr 3.4.0 (patched), jetty 7.5.0, master x1, slave x2
- 1週間以前の番組はインデックスしない(ニコ生の仕様上見られない)
- 結果、更新多いが全量少ない
- 来場者数とコメント数の更新頻度特に高い。
- インデックス作成はバッチ
- 更新、削除情報を Redis ストア→バッチで流す
- CJKTokenizer
- Bi-gram なので FF, DQ などに弱い
- タグ情報付加でしのいでる
- Bi-gram なので FF, DQ などに弱い
- ピーク時 SELECT 40QPS 程度。 UPDATE 80QPS 程度。 #SolrJP
- クローラーやユーザのツールによる突発的な負荷は適宜弾くなどで対処
開発環境
- 単一 jetty で Solr を30個近く起動
- 開発者ごとの開発用の DB と整合とったりするため
- jar の更新は1箇所で済んで便利
- 単一 jetty で Solr を30個近く起動
感想
- Solr 化のストーリーも構成もどこか既視感が
- 開発環境はどこもいろいろ工夫しているんだなー
ドリルダウン色々
- 株式会社マーズフラッグ 柳吾朗さん (@hitode7456)
- http://www.slideshare.net/goroyanagi/solr-15369362
- ドリルダウン検索の実装方法いろいろ
- 力ずくの実装→ちょっと改善した実装→ Solr 4.0 の Pivot Facet を使った実装
発表中に @johtani さんがつぶやいていたドリルダウンに関するリンク
感想
- Pivot Facet 便利!
- 自分とこにも即使えそうなので試してみよう
elasticsearch と Solr の比較
- クックパッド 兼山元太さん (@penguinana_)
- https://speakerdeck.com/penguinco/solrtoelasticsearchfalsebi-jiao
- Solr と同じ Lucene based
- できることはだいたい Solr と同じ
- 比較サイト
- NHN が公開しているデータセットを使ったデモ
- RESTful API
- データの投入、検索
- Analyzer の定義、各種設定なども API 経由
- スキーマフリー
- 強制的に定義も可能
- 分散検索は Solr よりいろいろ細いことできる
- プラグインいろいろ
- 標準ではクエリキャッシュがない
- http 層でキャッシュ (Varnish etc.) 入れる必要あるかも
稼働中の Solr があるならそれでいいよね感
感想
- 洗脳こわい
- elasticsearch 良さそう(おもしろそう)
追記
リンクとか。