1年ぶりの至仏山バックカントリー

ゴールデンウィーク前半戦28日は、昨シーズンに続き今年も行ってきました至仏山バックカントリー。

今回も冒険小屋さんのツアーのお世話に。パーティはゲスト10名 + ガイドさん2名の12人編成。去年は至仏山常連みたいな人が多かった記憶があるけど、今回は初めての人が多い様子。

前日がまさかの季節外れの降雪ということで、初っ端から鳩待峠行きのバスや乗り合いタクシー除雪待ちで動いていないというトラブル。なんやかんやで鳩待峠についたのが10時20分くらいだったのかな。去年は8時半にはスタートしてたからずいぶん遅かったんだなぁ。10時半すぎに鳩待峠をスタート。やはり途中で時間切れということで至仏山へは行かず小至仏山からドロップすることになり、14時頃小至仏山頂に到着。ぱぱっと記念写真撮影など済ませたら、いよいよ滑走。

前日の天気を聞いた時点で期待はしてたけど、本当にパウダーコンディション!まさかゴールデンウィークにパウダーを滑れるとは…。標高が下がるにつれて雪は徐々にモナカになってたけど、去年のような強烈なストップ雪に悩まされることもなく最後まで楽しめた。滑走後は30分ちょっと(?)ハイクアップして16時頃鳩待峠に無事下山。

去年も書いてたけど、やっぱり夏山とも普通のスキーとも違う疲れ方してへろへろなった。そのへんは反省点として覚えておくとして、とにかく季節外れのパウダースノー、最高でした!

第10回 Solr 勉強会にいってきた

3月26日に開催された、第10回 Solr 勉強会にいってきた。だいぶ遅くなったけどもろもろメモ。

辞書型コーパスからの類義語知識の自動獲得

  • 株式会社ロンウイット 関口さん
  • 資料
  • Solr で同義語検索は SynonymFilter で簡単にできるけど、辞書を用意するのが大変。
  • Wikipedia から同義語辞書を作ってみましょう的なお話し。
  • 誤抽出は検索時に上位にさせない工夫をする余地があるので、実用になりそう。
  • 今回の抽出対象は原型語とその省略語ということで、「Mr.Children」と「ミスチル」のようなものは対象外。
    • そのような類義語辞書が必要な場合は別の方法(手動?)が必要。
  • オライリーから Lucene / Solr 本(もちろん英語)が出るらしい。

GREE における全文検索の歴史

  • グリー株式会社 尾形さん (@nobu666)
  • 資料
  • GREE の検索あんまり使われてない。
    • 会場も使ったことある人の挙手なかった…。
    • 担当も1人とかなんとか。
  • SennaTritonnLucene → Solr (2012年初頭から)
    • Tritonn やめた理由はあるある感。
    • Lucene 大変そう。
  • Lucene → Solr は IF の互換保ったまま移行。
    • クエリ変換、結果の XML のカスタマイズ、インデキシングの IF 等。
  • ユーザ、コミュニティなど用途別に7スキーマ、サーバ40台少々。
    • 贅沢構成だなーと思ったら、サーバくれといえばもらえるらしい…。
    • うらやましい…。
  • Range Query で slave が重くなるらしい。
    • スパム回避のため、多くのクエリにユーザ登録日の Range Query が入っているとのこと。
  • インデクサはマルチスレッド。
  • 無停止でスキーマ変更するの大変。
    • よく聞く話…。
  • 辞書のメンテが大変なので(多言語対応もあるため特に)トークナイザは bi-gram 。
  • 大きいスキーマでインデクサ 80GB ほど。

企業内の大規模ファイルサーバ検索事例

  • ソフトバンクBB株式会社 野口さん
  • 社内ファイルサーバの検索。
  • Apache ManifoldCF と連携。
  • 対象のファイル(だったかな?) 70TB 。
  • 「僕らはサーバくれと言ってももらえないので。」
    • 詰め込んだ感じの構成。
  • 検索スコア BoostQuery, BoostFunction で調整。
  • 外部データでブースト。 External file field で可能?

SolrCloud の導入事例

  • 株式会社サイバーエージェント 弘瀬さん
  • 資料
  • Simplog 検索(スマホ用ブログサービス)への導入事例。
    • Solr 4.1
    • 295万 Docs
    • インデックス 1.5GB
    • 反映まで 5min 程度
    • 3qps
  • さまざまな構成によるベンチマーク
  • 人柱的なニュアンスでこの規模のサービスに導入したとのこと。
  • メリットもあるけど、パフォーマンスが落ちる部分もある。
    • なんだかんだで素の Solr が速い。
  • 自分のお仕事で使うのはまだ早いかなーといった印象。

ゆるゆりライブイベント3「七森中♪ふぇすてぃばる」に参加してきた

昨日開催された、ゆるゆりのライブイベント、「七森中♪ふぇすてぃばる」に参加してきました。

前回のライブイベント、「七森中♪うたがっせん」は昼の部のみの参加でしたが、今回は昼夜両方の参加。結論は最高の一言!!ゆるゆりを応援していて本当に良かった!各曲の感想等いろいろとあるのですが、一番うれしかったことを一つ。

昼の部、夜の部、それぞれ初見としてのサプライズ、夜の部だけの演出としてのサプライズとあったわけですが、夜の部でのごらく部単独ライブ開催の発表!これが一番うれしくて泣いてしまった。今回のライブはめちゃくちゃ楽しみにしていた反面、2期のアニメの放送が終わって3期は未定、ふぇすてぃばる以降のイベントもほぼ未定ということで、これで終わってしまうというという恐怖感(?)のようなものがありました。しかし、この発表でそんな心配はいらないないナイアガラに!

これで終わってしまうという思いは当然ごらく部の面々にもあったようで、 MC でもそのようなことが語られていましたね。4人にとっても最高のサプライズだっただろうなあ。

ただ、単独ライブは生徒会の4人を始めとするいつもの面々は当然集まらないであろうってことで、さっきぃラブな私としては残念なところ。 MC でまたみんなでライブイベント4やりましょうみたいな話もあったので、ぜひ実現してほしいですね!!

さっきぃかわいい。

CentOS 6.x で Subversion 1.7 をコンパイルしたときのメモ

最近 CentOS 6.x で Subversion 1.7 をコンパイルすることがあったのでメモっておく。

前提

CentOS の yum で入る Subversion は 1.6 系なので 1.7 系使いたければ、自分でコンパイルするか、適当なパッケージ見つけてくる必要がある。

コンパイル手順

必要なライブラリがいくつかあるので yum で入れる。 あとは configure, make, make install のいつもの手順で。

ちなみに apr-util-devel がないと configure で怒られる。

sqlite-devel がなくても configure で怒られる。

neon-devel はなくても configure 通るけど、 svn コマンドが URL を解決できなくて困る。

コマンドラインから JSON を整形してくれる jsonpp が便利だった

JSON を出力する API の開発とかで JSON をいい感じに整形して確認したいとき、今までは Chrome 拡張の JSONView なんかを使っていたけど、コマンドから使える同様のツールないかなーと探してみたら jsonpp というのがあった。

Mac なら homebrew で簡単にインストールできる。

$ brew install jsonpp

curl にパイプしたりして使うと便利。

$ curl -d 'hoge=fuga' 'http://path/to/api' | jsonpp

ソース覗いてみたら Go で実装されていてびっくり。

一人暮らしを始めました。

タイトルはゆるゆり1巻の結衣ちゃんのセリフから。

実家を出て一人暮らし始めた。とはいっても、今日は事務手続きなどで時間を食ってしまい新しい部屋には布団もない状態で、いったん実家に撤収してきてこれを書いてたりする。この週末に改めて環境整備を進めて、来週には本格的にあっちで暮らせるようしたいなー。

第9回 Solr 勉強会にいってきた

昨日 (11月26日) に開催された、第9回 Solr 勉強会にいってきた。もろもろメモ。

Who we are, what we do, and a little bit about Kuromoji

  • Atilika Inc. Christian Moen さん
    • Kuromoji コミッタ
  • Atilika Inc. の紹介
  • Kuromoji の紹介
  • Kuromoji の今後について

  • 感想

    • 試される英語力
    • いくつか Solr 4.1 で取り込まれる改良が面白そう(サジェスタ?等)

Solr@ニコニコ生放送

  • 株式会社ドワンゴ 吉村総一郎さん (@sifue)
  • http://www.slideshare.net/sifue/20121126-solr
  • MySQL + senna から Solr へ乗り換え
    • 生放送開始後1分以内に検索にヒットするのが要件
      • Google の方が反映早いケースがあった
  • Solr 3.4.0 (patched), jetty 7.5.0, master x1, slave x2
  • 1週間以前の番組はインデックスしない(ニコ生の仕様上見られない)
    • 結果、更新多いが全量少ない
  • 来場者数とコメント数の更新頻度特に高い。
  • インデックス作成はバッチ
    • 更新、削除情報を Redis ストア→バッチで流す
  • CJKTokenizer
    • Bi-gram なので FF, DQ などに弱い
      • タグ情報付加でしのいでる
  • ピーク時 SELECT 40QPS 程度。 UPDATE 80QPS 程度。 #SolrJP
    • クローラーやユーザのツールによる突発的な負荷は適宜弾くなどで対処
  • 開発環境

    • 単一 jetty で Solr を30個近く起動
      • 開発者ごとの開発用の DB と整合とったりするため
      • jar の更新は1箇所で済んで便利
  • 感想

    • Solr 化のストーリーも構成もどこか既視感が
    • 開発環境はどこもいろいろ工夫しているんだなー

ドリルダウン色々

  • 株式会社マーズフラッグ 柳吾朗さん (@hitode7456)
  • http://www.slideshare.net/goroyanagi/solr-15369362
  • ドリルダウン検索の実装方法いろいろ
  • 力ずくの実装→ちょっと改善した実装→ Solr 4.0 の Pivot Facet を使った実装
  • 発表中に @johtani さんがつぶやいていたドリルダウンに関するリンク

  • 感想

    • Pivot Facet 便利!
    • 自分とこにも即使えそうなので試してみよう

elasticsearch と Solr の比較

追記

リンクとか。