Topics & News
マピオンラボリニューアルしました。

Mapion マピオンラボ セミナー/勉強会 次世代サーチ・テクノロジー・フォーラム2010 に行ってきました!

次世代サーチ・テクノロジー・フォーラム2010 に行ってきました!

次世代サーチ・テクノロジー・フォーラム2010に行ってきました~。



午前中は「サーチ関連パートナー講演」でいくつかの会社の製品やサービスの紹介がメイン。

  1. 検索エンジンをRosetteでよりスマートに
  2. エンデカ・テクノロジーズについて
  3. ルーシッド・イマジネーションについて
  4. gooの検索サービスについて
  5. BIGLOBEサーチについて
いくつか気になったところをピックアップ。
  • Rosetteはただの形態素解析エンジンじゃない!
    • 言語・文字コード判別
    • カタカナ表記ゆれ対応(ファミコン=ファミリーコンピューターとか)
    • 漢字の旧字体サポート
    • 固有表現抽出
  • goo
    • ダイレクト機能 ・・・ 「大手町から渋谷」と検索すると検索結果ページに乗り換え案内も表示する
    • 行動ナビ機能 ・・・ 検索キーワードに応じた行動を提示してくれる
      • 「マピオン」で検索 → 「サイトを見たい」 :使い方、裏技(?)
      • 「田町駅」で検索 → 「知りたい」:おみやげ、 「行きたい」:乗換

ここで昼食会。タダです。太っ腹 ( ´∀`)b
懇親会がないので、みんなここで名刺交換や情報交換です。
Solr勉強会でお会いした人も何人かいました。
ちょっと面白いのが、元FASTの社員のかたが数名いて、かるく同窓会みたいになってました。


午後は各セッション毎に別れて行われました。

  • FAST ESP と Apache Solr : 商用検索エンジンとオープンソース検索システム最先端比較
個人的には一番興味深いセッション。
  • アーキテクチャ、FASTとSolrは基本的なアーキテクチャは似ている
  • FASTは今後Windows版のみになる
  • Solrはほとんどの機能がプラグイン
  • FASTは自動フェイルオーバーするがSolrはしない。でも1.5からOK。
  • 管理、FASTは一元管理。Solrはサーバ毎。これも1.5から改善される。
  • FASTはGUIのインストーラー付き。Solrはない。
  • FASTのドキュメントプロセッサーはPython。CやC++も可。 ただしFASTの場合、便利なものが多数付属されているのであまり自作しないかも。
  • Solrはカスタムハンドラなど拡張するのはラク。オープンソースだし、既存のコンポーネントのソースを見ればいいし。
  • Solrは言語処理部分が弱い。アナライザーがフィールドごと。アナライザー間で情報交換ができない。
  • FAST:XPathに近いクエリー。スコープサーチ。
  • Solr:ファンクションクエリーを使うとFASTなみの検索が可能。
  • まとめ:Solr1.4の時点で比較するなら、 FAST > Solr

  • いまさら聞けない「検索エンジンの基礎知識」
    • 良い検索エンジンとは?
      • 検索漏れ ・・・ 「リナックス」では「Linux」はヒットしない
      • ノイズ ・・・ 「ABC」で「朝日放送」はヒットするべきか
→ チューニングは必須
    • 停止後/言語処理と検索の関係
      • 定冠詞(Theなど)や接続詞など
      • でも停止後のみの場合どうするか?「To be or not to be」、「This is it」
    • 類義語/言語処理と検索の関係
      • 省略語や新旧漢字
      • 多対一の場合と一対多の場合がある

  • 開発者が語るSolr
Solr創設者によるセッション。
  • Solrの成長 : Googleトレンドを見ると右肩上がり
  • Solrのスケーラビリティ
    • 単一のSolrのスケーラビリティ
      • 20億の文書
      • 1セグメントあたり2740億のユニーク項目
      • 1秒間に何千件もの問い合わせ
      • 実際には複雑な問い合わせ、ファセットがあるので100~1000万文書が実用的なところ
    • 分散化検索
      • 索引をシャード(断片)に分割
      • 単一の検索を複数のシャードに分散化
  • スケーラビリティの事例
Wikipediaをインデックス化
  • 索引サイズ : 1.2テラバイト
  • シャード数 : 100 EC2大規模インスタンス
  • 平均問い合わせ時間 : 50ms未満
  • 文書の分割
    • 文書IDで分割 ・・・ クラスターのサイズ変更が困難
    • 日付による分割 ・・・ 最新データに対する重み付けが可能
  • 今後実装される機能
    • SolrCloud
      • Apache Zookeeperとの統合 ・・・ 中央制御構造
      • ネイティブの負荷均等化 ・・・ Solrでクラスターを認識
      • すべての単一障害点の除去
      • マスターと検索用サーバーの区別の撤廃
      • 弾力性 ・・・ 新規マシン、クラスターで自動的に負荷均等化
    • 空間検索 ・・・ 1.4まではプラグインで実現するしかなかった
    • ニアリアルタイム検索 ・・・ 更新から検索までの時間を短縮
    • フィールドの折り畳み ・・・ ?
    • 質疑応答で出たこと ・・・ 分散化した場合、スコアリングが変化するが。 → グローバルtf-idfが必要。(※そうか、、、考えてなかった(;・∀・))
comment
ニックネーム 
trackback

この記事のトラックバックURLhttp://labs.mapion.co.jp/mtos/mt-tb.cgi/57

Mashup Awards 7 (#MA7)
ユーザーアーカイブ