Mapion マピオンラボ セミナー/勉強会 次世代サーチ・テクノロジー・フォーラム2010 に行ってきました!
次世代サーチ・テクノロジー・フォーラム2010に行ってきました~。
- 開催日:2010年 4月 22日 (木)
- 会場:国際文化会館
- 参加費:タダ (・∀・)
- 主催:ベイシス・テクノロジー株式会社
午前中は「サーチ関連パートナー講演」でいくつかの会社の製品やサービスの紹介がメイン。
- 検索エンジンをRosetteでよりスマートに
- エンデカ・テクノロジーズについて
- ルーシッド・イマジネーションについて
- gooの検索サービスについて
- BIGLOBEサーチについて
- Rosetteはただの形態素解析エンジンじゃない!
- 言語・文字コード判別
- カタカナ表記ゆれ対応(ファミコン=ファミリーコンピューターとか)
- 漢字の旧字体サポート
- 固有表現抽出
- goo
- ダイレクト機能 ・・・ 「大手町から渋谷」と検索すると検索結果ページに乗り換え案内も表示する
- 行動ナビ機能 ・・・ 検索キーワードに応じた行動を提示してくれる
- 「マピオン」で検索 → 「サイトを見たい」 :使い方、裏技(?)
- 「田町駅」で検索 → 「知りたい」:おみやげ、 「行きたい」:乗換
ここで昼食会。タダです。太っ腹 ( ´∀`)b
懇親会がないので、みんなここで名刺交換や情報交換です。
Solr勉強会でお会いした人も何人かいました。
ちょっと面白いのが、元FASTの社員のかたが数名いて、かるく同窓会みたいになってました。
午後は各セッション毎に別れて行われました。
- FAST ESP と Apache Solr : 商用検索エンジンとオープンソース検索システム最先端比較
個人的には一番興味深いセッション。
- アーキテクチャ、FASTとSolrは基本的なアーキテクチャは似ている
- FASTは今後Windows版のみになる
- Solrはほとんどの機能がプラグイン
- FASTは自動フェイルオーバーするがSolrはしない。でも1.5からOK。
- 管理、FASTは一元管理。Solrはサーバ毎。これも1.5から改善される。
- FASTはGUIのインストーラー付き。Solrはない。
- FASTのドキュメントプロセッサーはPython。CやC++も可。 ただしFASTの場合、便利なものが多数付属されているのであまり自作しないかも。
- Solrはカスタムハンドラなど拡張するのはラク。オープンソースだし、既存のコンポーネントのソースを見ればいいし。
- Solrは言語処理部分が弱い。アナライザーがフィールドごと。アナライザー間で情報交換ができない。
- FAST:XPathに近いクエリー。スコープサーチ。
- Solr:ファンクションクエリーを使うとFASTなみの検索が可能。
- まとめ:Solr1.4の時点で比較するなら、 FAST > Solr
- いまさら聞けない「検索エンジンの基礎知識」
- 良い検索エンジンとは?
- 検索漏れ ・・・ 「リナックス」では「Linux」はヒットしない
- ノイズ ・・・ 「ABC」で「朝日放送」はヒットするべきか
→ チューニングは必須
- 停止後/言語処理と検索の関係
- 定冠詞(Theなど)や接続詞など
- でも停止後のみの場合どうするか?「To be or not to be」、「This is it」
- 類義語/言語処理と検索の関係
- 省略語や新旧漢字
- 多対一の場合と一対多の場合がある
- 開発者が語るSolr
Solr創設者によるセッション。
- Solrの成長 : Googleトレンドを見ると右肩上がり
- Solrのスケーラビリティ
- 単一のSolrのスケーラビリティ
- 20億の文書
- 1セグメントあたり2740億のユニーク項目
- 1秒間に何千件もの問い合わせ
- 実際には複雑な問い合わせ、ファセットがあるので100~1000万文書が実用的なところ
- 分散化検索
- 索引をシャード(断片)に分割
- 単一の検索を複数のシャードに分散化
- スケーラビリティの事例
Wikipediaをインデックス化
- 索引サイズ : 1.2テラバイト
- シャード数 : 100 EC2大規模インスタンス
- 平均問い合わせ時間 : 50ms未満
- 文書の分割
- 文書IDで分割 ・・・ クラスターのサイズ変更が困難
- 日付による分割 ・・・ 最新データに対する重み付けが可能
- 今後実装される機能
- SolrCloud
- Apache Zookeeperとの統合 ・・・ 中央制御構造
- ネイティブの負荷均等化 ・・・ Solrでクラスターを認識
- すべての単一障害点の除去
- マスターと検索用サーバーの区別の撤廃
- 弾力性 ・・・ 新規マシン、クラスターで自動的に負荷均等化
- 空間検索 ・・・ 1.4まではプラグインで実現するしかなかった
- ニアリアルタイム検索 ・・・ 更新から検索までの時間を短縮
- フィールドの折り畳み ・・・ ?
- 質疑応答で出たこと ・・・ 分散化した場合、スコアリングが変化するが。 → グローバルtf-idfが必要。(※そうか、、、考えてなかった(;・∀・))

-
この記事のトラックバックURLhttp://labs.mapion.co.jp/mtos/mt-tb.cgi/57





