ハイパーリンク構造分析に基づく
Ｗｅｂページのアスペクト抽出

現在， Web 上には莫大な数の Web ページが散在しており，いわば，巨大なデータベースとなっている．この巨大なデータベースから目的の情報を取り出す手段として，現在では，検索エンジンを用いたキーワード検索が広く利用されている．これは，目的の Web ページの内容に関するキーワードを入力することにより，そのキーワードにマッチするWeb ページが検索結果として返され，この検索結果のタイトル名や要約文を参考にしながら，目的の Web ページを発見するという手法である．この検索手法は，検索者が目的とする Web ページの内容についてある程度の予備知識を持ち合わせており，適切な検索キーワードを選択することが可能である場合には非常に有効な手段といえる．しかしながら，このような手法では，目的とする Web ページに関連する断片的な知識しか持ち合わせていない状況では，所望する Web ページを検索することは非常に困難となる．このような場合，検索者は，所持している断片的な知識をもとに試行錯誤によって検索キーワードを決定し，さらにその検索結果から自分の所望する情報に関連のありそうな Web ページへのリンクをたどり，内容を確認しつつ目的の Web ページを検索するという作業が必要になる．この作業は非常に煩雑であり，膨大な数の検索結果が返された場合には，目的の Web ページにたどり着くまでに大変な時間を要することとなる．この問題を解決するための一手段として，検索結果として返された Web ページ群が Web 上においてどのような側面を持っているのかという情報を与えることにより，検索者が実際に探索する Web ページを絞り込みやすくするというアプローチが考えられる．しかしながら，このような情報は Web ページの周辺の情報から取り出す必要があり，既存の検索エンジンでは取り出すことができない．ここでいう， Web ページの周辺の情報とは，ある Web ページに対して直接リンクしている Web ページに含まれるコンテンツのうち，リンク先ページに関連しているコンテンツの集合のことである．このようなコンテンツ集合には，ある Web ページから見たときのリンク先の Web ページの内容が含まれており，リンク先の Web ページの側面の一つを表していると考えられる．そこで本研究では，このような Web ページの周辺情報を表すコンテンツ集合のことを``Web ページのアスペクト''と呼び，その抽出手法についての提案を行う．さらにプロトタイプシステムを実装して実験を行い，その結果についても考察する．

ハイパーリンク構造分析に基づくＷｅｂページのアスペクト抽出

ハイパーリンク構造分析に基づく
Ｗｅｂページのアスペクト抽出