Mining Frequent Closed Ordered Subtrees under Anti-monotone Constraints by using Restricted Occurrence Matching

Tomonobu Ozaki, Takenao Ohkawa
2008 Transactions of the Japanese society for artificial intelligence  
As semi-structured data is used widely in several fields, the importance of structured data mining is increasing recently. Although mining frequent patterns in structured data is one of the most fundamental tasks, frequent pattern miners often discover huge number of patterns. To overcome this problem, two major approaches, condensed representation mining and constraint-based mining, have been proposed. In this paper, as a technique for integrating these two approaches, we propose three
more » ... opose three algorithms, RCLOCOT, posCLOCOT and negCLOCOT, for discovering closed ordered subtrees under anti-monotone constraints about the structure of patterns to be discovered. The proposed algorithms discover closed constrained subtrees efficiently not by post-processing but by pruning and skipping the search space based on the occurrence matching and the patterns on the border. Experiments with artificial and real world data were conducted to assess the effectiveness of the proposed algorithms. The results of experiments show that the proposed algorithms succeed in reducing both of the number of candidate subtrees and the execution time compared with a naive algorithm. は じ め に 近年,頻出パタン発見を中心に,構造データを対象と したマイニング手法が注目され,数多くの研究が行われ ている [Chi 05b, Washio 05].単純な頻出パタン発見で は,大量のパタンが発見されてしまうという問題が指摘 されているが,この問題に対して (1) 飽和パタンに代表 される頻出パタンの代表元のみを発見する [Chi 05a, Yan 03, Shiozaki 06],(2) 利用者により与えられる制約を満 たすパタンのみを発見する [Pei 02, Wang 05] などのア プローチが提案されている.両アプローチは,結果として 発見されるパタン数を減少させるという意味では同じで あるが,後者は制約を通じて積極的に求めるべきパタン を限定しているのに対し,前者は同じ内容の圧縮表現を 求めており,その目的は全く異なる.従って,両アプロー チを統合することにより,より効果的なパタン発見が実 現されることが期待できる.この考えに基づき,近年,ア イテム集合を対象とした両者の統合アプローチ [Bonchi 04, Jia 03] が提案されている. 本論文では,構造データに対する統合アプローチの一 つとして,順序木 [Chi 05a] を対象に,逆単調制約付き 頻出飽和順序木の発見について議論する.すなわち,節 点数や高さ上限などのパタンの形状に関する制約を導入 することにより求めるべきパタンを限定し,その上での 圧縮表現を求めることを考える.この問題を解決するた めに,本論文では,出現マッチ [Chi 05a] と制約付き飽 和順序木の列挙との関係に対する考察を通じ,3 種の制 約付き頻出飽和順序木発見アルゴリズム RCLOCOT 及び posCLOCOT, negCLOCOT を提案する.RCLOCOT は,制 約なしの飽和順序木発見手法 [Chi 05a] の素直な拡張で あり,制約に関する位置限定出現マッチに基づく枝刈り を採用している.一方,posCLOCOT 及び negCLOCOT は, 順序限定出現マッチと境界パタンに基づく枝刈りを用い ることで,制約付き飽和順序木の効率的な発見を実現し ている.またすべてのアルゴリズムは,後処理としてで はなく,枝刈りを伴う探索の過程で解の発見を行うとい う特徴を持つ. 以下に本論文の構成を示す.2 章で用語の準備を行い,
doi:10.1527/tjsai.23.58 fatcat:g4kjmwmtd5akrdbn2jf2w6ytqu