Interpreting XML keyword query using hidden Markov model

2016 Tehnički Vjesnik  
Original scientific paper Keyword search on XML database has attracted a lot of research interests. As XML documents are very different from flat documents, effective search of XML documents needs special considerations. Traditional bag-of-words model does not take the roles of keywords and the relationship between keywords into consideration, and thus is not suited for XML keyword search. In this paper, we present a novel model, called semi-structured keyword query (SSQ), which understands a
more » ... ich understands a keyword query in a different way: a keyword query is composed of several query units, where each unit represents query condition. To interpret a keyword query under this model, we take two steps. First, we propose a probabilistic approach based on a Hidden Markov Model for computing the best mapping of the query keywords into the database terms, i.e., elements, attributes and values. Second, we generate SSQs based on the mapping. Experimental results verify the effectiveness of our methods. Keywords: hidden Markov model (HMM); semi-structured keyword query (SSQ); XML keyword query Prikaz pretrage XML ključne riječi primjenom skrivenog Markovljevog modela Izvorni znanstveni članak Pretraživanje ključne riječi na XML bazi podataka privuklo je prilično zanimanja. Kako se XML dokumenti vrlo razlikuju od plošnih (flat) dokumenata, učinkovita pretraga XML dokumenata zahtijeva posebno razmatranje. Tradicionalni model vreće riječi (bag-of-words) ne uzima u obzir uloge ključnih riječi i odnos između ključnih riječi pa prema tome nije pogodan za XML pretragu ključne riječi. U ovom radu predstavljamo novi model, nazvan polustrukturno pretraživanje ključne riječi (SSQ), koji podrazumijeva pretraživanje ključne riječi na različit način; to se pretraživanje sastoji od nekoliko cjelina pretrage i svaka cjelina predstavlja stanje pretrage (query condition). Za interpretaciju pretrage po tom modelu, potrebna su dva koraka. Prvo, predlažemo probabilistički pristup zasnovan na skrivenom Markovljevom modelu za izračunavanje najboljeg uklapanja traženih ključnih riječi u termine baze podataka, tj. elemenata, atributa i vrijednosti. Drugo, generiramo konstrukcije ključnih riječi (SSQs) na osnovu uklapanja. Eksperimentalni rezultati potvrđuju učinkovitost naših metoda. Ključne riječi: polu-strukturno pretraživanje ključne riječi; skriveni Markovljev model (HMM);
doi:10.17559/tv-20150314113111 fatcat:aj22bsdggzdrvomwi2q34dfyiu