Bridging the gap between microarray technology and routine clinical diagnostics: a random forest approach to the gene expression profile dimensionality reduction

Zeljko Debeljak
2006 Biochemia Medica  
Pre moš ći va nje ja za iz me đu teh no lo gi je mik ro pos tro ja i ru tin ske kli nič ke di jag nos ti ke: pris tup sma nje nju di men zio nal nos ti pro fi la gen ske ek spre si je zas no van na slu čaj nim šu ma ma Brid gi ng the gap be tween mic roar ray tec hno lo gy and rou ti ne cli ni cal diag nos ti cs: a Ran dom Fo re st ap proa ch to the ge ne expres sion pro fi le di men sio na li ty re duc tion Želj ko De be ljak Od jel za me di cin sku bio ke mi ju. Kli nič ka bol ni ca Osi jek,
more » ... sijek De par tme nt of me di cal bioc he mis try, Osi jek Uni ver si ty Hos pi tal, Osijek, Croatia Izvorni znanstveni članak Original scientifi c article Sa že tak Uvod: Ana li za gen ske ek spre si je zas no va na na mik ro pos tro ji ma je ti je kom pro tek log de set lje ća pre poz na ta kao ko ris tan alat od stra ne znan stve ne zajed ni ce, ali ni je uš la u ru tin sku di jag nos tič ku prim je nu. Ka ko je sku pa i podlož na zna čaj nim ek spe ri men tal nim va ri ja ci ja ma, na tre nut nom teh no loš kom stup nju raz vo ja ta teh no lo gi ja ni je prik lad na za ru tin ske kli nič ko-di jag nos tičke prim je ne. U svr hu pre moš ći va nja ja za iz me đu mo guć nos ti na ve de ne tehno lo gi je i pot re ba kli nič ke di jag nos ti ke raz vi je ni su raz li či ti ra ču nal ni ala ti za sma nje nje di men zio nal nos ti. Nji ho va os nov na svr ha je oda bir ma log sku pa kan di da ta za biomar ke re iz og rom nog sku pa sad r ža nog u pro fi li ma gen ske ek spre si je prik lad nog za ru tin sko pos tav lja nje di jag no ze. Cilj: Slu čaj na šu ma (en gl. Ran dom Fo re st, RF) se na met nu la kao pouz dan pret ka za telj. Ipak, nje ne su mo guć nos ti u oda bi ru re le van tnih ge na pri vuk le ma nje paž nje. Cilj ove stu di je je eva lua ci ja prik lad nos ti na RF-u zas no va no ga oda bi ra bio mar ke ra iz sku po va gen skih pro fi la. Tri tak va sku pa, preu ze ta iz li te ra tu re, pri kup lje na ti je kom ma njih kli nič kih po ku sa izab ra na su u na ve denu svr hu. Re zul ta ti: Do bi ve ni re zul ta ti uka zu ju da RF mo že la ko iden ti fi ci ra ti dob re univa ri jat ne kla si fi ka to re, tj. po je di nač ne bio mar ke re ka da je slo že no st sku pa mala. Za neš to slo že ni je prob le me pouz da ni dvo di men zio nal ni kla si fi ka tor mo že se ta ko đer pro na ći. Ipak, ako je od nos iz me đu di jag no ze/prognoze i pro fi la gen ske ek spre si je vr lo slo žen ili ako je skup pre ma len, na RF-u zas no va no smanje nje di men zio nal nos ti ne omo gu ća va oda bir pouz da nog sku pa kan di da ta za bio mar ke re. Zak ljuč ci: Unu tar og ra ni če nja za da nih slo že noš ću sku pa RF pred stav lja prik ladan alat za iz bor kan di da ta za bio mar ke re. Ključne Abstract In tro duc tion: Al thou gh re cog ni zed as a va luab le tool by scien ti fi c com muni ty, mic roar ray ba sed ge ne expres sion pro fi li ng has not ac ces sed rou ti ne diag nos tic ap pli ca tion du ri ng the la st de ca de. Sin ce this ap proa ch is expensi ve and pro ne to sub stan tial expe ri men tal va ria tion, it is not sui ted for rou tine cli ni cal diag nos tic pur po ses at the cur re nt sta te of tec hno lo gy. In or der to brid ge that gap, diff e re nt com pu ta tio nal di men sio na li ty re duc tion too ls ha ve been de ve lo ped. The prin cip le of their ap pli ca tion is se lec tion of a li mi ted set of bio mar ker can di da tes from hu ge ge ne expres sion pro fi les ap prop ria te for rou ti ne diag nos tic as ses sme nt. Aim: Ran dom fo re st (RF) has been es tab lis hed as a re liab le pre dic tor. However, its re le va nt ge ne se lec tion ca pa bi li ties gai ned le ss at ten tion. The aim of this stu dy was to eva lua te sui ta bi li ty of RF for bio mar ker se lec tion from ge ne expres sion pro fi le da ta se ts. Three da ta se ts ta ken from li te ra tu re, ob tai ned duri ng sma ll-sca le cli ni cal expe ri men ts, we re cho sen for that pur po se. Re sul ts: The re sul ts ob tai ned show that RF cou ld ea si ly iden ti fy good univa ria te clas si fi e rs, i.e. sin gle bio mar ke rs when the prob lem at ha nd is of low com plexi ty. For mo re com plex prob lem a re liab le two-di men sio nal clas si fi er can di da te cou ld be al so fou nd by this ap proa ch. Howe ver, when the re la tionship be tween diag no sis/prognosis and ge ne expres sion pro fi li ng re sul ts are hig hly com plex or the da ta set is too sma ll, RF-ba sed di men sio na li ty re duction fai ls to se le ct a re liab le set of bio mar ker can di da tes. Con clu sio ns: Wit hin da ta set com plexi ty li mi ta tio ns, RF rep re sen ts an appropriate tool for bio mar ker can di da te se lec tion. Keywords: ge ne expres sion; mic roar ray; bio mar ker scree ni ng; ran dom fo rests; fea tu re se lec tion. Pris tig lo: 24. sr pnja 2006. Re cei ved: Ju ly 24, 2006 Prih va će no: 7. ruj na 2006. 151 De be ljak Ž. Mik ro pos tro ji i ru tin ska kli nič ka di jag nos ti ka De be ljak Ž. Mic roar rays and rou ti ne cli ni cal diag nos ti cs Uvod Tre nut ni sta tus teh no lo gi je mik ro pos tro ja či ni mo gu ćom us po red nu ek spre sij sku ana li zu de se ta ka ti su ća ljud skih ge na s jed nog mik ro pos tro ja (1). Una toč to me, u od no su na ru tin ske la bo ra to rij ske di jag nos tič ke teh ni ke ko je mogu proiz ves ti toč ne i kli nič ki vri jed ne re zul ta te za ne ko li ko mi nu ta ili sa ti uz nis ku ci je nu, ova teh no lo gi ja pred stav lja vr lo skup, spor i neu čin ko vit di jag nos tič ki alat. Za pouz danu di jag nos tič ku prim je nu, osim mik ro pos tro ja, rea gen sa i či ta ča mik ro pos tro ja ona zah ti je va so fi s ti ci ra nu ra ču nal nu pod r šku i mje re nje naj ma nje u trip li ka tu. Ova svoj stva či ne teh no lo gi ju nep rik lad nom za ru tin ski di jag nos tič ki rad. Ipak se di jag nos tič ka prim je na teh no lo gi je mik ro pos troja na mi je nje ne ana li zi gen ske ek spre si je mo že ba rem razmot ri ti. Ko ris nik mo že pri mi je ni ti ana li zu gen ske ek spre sije u svr hu di fe ren ci ja ci je dva ju us ko po ve za nih kli nič kih sta nja, od nos no u svr hu pos tav lja nja di jag no ze u iz nim no slo že nim slu ča je vi ma. Osim to ga, skup gen skih pro fi la prikup ljen ti je kom kli nič kog po ku sa ko ji je zas no van na kontrol noj i tes tnoj sku pi ni su dio ni ka mo že se pri mi je ni ti za iz bor gen skih pod sku po va re le van tnih za iden ti fi ka ci ju i/ili di fe ren ci ja ci ju ana li zi ra no ga kli nič kog sta nja. Kvan tita tiv na ana li za RNA ili pro tein skih pro du ka ta ovih ge na u tje les nim te ku ći na ma ili tki vi ma je znat no jed nos tav ni ja, jef ti ni ja, br ža i pouz da ni ja al ter na ti va u od no su na mik ropos tro je. Iz bor re le van tnih ge na i eva lua ci ja kli nič ke ko risnos ti od re đi va nja od go va ra ju ćih RNA i pro tein skih pro duka ta pred stav lja ok vir za prim je nu mik ro pos tro ja u svr hu pro bi ra nja no vih bio mar ke ra. Re zul ta ti ana li ze gen ske ek spre si je prikup lje ni ti je kom dob ro or ga ni zi ra nih kli nič kih po ku sa pred stav lja ju bo gat iz vor po da ta ka o is pi ti va nom kli nič kom sta nju. U stva ri, mat ri ce po da ta ka pri kup lje ne ti je kom tak vih po ku sa su pre bo ga te in for ma ci jom. One sad r že sto ti ne ti su ća brojča nih po da ta ka ko ji ih či ne pres lo že ni ma za jed nos tav nu vi zual nu prov je ru i ana li zu. Uz tak ve pos tav ke iz bor ne koli ci ne re le van tnih ge na iz sku pa od vi še de se ta ka ti su ća ge na pred stav lja iza zo van za da tak za sma nje nje di menzio nal nos ti. Sto ga je pot reb na ra ču nal na pod r ška. Raču nal ne pro ved be me to da stroj no ga i sta tis tič kog učenja poz na te pod na zi vom fi l tri mo gu se pri mi je ni ti u nave de ne svr he. U slu ča ju mo no gen skih sta nja/bolesti konven cio nal ni sta tis tič ki ala ti po put ANO VA-e, t-tes ta i nji hovih ne pa ra me tar skih pan da na mo gu se pri mi je ni ti sa ili bez mo di fi ka ci ja (1,2). Ti se ala ti mo gu pouz da no pri mi jeni ti čak i u slu ča je vi ma ko je ka rak te ri zi ra ne za vis na promje na ne ko li ci ne ge na. Ipak, u ve ći ni si tua ci ja ana li zi ra na kli nič ka sta nja su pos lje di ca vi so ko me đu za vis nih, mul tigen skih prom je na. U tak vim uv je ti ma mul ti va ri jat ne ra čunal ne i sta tis tič ke me to de pred stav lja ju prik la dan alat za iz bor re le vat nih ge na ili pos tav lja nje di jag no ze (3). Po nekad slo že no st me đuo vis nos ti od re đe no ga kli nič kog stanja i od go va ra ju ćih pro fi la gen ske ek spre si je one mo gu ćava sma nje nje nje ne di men zio nal nos ti (4). U ne kim slu ča je-De be ljak Ž. Mic roar rays and rou ti ne cli ni cal diag nos ti cs Biochemia Medica 2006;16(2)89-228 De be ljak Ž. Mic roar rays and rou ti ne cli ni cal diag nos ti cs Biochemia Medica 2006;16(2)89-228 De be ljak Ž. Mic roar rays and rou ti ne cli ni cal diag nos ti cs Biochemia Medica 2006;16(2)89-228 De be ljak Ž. Mic roar rays and rou ti ne cli ni cal diag nos ti cs Biochemia Medica 2006;16(2)89-228
doi:10.11613/bm.2006.014 fatcat:juntvo6avrfzngclhmx7ew4tci