Temporális és regionális összehasonlítások lehetséges torzításai

Zoltán Kmetty
2018 Socio hu  
Absztrakt A tanulmány arra keresi a választ, hogyan érdemes kezelni az adathiányt abban az esetben, ha időben és/ vagy térben elnyúló adataink vannak. Amellett érvelünk, hogy időben és térben kiterjedt adatok esetében több olyan egyedi szempont is felmerülhet, ami eltérő válaszadói struktúrát eredményezhet az adatfelvételek között. Az empirikus elemzésben a European Social Survey (ESS) 7 hullámának és 14 országának adatait felhasználva vizsgáltuk meg (N=185 049), hogy egy rendszerellenességet
more » ... dszerellenességet mérő index esetében mekkora volt az adathiány országonként és hullámonként. Az ESS adatok nagy szórást mutattak abban, hogy a vizsgált rendszerellenesség indexet alkotó változók között mekkora volt az adathiány: általában a nyugati és a skandináv országokban magasabb volt az érvényes válaszok aránya, míg keleten és a mediterrán országokban alacsonyabb. A többszintű regressziós modellek azt mutatták, hogy a nem-válaszolás közötti különbség nagyjából 3 százalékáért felel az ország és az adatfelvétel hulláma, míg egyéni szinten a rosszabb szociokulturális környezet magasabb nem-válaszolással jár együtt, akárcsak az, ha a válaszadó nő vagy idősebb. A nem-válaszolás kezelésének több forgatókönyvét is teszteltük, és bár összességében hasonló képet mutattak, de a pótolt adatokat tartalmazó index magasabb rendszerellenességet mutatott, mint a nem-válaszolók kihagyását követő stratégia. Az adathiány természetes velejárója az elemzéseinknek, és ha tudatosan nem foglalkozunk vele, akkor is kezeljük valahogy. Ez a kezelés sok esetben a használt statisztikai programok működési módjából következik. Ha nem akarjuk, hogy a programok vezessenek minket, alakítsunk ki egyértelmű protokollt a nem-válaszolás kezelésére, mert ez lehet a záloga annak, hogy az eredményeink érvényesek és megbízhatóak legyenek. Kulcsszavak: nem-válaszolás, adatpótlás, ESS, többszintű elemzés, rendszerellenesség 1 ELTE TáTK Szociológia Intézet, MTA-ELTE Peripato Kutatócsoport. • socio.hu 2018/2 • Kmetty Zoltán: Temporális és regionális összehasonlítások lehetséges torzításai • 96 Possible biases of temporal and regional comparisons How to handle item non-response? Abstract The main question of this paper is how to handle missing data in spatial and temporal analysis. We argue here, that in the case of spatial and temporal data, there may be several unique aspects that can lead to different response structures between datasets. In the empirical analysis, we have investigated the data of seven waves and 14 countries of ESS (N = 185 049) regarding the volume on item non-response per wave and country in the case of anti-regime attitudes. The ESS data has showed great deviation in the volume of missing answers of anti-regime attitudes. In the case of Western and Scandinavian countries higher rates, and in the case of Eastern and Mediterranean countries lower rates of valid answers have been measured. Based on the multi-level analysis countries and waves have been responsible for around 3 percent of the difference in non-response. At the respondent level, a lower response rate was more typical in the case of low social status, female respondents and older people. We have treated non-responses with different methods such us complete case analyis or nearest neighbour imputation. The difference was not extremely high between the methods, but overall the imputed anti-regime index was higher than the basic version. Missing data is an everyday component of our analysis. The non-treatment of non-response is also some kind of treatment. This non-intentional treatment often comes from the default setting of the statistical programmes used. If we do not want to be led by software we have to develop clear protocols for how to handle missing data. This could be an important foundation of reliable and valid data analysis.
doi:10.18030/socio.hu.2018.2.95 fatcat:hepzeia3hnc7bl63qva6dwkgre