Andrzej Młodak https://orcid.org/0000-0002-6853-9163
ARTICLE

(Polish) PDF

ABSTRACT

The paper contains a proposal of original method of assessment of information loss resulted from an application of the Statistical Disclosure Control (SDC) conducted during preparation of the resulting data to the publication and disclosure to interested users. The SDC tools enable protection of sensitive data from their disclosure – both direct and indirect. The article focuses on pseudonimised microdata, i.e. individual data without fundamental identifiers, used for scientific purposes. This control is usually to suppress, swapping or disturbing of original data. However, such intervention is connected with the loss of some information. Optimization of choice of relevant SDC method requires then a minimization of such loss (and risk of disclosure of protected data). Traditionally used methods of measurement of such loss are not rarely sensitive to dissimilarities resulting from scale and scope of values of variables and cannot be used for ordinal data. Many of them weakly take also connections between variables into account, what can be important in various analyses. Hence, this paper is aimed at presentation of a proposal (having the source in papers by Zdzisław Hellwig) concerning use of a method of normalized and easy interpretable complex measure (called also the synthetic indicator) for connected features based on benchmark and anti–benchmark of development to the assessment of information loss resulted from an application of some SDC techniques and at studying its practical utility. The measure is here constructed on the basis of distances between original data and data after application of the SDC taking measurement scales into account.

KEYWORDS

Statistical Disclosure Control, microdata, information loss, complex measure, distance measure

JEL

C80, C19, C63

REFERENCES

Balcerzak A. P., Pietrzak M. B., (2015), Wpływ efektywności instytucji na jakość życia w Unii Europejskiej. Badanie panelowe dla lat 2004–2010, Przegląd Statystyczny, 62 (1), 71–91.

Benschop T., Machingauta C., Welch M., (2018), Statistical Disclosure Control for Microdata: A Practice Guide, World Bank, Development Data Group (WB-DECDG), dostępny pod adresem:https://media.readthedocs.org/pdf/sdcpractice/latest/sdcpractice.pdf.

Chen C.-T., (2000), Extensions of the TOPSIS for Group Decision-Making under Fuzzy Environment, Fuzzy Sets and Systems, 114 (1), 1–9.

De Wolf P.-P., Gouweleeuw J. M., Kooiman P., Willenborg L. C. R. J., (1999), Reflections on PRAM. w: Domingo-Ferrer J., (red.), Statistical Data Protection, Office for Official Publications of the European Communities, Luxembourg, 337–349.

Domingo-Ferrer J., Mateo-Sanz J. M., Torra V., (2001), Comparing SDC Methods for Microdata on the Basis of Information Loss and Disclosure Risk, w: Pre-proceedings of ETK-NTTS (Exchange of Technology and Know-how – New Techniques and Technologies for Statistics), 2, 807–826, http://neon.vb.cbs.nl/casc/NTTSJosep.pdf.

Grabiński T., (2017), Uproszczona metoda delimitacji wektorowej, Zeszyty Naukowe Uniwersytetu Ekonomicznego w Krakowie, 5 (965), 69–86.

Hellwig Z., (1967), Procedure of Evaluating High Level Manpower Data and Typology of Countries by Means of the Taxonomic Method, w: Study III of the UNESCO Statistical Office; Towards a System of Quantitative Indicators of Components of Human Resources Indicators Development, UNESCO, Paris.

Hellwig Z., (1968), Zastosowanie metody taksonomicznej do typologicznego podziału krajów ze względu na poziom ich rozwoju oraz zasoby i strukturę wykwalifikowanych kadr, Przegląd Statystyczny, 15 (4), 307–327.

Hellwig Z., (1969), On the Problem of Weighting in International Comparisons, w: Study VII of the UNESCO Statistical Office; Towards a System of Quantitative Indicators of Components of Human Resources Indicators Development, UNESCO, Paris.

Hellwig Z., (1972a), Approximative Methods of Selection of an Optimal Set of Predictors, w: Study XVI of the UNESCO Statistical Office; Towards a System of Quantitative Indicators of Components of Human Resources Indicators Development, UNESCO, Paris.

Hellwig Z., (1972b), On Optimal Choice of Predictors, w: Gostkowski Z., (red.), Towards a System of Human Resources Indicators for Less Developed Countries, UNESCO – Ossolineum, Paris – Wrocław, 69–90.

Hellwig Z., (1981), Wielowymiarowa analiza porównawcza i jej zastosowanie w badaniach wielocechowych obiektów gospodarczych, w: Welfe W., (red.), Metody i modele ekonomiczno-matematyczne w doskonaleniu zarządzania gospodarką socjalistyczną, PWE, Warszawa, 46–68.

Höninger J., Pattloch D., Voshage R., (2010), On-Site Access to Micro Data: Preserving the Treasure, Preventing Disclosure, State Statistical Institute Berlin-Brandenburg, Research Data Centre.

Hundepool A., Domingo-Ferrer J., Franconi L., Giessing S., Lenz R., Longhurst J., Schulte Nordholt E., Seri G., de Wolf P.-P., (2006), Handbook on Statistical Disclosure Control, Version 1.0 CENEX SDC – a CENtre of EXcellence for Statistical Disclosure Control, Eurostat, Luxembourg, https://ec.europa.eu/eurostat/cros/system/files/CENEX-SDC_handbook.pdf.

Hundepool A., Domingo-Ferrer J., Franconi L., Giessing S., Nordholt E. S., Spicer K., de Wolf P.-P., (2012), Statistical Disclosure Control, seria: Wiley Series in Survey Methodology, John Wiley & Sons Ltd.

Hwang C. L., Yoon K., (1981), Multiple Attribute Decision Making: Methods and Applications, Springer-Verlag, New York.

Kukuła K., Luty L., (2015), Propozycja procedury wspomagającej wybór metody porządkowania liniowego, Przegląd Statystyczny, 62 (2), 219–231.

Lira J., Wagner W., Wysocki F., (2002), Mediana w zagadnieniach porządkowania obiektów wielocechowych, w: Paradysz J., (red.), Statystyka regionalna w służbie samorządu lokalnego i biznesu, Internetowa Oficyna Wydawnicza Centrum Statystyki Regionalnej, Akademia Ekonomiczna w Poznaniu, Poznań, 87–99.

Malina A., (2002) Wielokryterialna taksonomia w analizie porównawczej struktur gospodarczych Polski, w: Zeliaś A., (red.), Przestrzenno-czasowe modelowanie i prognozowanie zjawisk gospodarczych, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków, 305-312.

Mateo-Sanz J. M., Domingo-Ferrer J., (1998), A Comparative Study of Microaggregation Methods, Qüestiió, 22 (3), 511–526, https://upcommons.upc.edu/bitstream/handle/2099/4090/article.pdf.

Młodak A., (2006a), Analiza taksonomiczna w statystyce regionalnej, Centrum Doradztwa i Informacji DIFIN, Warszawa.

Młodak A., (2006b), Multilateral Normalisations of Diagnostic Features, Statistics in Transition, 7 (5), 1125–1139.

Młodak A., (2014), On the Construction of an Aggregated Measure of the Development of Interval Data, Computational Statistics, 29, 895–929.

Pawełek B., (2008), Metody normalizacji zmiennych w badaniach porównawczych złożonych zjawisk ekonomicznych, Zeszyty Naukowe Uniwersytetu Ekonomicznego w Krakowie. Seria specjalna. Monografie, nr 187, Wydawnictwo Uniwersytetu Ekonomicznego w Krakowie, Kraków.

Shih H. S., Shyur H. J., Lee E. S., (2007), An Extension of TOPSIS for Group Decision Making, Mathematical and Computer Modelling, 45 (7–8), 801–813.

Shlomo N., Skinner C., (2010), Assessing the Protection Provided by Misclassification-Based Disclosure Limitation Methods for Survey Microdata, The Annals of Applied Statistics, 4 (3), 1291–1310.

Skinner C., Marsh C., Openshaw S., Wymer C., (1994), Disclosure Control for Census Microdata, Journal of Official Statistics, 10, 31–51.

Śmiłowska T., (1997) Statystyczna analiza poziomu życia ludności Polski w ujęciu przestrzennym, Studia i Prace. Z Prac Zakładu Badań Statystyczno-Ekonomicznych Głównego Urzędu Statystycznego i Polskiej Akademii Nauk, Zeszyt 247, Warszawa.

Templ M., (2017), Statistical Disclosure Control for Microdata Using Methods and Applications in R, Springer International Publishing AG, Cham, Szwajcaria.

Walesiak M., (2006), Uogólniona miara odległości w statystycznej analizie wielowymiarowej, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław.

Walesiak M., (2014a), Przegląd formuł normalizacji wartości zmiennych oraz ich własności w statystycznej analizie wielowymiarowej, Przegląd Statystyczny, 61 (4), 364–372.

Walesiak M., (2014b), Wzmacnianie skali pomiaru dla danych porządkowych w statystycznej analizie wielowymiarowej, w: Jajuga K., Walesiak M., (red.), Taksonomia 22. Klasyfikacja i analiza danych – teoria i zastosowania. Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu, 327, 60–68.

Walesiak M., (2016), Wybór grup metod normalizacji wartości zmiennych w skalowaniu wielowymiarowym, Przegląd Statystyczny, 63 (1), 7–18.

Walesiak M., (2018), The Choice of Normalization Method and Rankings of the Set of Objects Based on Composite Indicator Values, Statistics in Transition – New Series, 19 (4), 693–710.

Willenborg L., de Waal T., (1996), Statistical Disclosure Control in Practice, Lecture Notes in Statistics, Springer Verlag, New York, Inc.

Zeliaś A., (2002), Some Notes on the Selection of Normalization of Diagnostic Variables, Statistics in Transition, 5 (5), 787–802.

Back to top
© 2019–2022 Copyright by Statistics Poland, some rights reserved. Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0) Creative Commons — Attribution-ShareAlike 4.0 International — CC BY-SA 4.0