Współczesne zmiany narzędzi badań statystycznych
DOI:
https://doi.org/10.15678/ZNUEK.2018.0976.0408Słowa kluczowe:
klasyczny schemat badań statystycznych, metody klasyfikacji danych, uczenie nadzorowane, podejście wielomodeloweAbstrakt
W artykule zwrócono uwagę na współcześnie obserwowane zmiany narzędzi statystycznych służących badaniom naukowym w zakresie analizy i prognozowania procesów społeczno-ekonomicznych. Punktem wyjścia przeprowadzonych rozważań jest klasyczny schemat badań statystycznych w naukach ekonomicznych. Zwrócono uwagę na jego ograniczenia. Wskazano na współczesne metody analizy danych, oparte na regułach sztucznej inteligencji, które pomagają wyeliminować ograniczenie klasycznego schematu badań. Metody te należą do procedur uczenia nadzorowanego. Nawiązano do podstawowych metod klasyfikacji danych, jakimi są analiza dyskryminacyjna oraz model logitowy. Następnie scharakteryzowano te metody uczenia nadzorowanego, które również mogą mieć szersze zastosowanie w badaniach społeczno-ekonomicznych. Należą do nich: naiwny klasyfikator bayesowski, sieci bayesowskie, metoda k-najbliższych sąsiadów, metoda wektorów nośnych, klasyfikatory jądrowe, sztuczne sieci neuronowe, drzewa decyzyjne oraz podejście wielomodelowe (lasy losowe, bagging, boosting). Zwrócono uwagę, że i te metody podlegają jednak pewnym ograniczeniom.
Artykuł ma charakter przeglądowy i zawiera odniesienia do prac, w których zastosowano metody uczenia nadzorowanego w badaniach społeczno-ekonomicznych, opublikowanych w języku polskim.
Pobrania
Bibliografia
Bartłomowicz T. (2010), Klasyfikacja nieruchomości metodą k-najbliższych sąsiadów, „Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, nr 107, Taksonomia 17.
Breiman L. (1996), Bagging Predictors, „Machine Learning”, vol. 24(2), https://doi.org/10.1007/bf00058655. DOI: https://doi.org/10.1007/BF00058655
Breiman L. (2001), Random Forests, „Machine Learning”, vol. 45, nr 1, https://doi.org/ 10.1023/a:1010933404324. DOI: https://doi.org/10.1023/A:1010933404324
Breiman L., Friedman J., Olshen R., Stone C. (1984), Classification and Regression Trees, CRC Press, London.
Chrzanowska M., Drejerska N. (2015), Małe i średnie przedsiębiorstwa w strefie podmiejskiej Warszawy – określenie znaczenia lokalizacji z wykorzystaniem drzew klasyfikacyjnych, „Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, nr 385, Taksonomia 25, https://doi.org/10.15611/pn.2015.385.05. DOI: https://doi.org/10.15611/pn.2015.385.05
Cichosz P. (2000), Systemy uczące się, WNT, Warszawa.
Dudek A. (2013), Metody analizy danych symbolicznych w badaniach ekonomicznych, Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław.
Fijorek K., Mróz K., Niedziela K., Fijorek D. (2010), Prognozowanie cen energii elektrycznej na rynku dnia następnego metodami data mining, „Rynek Energii”, nr 12.
Fisher R.A. (1936), The Use of Multiple Measurements in Taxonomic Problems, „Annals of Eugenics”, vol. 7, nr 2, https://doi.org/10.1111/j.1469-1809.1936.tb02137.x. DOI: https://doi.org/10.1111/j.1469-1809.1936.tb02137.x
Freund Y., Schapire R. (1997), A Decision-theoretic Generalization of On-line Learning and an Application to Boosting, „Journal of Computer and System Sciences”, vol. 55, nr 1, https://doi.org/10.1006/jcss.1997.1504. DOI: https://doi.org/10.1006/jcss.1997.1504
Gatnar E. (2001), Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa.
Gatnar E. (2008), Podejście wielomodelowe w zagadnieniach dyskryminacji i regresji, PWN, Warszawa.
Gąska D. (2013), Zastosowanie metody SVM do oceny ryzyka bankructwa i prognozowania upadłości przedsiębiorstw, „Śląski Przegląd Statystyczny”, nr 11.
Gąska D. (2015), Prognozowanie bankructwa za pomocą klasyfikatorów rozmytych realizujących ideę maksymalnego marginesu, „Śląski Przegląd Statystyczny”, vol. 13, nr 19, https://doi.org/10.15611/sps.2015.13.06. DOI: https://doi.org/10.15611/sps.2015.13.06
Gąska D. (2016), Wykorzystanie sieci bayesowskich do prognozowania bankructwa firm, „Śląski Przegląd Statystyczny”, nr 14.
Hastie T., Tibshirani R., Friedman J. (2009), The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer. DOI: https://doi.org/10.1007/978-0-387-84858-7
Hellwig Z. (1998), Elementy rachunku prawdopodobieństwa i statystyki matematycznej, PWN, Warszawa.
James G., Witten D., Hastie T., Tibshirani R. (2013), An Introduction to Statistical Learning with Applications in R, Springer, New York. DOI: https://doi.org/10.1007/978-1-4614-7138-7
Kohonen T. (1995), Sef-organizing Maps, Springer, Berlin. DOI: https://doi.org/10.1007/978-3-642-97610-0
Koronacki J., Ćwik J. (2005), Statystyczne systemy uczące się, WNT, Warszawa.
Kotarbiński T. (1990), Elementy teorii poznania, logiki formalnej i metodologii nauk, Zakład Narodowy im. Ossolińskich, Wrocław.
Krzyśko M., Wołyński W., Górecki T., Skorzybut M. (2008), Systemy uczące się – rozpoznawanie wzorców, analiza skupień i redukcja wymiarowości, WNT, Warszawa.
Kulczycki P. (2005), Estymatory jądrowe w analizie systemowej, WNT, Warszawa.
Lula P. (1999), Jednokierunkowe sieci neuronowe w modelowaniu zjawisk ekonomicznych, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków.
Łapczyński M. (2010), Drzewa klasyfikacyjne i regresyjne w badaniach marketingowych, Wydawnictwo Uniwersytetu Ekonomicznego w Krakowie, Kraków.
McLachlan G.J. (1992), Discriminant Analysis and Statistical Pattern Recognition, Wiley, New York. DOI: https://doi.org/10.1002/0471725293
Migdał-Najman K., Najman K. (2013), Samouczące się sztuczne sieci neuronowe w grupowaniu i klasyfikacji danych. Teoria i zastosowania w ekonomii, Wydawnictwo Uniwersytetu Gdańskiego, Gdańsk.
Nowak S. (2007), Metodologia badań społecznych, PWN, Warszawa.
Pawełek B., Grochowina D. (2017), Podejście wielomodelowe w prognozowaniu zagrożenia przedsiębiorstw upadłością, „Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, nr 468, Taksonomia 28.
Pawełek B., Pociecha J., Baryła M. (2016), Dynamic Aspects of Bankruptcy Prediction. Logit Model for Manufacturing Firms in Poland (w:) Analysis of Large and Complex Data Studies in Classification, red. A.F.X. Wilhelm, H.A. Kestler, Data Analysis and Knowledge Organization, Springer, Switzerland. DOI: https://doi.org/10.1007/978-3-319-25226-1_32
Pawłowski Z. (1976), Ekonometryczna analiza procesu produkcyjnego, PWN, Warszawa.
Pełka M. (2012), Podejście wielomodelowe z wykorzystaniem metody boosting w analizie danych symbolicznych, „Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, nr 242, Taksonomia 19.
Pełka M. (2015), Adaptacja metody bagging z zastosowaniem klasyfikacji pojęciowej danych symbolicznych, „Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, nr 384, Taksonomia 24, https://doi.org/10.15611/pn.2015.384.24. DOI: https://doi.org/10.15611/pn.2015.384.24
Pociecha J. (2006), Dyskryminacyjne metody klasyfikacji danych w prognozowaniu bankructwa firmy, „Prace Naukowe Akademii Ekonomicznej we Wrocławiu”, nr 1126, Taksonomia 13.
Pociecha J., Pawełek B., Baryła M., Augustyn S. (2014), Statystyczne metody prognozowania bankructwa w zmieniającej się koniunkturze gospodarczej, Fundacja Uniwersytetu Ekonomicznego w Krakowie, Kraków.
Pociecha J., Podolec B., Sokołowski A., Zając K. (1988), Metody taksonomiczne w badaniach społeczno-ekonomicznych, PWN, Warszawa.
Rozmus D. (2013), Porównanie stabilności zagregowanych algorytmów taksonomicznych opartych na idei metody bagging, „Studia Ekonomiczne”, t. 133.
Rutkowski L. (2009), Metody i techniki sztucznej inteligencji, PWN, Warszawa.
Scutari M. (2010), Learning Bayesian Networks with the bnlearn R Package, „Journal of Statistical Software”, vol. 35, nr 3, https://doi.org/10.18637/jss.v035.i03. DOI: https://doi.org/10.18637/jss.v035.i03
Strawiński W. (2011), Funkcja i cele nauki – zarys problematyki metodologicznej, „Zagadnienia Naukoznawstwa”, vol. 3(189).
Tadeusiewicz R. (1993), Sieci neuronowe, Akademicka Oficyna Wydawnicza, Warszawa.
Trzęsiok M. (2010), Wyodrębnianie reguł klasyfikacyjnych z modelu dyskryminacyjnego budowanego metodą wektorów nośnych, „Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, nr 107, Taksonomia 27.
Vapnik V. (1995), The Nature of Statistical Learning Theory, Springer, Berlin. DOI: https://doi.org/10.1007/978-1-4757-2440-0
Witkowska D. (2002), Sztuczne sieci neuronowe i metody statystyczne. Wybrane zagadnienia finansowe, C.H. Beck, Warszawa.
Witkowska D. (2015), Wykorzystanie drzew klasyfikacyjnych do analizy zróżnicowania płac w Niemczech, „Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, nr 384, Taksonomia 24, https://doi.org/10.15611/pn.2015.384.33. DOI: https://doi.org/10.15611/pn.2015.384.33