Ο όρος «Στατιστική» πιθανόν να προέρχεται από την αρχαία Ελλάδα και συγκεκριμένα από την αρχαία ελληνική λέξη «στατίζω» όπου εκφράζει τα ρήματα «τοποθετώ, ταξινομώ, συμπεραίνω». Υπάρχει επίσης, μια εναλλακτική ιστορική προσέγγιση που αναφέρει ότι ο όρος «Στατιστική» προέρχεται από τη λατινική λέξη «status» και η μετάφρασή της έχει την έννοια «της πολιτείας» (Τσαγρής, 2014). Η Στατιστική αποτελείται από ένα σύνολο μεθόδων που καθοδηγούν στη λήψη ορθών αποφάσεων σε περιπτώσεις αβεβαιότητας.
Η περιγραφική στατιστική (descriptive statistics) ασχολείται με τη συνοπτική και αποτελεσματική παρουσίαση των δεδομένων μιας στατιστικής έρευνας (Κούτρας, 2004). Συγκεκριμένα, κατόπιν της συλλογής των στατιστικών στοιχείων στο πλαίσιο μιας έρευνας, ακολουθεί η στατιστική επεξεργασία τους, η ταξινόμηση, και η παρουσίαση της σχετικής πληροφορίας σε πίνακες, ή διαγράμματα. Οι τεχνικές της περιγραφικής στατιστικής εφαρμόζονται είτε σε πληθυσμούς, είτε σε δείγματα επιλεγμένα με κατάλληλες δειγματοληπτικές μεθόδους, όπως είναι η απλή τυχαία δειγματοληψία, η δειγματοληψία κατά συστάδες, η βολική δειγματοληψία, η δειγματοληψία κατά πιθανότητες κ.α. (Δαμιανού, 1999). Το χαρακτηριστικό ως προς το οποίο εξετάζεται ένας στατιστικός πληθυσμός ονομάζεται μεταβλητή, που αποτελεί μετρήσιμο ή μη μετρήσιμο μέγεθος. Οι μεταβλητές διακρίνονται σε ποσοτικές (π.χ. βάρος μήλων που παράγονται σε μια περιοχή,) και ποιοτικές (π.χ. ποικιλία μήλων που παράγονται σε μια περιοχή,) (Κούτρας, 2004). Οι ποσοτικές διακρίνονται επιπλέον σε διακριτές (π.χ. αριθμός τεμαχίων,) και συνεχείς (π.χ. βάρος καρπών, ύψος φυτού,). Οι ποιοτικές διακρίνονται σε διατακτικές (π.χ. βαθμός ικανοποίησης από τη γεύση ενός φρούτου – πολύ γευστικό, λίγο γευστικό, καθόλου γευστικό,) και κατηγορικές (π.χ. διαφορετική ποικιλία μανταρινιών,)
Τα αποτελέσματα συνήθως συνοψίζονται σε κατάλληλους πίνακες κατανομής συχνοτήτων και η γραφικη απεικονιση των κατανομων συχνοτήτων γίνεται με χρήση κατάληλων διαγραμμάτων. Ο πίνακας συχνοτήτων παρουσιάζει για κάθε τιµή της μεταβλητής «X» τη συχνότητα εµφάνισής της (δηλαδή πόσες ϕορές εµϕανίζεται η κάθε διακριτή τιµή στο δείγµα) και τη σχετική συχνότητα (relative frequency) εµφάνισης που ορίζεται από το πηλίκο της συχνότητας µιας τιµής προς το σύνολο των παρατηρήσεων n του δείγµατος (Παπαδόπουλος, 2015). Τα κατάλληλα διαγράμματα είναι κυρίως το ραβδόγραμμα και το κυκλικό διάγραμμα στην περίπτωση των ποιοτικών και των ποσοτικών διακριτών μεταβλητών και το ιστόγραμμα στην περίπτωση των ποσοτικών συνεχών μεταβλητών.
Για παράδειγμα, στον πίνακα 1 παρατίθενται οι εκτάσεις και η παραγωγή αμπελιών και σταφιδάμπελων, με χρήση απόλυτων συχνοτήτων, για την Περιφέρεια Ανατολικής Μακεδονίας και Θράκης, το 2019. Επισπροσθέτως, στο γράφημα 1 παρατίθεται οπτικοποιημένη σε μορφή ραβδογράμματος η έκταση ανά περιφέρεια της Ανατολικής Μακεδονίας και Θράκης. Τέτοιοι πίνακες είναι εξαιρετικά χρήσιμοι καθώς παρουσιάζουν την σχετική πληροφορία με συνοπτικό και δομημένο τρόπο.
Πίνακας 1: Αμπέλια και σταφιδάμπελα - Εκτάσεις και παραγωγή στην Περιφέρεια Ανατολικής Μακεδονίας και Θράκης
Πηγή: ΕΛΣΤΑΤ/ Εκτάσεις και Παραγωγή / 2019 (https://www.statistics.gr/el/statistics/-/publication/SPG06/-)
Εκτός από τους πίνακες συχνοτήτων και τα αντίστοιχα γραφήματα, για την περιγραφή ενός χαρακτηριστικού ενός δείγματος χρησιμοποιούνται κυρίως τα μέτρα θέσης και διασποράς. Δηλαδή, για το προαναφερθέν παράδειγμα της παραγωγής αμπελιών και σταφιδάμπελων, είναι εξαιρετικά χρήσιμο να έχουμε γνώση της μέσης παραγωγής, καθώς επίσης, της μεταβλητότητας που παρουσιάζουν οι διαφορετικές περιοχές ως προς την παραγόμενη ποσότητα.
Τα κυριότερα μέτρα θέσης είναι (Παπαδόπουλος, 2015):
Γράφημα 1: Αμπέλια και σταφιδάμπελα - Εκτάσεις στην Περιφέρεια Ανατολικής Μακεδονίας και Θράκης
Τα κυριότερα μέτρα διασποράς είναι:
Τα προαναφερθέντα στατιστικά μέτρα θέσεως και διασποράς υπολογίζονται και ερμηνεύονται χωρίς να είναι απαραίτητες εξειδικευμένες γνώσεις μαθηματικών ή στατιστικής. Για το σκοπό αυτό, παρατίθεται το επόμενο παράδειγμα από τον ευρύτερο τομέα της αγροδιατροφής:
Παράδειγμα 1: Ο διευθυντής μιας μονάδας παραγωγής γεωργικών προϊόντων ενδιαφέρεται να διερευνήσει την ποσότητα προϊόντων (σε εκατοντάδες κιλά) που παράγονται ανά ημέρα κάθε χρόνο. Για το λόγο αυτό έλαβε ένα τυχαίο δείγμα 50 ημερών και κατέγραψε τις ποσότητες που παρήχθησαν, οι οποίες δίνονται στον πίνακα 2. Να κατασκεταστεί ο πίνακας κατανομής συχνοτήτων και τα σχετικά γραφήματα. Επίσης να υπολογιστούν τα περιγραφικά μέτρα θέση και διασποράς.
Πίνακας 2: Ποσότητες προϊόντων (σε 100-αδες κιλά) από τυχαίο δείγμα 50 ημερών
Λύση
Αρχικά φτιάχνουμε τον πίνακα συχνοτήτων μετρώντας για την κάθε διακριτή τιμή της μεταβλητής πόσες φορές εμφανίζεται στο αρχικό σύνολο δεδομένων. Από τον πίνακα 2 παρατηρούμε ότι το 0 εμφανίζεται 4 φορές, το 1 εμφανίζεται 14 φορές, το 2 εμφανίζεται 22 φορές, το 3 εμφανίζεται 5 φορές, το 4 εμφανίζεται 3 φορές, το 5 εμφανίζεται 2 φορές.
Επομένως ο πίνακας συχνοτήτων που παρουσιάζεται στον πίνακα 3 έχει την ακόλουθη μορφή και η ερμηνεία της εκάστοτε στήλης δίνεται ακολούθως:
Πίνακας 3: Πίνακας κατανομής συχνοτήτων ποσοτήτων προϊόντων (σε 100-αδες κιλά)
Το αντίστοιχο ραβδόγραμμα συχνοτήτων παρατίθεται στο σχήμα 2. Για την κατασκευή του ραβδογράμματος συχνοτήτων αντιστοιχίζουμε τις τιμές των συχνοτήτων της κάθε τιμής μεταβλητής με το ύψος της κάθε ράβδου.
Σχήμα 2: Ραβδόγραμμα συχνοτήτων ποσοτήτων προϊόντων (σε 100-αδες κιλά)
Εναλλακτικά, τα δεδομένα του παραδείγματος μπορούν να παρασταθούν με χρήση κυκλικού διαγράμματος συχνοτήτων (σχήμα 3). Για την κατασκευή του κυκλικού διάγραμματος σχετικών συχνοτήτων υπολογίζουμε την γωνία του κάθε κυκλικού τομέα κάθε τιμής μεταβλητής πολλαπλασιάζοντας την σχετικη συχνότητα με τις 360 μοίρες (1 πλήρης κύκλος)
Σχήμα 3: Ραβδόγραμμα σχετικών συχνοτήτων ποσοτήτων προϊόντων (σε 100-αδες κιλά)
Για τον υπολογισμό της μέσης τιμής, δίπλα στον πίνακα συχνοτήτων, κατασκευάζουμε μια επιπλέον στήλη που εκφράζει το γινόμενο της τιμής της μεταβλητή επί την συχνότητα (Xi*fi) ανά γραμμή, οπότε παρακάτω έχουμε τον πίνακα 4 & τον υπολογισμό της μέσης τιμής αντιστοίχως.
Πίνακας 4: Πίνακας κατανομής συχνοτήτων ποσοτήτων προϊόντων με την στήλη που εκφράζει το γινόμενο xi*fi
Διάμεσος: δ=(Χ25+Χ26)/2=(2+2)/2=2 και Επικρατούσα Τιμή: Μο=2.
Για τον υπολογισμό της διακύμανσης, δίπλα στον πίνακα συχνοτήτων, κατασκευάζουμε μια επιπλέον στήλη που εκφράζει το γινόμενο του τετραγώνου της τιμής της μεταβλητή επί την συχνότητα (X2i*fi) ανά γραμμή, οπότε παρακάτω έχουμε τον πίνακα 5 & τον υπολογισμό της διακύμανσης s2 αντιστοίχως:
Πίνακας 5: Πίνακας κατανομής συχνοτήτων ποσοτήτων προϊόντων με την στήλη που εκφράζει το γινόμενο xi*fi
Η τυπική απόκλιση είναι:
Η Επαγωγική Στατιστική ή Στατιστική Συμπερασματολογία (Inferential Statistics) περιέχει όλες εκείνες τις τεχνικές που στοχεύουν στην εκτίμηση των παραμέτρων ενός πληθυσμού από δειγματικά στοιχεία, δηλαδή τα συλλεχθέντα δεδομένα από ένα δείγμα. Η εκτίμηση των πληθυσμιακών παραμέτρων γίνεται είτε σε σημείο (σημειακή εκτίμηση - point estimation) είτε σε διάστημα (εκτίμηση διαστήματος - confidence interval estimation). Σκοπός της στατιστικής συμπερασματολογίας είναι να γενικεύει τα αποτελέσματα που εξάγει από ένα δείγμα για ολόκληρο τον πληθυσμό (Κυριακούσης, 2000).
Ειδικότερα, για να γίνει εύκολα κατανοητή η έννοια της σημειακής εκτίμησης, ας θεωρήσουμε ότι θέλουμε να εκτιμήσουμε το μέσο βάρος «μ» των καρπουζιών που παράγονται στην ευρύτερη περιοχή της Κυλήνης. Προφανώς, είναι εξαιρετικά δύσκολο, εως αδύνατο, να έχουμε πρόσβαση σε όλα τα καρπούζια που παράγονται στην προαναφερθείσα περιοχή, επομένως, θα εκτιμήσουμε την πληθυσμιακή μέση τιμή των παραγόμενων καρπουζιών λαμβάνοντας ένα αντιπροσωπευτικό δείγμα παραγόμενων καρπουζιών. Η σημειακή εκτίμηση της πληθυσμιακής μέσης τιμής μ παρέχεται από τον δειγματικό μέσο που δίνεται από τον τύπο:
Έστω ότι έχουμε στη διάθεση μας πέντε καρπούζια, τυχαία επιλεγμένα (π.χ. από πέντε διαφορετικά χωράφια), και αυτά έχουν βάρη 5,5,6,7,7 (σε kg), επομένως η δειγματική μέση τιμή είναι:
Αν επαναλάβουμε την διαδικασία της τυχαίας επιλογής καρπουζιών με σκοπό την εκτίμηση της πληθυσμιακής μέσης τιμής, έστω ότι λαμβάναμε ένα διαφορετικό δείγμα, αποτελούμενο από 5 διαφορετικά καρπούζια, με βάρη 6,7,8,9,10. Επομένως, σε αυτή την περίπτωση θα είχαμε την δειγματική μέση τιμή να είναι:
Παρατηρούμε ότι το μέσο βάρος του δευτερου δείγματος είναι αρκετά μεγαλύτερο σε σχέση με το πρώτο δείγμα.
ΠΑΡΑΤΗΡΗΣΗ:
Στα δύο τυχαία δείγματα έγινε χρήση του ίδιου τύπου υπολογισμού της εκτίμησης του πληθυσμιακού μέσου όρου από την δειγματική μέση τιμή αλλά λάβαμε διαφορετικές τιμές για την εκτίμηση. Αυτό οφείλεται στον τυχαίο τρόπο επιλογής του δείγματος.
Η εκτίμηση μιας πληθυσμιακής παραμέτρου, όπως είναι η μέση τιμή ή η διακύμανση, μπορεί να πραγματοποιηθεί, χρησιμοποιώντας εκτός από την προαναφερθείσα μέθοδο εύρεσης μιας τιμής (που εκφράζει την σημειακή εκτίμηση), και με την εύρεση ενός διαστήματος, το οποίο θα περιέχει την πραγματική αλλά άγνωστη τιμή της παραμέτρου, με συγκεκριμένη πιθανότητα. Δηλαδή, αν επιθυμούμε να εκτιμήσουμε το μέσο βάρος των πατατών που παράγονται στο νομό Βοιωτίας, τότε λαμβάνοντας ένα δείγμα έστω ότι υπολογίζουμε τον δειγματικό μέσο όρο ίσο με 80 γραμμάρια. Αντί να υποστηρίζουμε ότι το μέσο βάρος των πατατών που παράγονται στο νομό Βοιωτίας ότι είναι 80 γραμμάρια (που μπορεί να είναι αληθές ή ψευδές), μπορούμε εναλλακτικά να υποστηρίξουμε, με συγκεκριμένη πιθανότητα (π.χ. 95%) ότι το μέσο βάρος των πατατών που παράγονται στο νομό Βοιωτίας είναι για παράδειγμα μεταξύ 75 γραμμαρίων και 85 γραμμαρίων. Το διάστημα αυτό ονομάζεται διάστημα εμπιστοσύνης & συμβολίζεται με 100(1–a)% Δ.Ε. και φανερώνει την πιθανότητα το διάστημα να περιέχει την πληθυσμαική παράμετρο μ.
Το πιο συχνά χρησιμοποιούμενο διάστημα εμπιστοσύνης για τη μεση τιμη
από κανονικό πληθυσμό είναι στην περίπτωση που η πληθυσμιακή διακύμανση είναι γνωστή (η διακύμανση μπορεί να είναι γνωστή από προηγούμενη μελέτη στο παρελθόν). Στην περίπτωση αυτή, το 100(1–a)% διάστημα εμπιστοσύνης για τη μέση τιμή μ από κανονικό πληθυσμό με γνωστή διακύμανση σ2 δίνεται από τον τύπο:
όπου είναι το a/2–ποσοστημόριο της τυπικής κανονικής κατανομής, δηλαδή η τιμή που στα δεξιά της αφήνει εμβαδόν a/2, όπως φαίνεται στο Σχήμα 4.
Σχήμα 4: Συνάρτηση πυκνότητας πιθανότητας κανονικής κατανομής
Το προαναφερθέν διαστήμα εμπιστοσύνης υπολογίζεται και ερμηνεύεται χωρίς να είναι απαραίτητες εξειδικευμένες γνώσεις μαθηματικών ή στατιστικής. Για το σκοπό αυτό, εξετάζεται το επόμενο παράδειγμα:
Παράδειγμα 2: Ο διευθυντής μιας μονάδας παραγωγής γεωργικών προϊόντων ενδιαφέρεται να διερευνήσει την ποσότητα προϊόντων (σε εκατοντάδες κιλά) που παράγονται ανά ημέρα κάθε χρόνο. Για το λόγο αυτό έλαβε ένα τυχαίο δείγμα 4 ημερών και κατέγραψε τις ποσότητες που παρήχθησαν, οι οποίες είναι (βάρος σε εκατοντάδες κιλά): 5,6,6,7. Να εκτιμηθεί η μέση τιμή της ποσότητας των 4 ημερών με χρήση ενός 95% διαστήματος εμπιστοσύνης. Υποθέτουμε επίσης ότι τα βάρη ακολουθούν κανονική κατανομή και έχουν γνωστή διακύμανση σ2=1.
Λύση
Παραπάνω σημειώνεται ότι το 95% διάστημα εμπιστοσύνης για τη μέση τιμή ενός κανονικού πληθυσμού με γνωστή διακύμανση είναι το
Από τα δεδομένα του προβλήματος έχουμε ότι η μέση τιμή του δείγματος για το βάρος ισούται με =6. Δεν ξεχνάμε, σύμφωνα με ότι αναφέρθηκε στην προηγούμενη παράγραφο, ότι η τιμή 6 αποτελεί τη σημειακή εκτίμηση της πληθυσμιακής μέσης τιμής του βάρους των ημερήσιων ποσοτήτων (βάρος σε εκατοντάδες κιλά). Επειδή η διακύμανση είναι σ2=1, η τυπική απόκλιση είναι ομοίως σ=1. Για τον υπολογισμό του 95% διαστήματος εμπιστοσύνης είναι απαραίτητο να γνωρίζουμε την τιμή.
Όπως αναφέραμε παραπάνω, ισχύει: 1-α=0.95, άρα α=0.05 και α/2=0.025. Επομένως, αναζητούμε στο εσωτερικό του πίνακα της τυπικής κανονικής κατανομής (Παράρτημα 4.1) το σημείο 1-α/2=1-0.025=0.975 και στην αντίστοιχη γραμμή βρίσκουμε το ακέραιο μέρος και το 1ο δεκαδικό ψηφίο και στην αντίστοιχη στήλη βρίσκουμε το 2ο δεκαδικό ψηφίο. Επομένως, έχουμε: .
Επομένως, το 95% διάστημα εμπιστοσύνης για την μέση τιμή της ποσότητας (σε εκατοντάδες κιλά) είναι:
Επομένως, η πληθυσμιακή μέση τιμή του βάρους των γεωργικών προιόντων περιέχεται στο διάστημα εμπιστοσύνης (5.02, 6.98) με πιθανότητα 95%.