24bit VS 16bit - Η καταρριψη του μυθου

24bit VS 16bit και η κατάρριψη του μύθου


Μου φαίνεται ότι υπάρχει μια πολύ μεγάλη παρεξήγηση σχετικά με το βάθος του ψηφιακού ήχου δηλαδή το λεγόμενο “bit” και πώς λειτουργεί στον ψηφιακό μας ήχο. 
Αυτή η παρανόηση υπάρχει όχι μόνο στον κόσμο των καταναλωτών, αλλά και σε ορισμένα εκπαιδευτικά ιδρύματα, ακόμη και σε επαγγελματίες του χώρου. 
Αυτή η παρανόηση προέρχεται από την υπόθεση, του πώς λειτουργεί ο ψηφιακός ήχος και όχι πώς συμπεριφέρεται πραγματικά

Είναι εύκολο να δει κανείς σε μια φωτογραφία (δείτε επάνω) την διαφορά ανάμεσα σε ένα μικρό βάθος bit και ένα υψηλότερου βάθους bit, έτσι είναι λογικό να υποθέσουμε ότι ένας υψηλότερος σε βάθος bit ήχος σημαίνει καλύτερη ποιότητα. Αυτή η υπόθεση έχει επιβληθεί περαιτέρω από το γεγονός ότι η «ανάλυση» εκφράζεται συχνά σε βάθος bit. Άρα περισσότερη ανάλυση σημαίνει και υψηλότερη ποιότητα. Έτσι είναι τα 24bit Hi-Resolution ήχου, γιατί περιέχουν περισσότερα στοιχεία, ως εκ τούτου υψηλότερη ανάλυση άρα καλύτερη ποιότητα. 

Όλα αυτά μπορεί να φαίνονται εντελώς λογικά, αλλά φοβάμαι ότι αυτή η υπόθεση δεν είναι απολύτως σύμφωνη με τα πραγματικά γεγονότα του πώς λειτουργεί ο ψηφιακός ήχος, για αυτό και θα προσπαθήσω να σας το εξηγήσω όσο μπορώ καλύτερα παρακάτω:


Κατά την εγγραφή μας, ένα αναλογικό σήμα προς στο ψηφιακό δηλαδή ένας μετατροπέας ADC (Analog to Digital Converter), διαβάζει το εισερχόμενο αναλογικό μας σήμα δηλαδή την «κυματομορφή» και τη μετρά Χ φορές το δευτερόλεπτο (1 *). 
Στην περίπτωση του CD υπάρχουν 44.100 (συχνότητα δειγματοληψίας) μετρήσεις ανά δευτερόλεπτο . Αυτές οι μετρήσεις αποθηκεύονται στο ψηφιακό πεδίο με τη μορφή των bits του υπολογιστή. Όσα περισσότερα bits χρησιμοποιούμε, τόσο ακριβέστερα μπορούμε να μετρήσουμε το σήμα μας, δηλαδή την αναλογική «κυματομορφή». 
Αυτό συμβαίνει επειδή κάθε bit μπορεί να αποθηκεύσει μόνο δύο τιμές το μηδέν και το ένα (0 - 1). Για να πάρετε περισσότερες τιμές κάνουμε το ίδιο όπως με τους αριθμούς που κάνουμε σε μία κανονική καταμέτρηση, δηλαδή ξεκινάμε να μετράμε από το ένα και συνεχίζουμε προς τον αύξοντα αριθμό. Μόλις φτάσουμε στον 9ο αριθμό, θα πρέπει να προσθέσουμε μια ακόμα στήλη (η στήλη σε δεκάδες) δηλαδή φτάσαμε πλέον στο νούμερο δέκα (10) και έτσι συνεχίζοντας μπορούμε να προσθέτουμε στήλες άπειρες για 100ς, 1000ς, 10000ς, κλπ. 
Το ίδιο ακριβώς ισχύει και για τα bits, αλλά επειδή έχουμε μόνο δύο τιμές ανά bit (αντί για 10) χρειαζόμαστε περισσότερες στήλες, κάθε στήλη (ή επιπλέον bit) διπλασιάζει τον αριθμό των αριθμών που έχουμε στη διάθεσή μας, δηλαδή κατά 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024 .... 
Αν οι παραπάνω αυτοί αριθμοί σας φαίνονται λίγο εξοικειωμένοι με εσάς είναι επειδή όλες οι τεχνολογίες πληροφορικής βασίζονται σε bits, κι αυτό ώστε αυτοί οι αριθμοί να είναι κοινοί και αναγνωρίσιμοι σε όλες τις χώρες. 
Στην περίπτωση των 16bit έχουμε περίπου 65.000 διαφορετικές τιμές διαθέσιμες. 
Το πρόβλημα είναι ότι μία αναλογική κυματομορφή σήματος συνεχώς μεταβάλλεται στον χρόνο.
Δεν έχει σημασία πόσες φορές το δευτερόλεπτο μετράμε την κυματομορφή ή πόσα bits θα χρησιμοποιούμε για να αποθηκεύουμε τη μέτρηση αυτή, υπάρχει πάντα η πιθανότητα να πάρουμε και τις «λάθος» τιμές ή μετρήσεις. Αυτά τα λάθη στην ποσοτική εκτίμηση της αξίας του ενός συνεχώς μεταβαλλόμενου σήματος ονομάζεται «σφάλμα κερματισμού». 
Τα σφάλματα κερματισμού είναι "κακά", μας προκαλούν στρεβλώσεις κοινώς «distortion» στην κυματομορφή μας όταν αυτή μετατραπεί πάλι σε αναλογικό σήμα από το ψηφιακό κι αυτό γίνεται για να το ακούσουμε από τα ηχεία μας είτε τα ακουστικά μας μέσω της εξόδου της κάρτας ήχου.
Μέχρι εδώ έχει καλώς και μου φαίνεται να έχουμε συμφωνήσει ότι τα περισσότερα bit = υψηλότερη ανάλυση είναι πολύ καλύτερα. Η αλήθεια είναι όμως ότι τα γεγονότα αρχίζουν να αποκλίνουν από την υπόθεση όταν ερχόμαστε στην κατανόηση του αποτελέσματος αυτής της υψηλότερης ανάλυσης. 
Πηγαίνοντας πίσω σε αυτό που είπα πιο πάνω, κάθε φορά που θα αυξάνουμε το βάθος bit, θα διπλασιάζουμε τον αριθμό των τιμών που έχουμε στη διάθεσή μας (π.χ. για 4bit = 16 τιμές, 5bit = 32 τιμές και ούτω καθ'εξής). Αν διπλασιάσουμε τον αριθμό των τιμών, θα μειωθεί κατά το ήμισυ το ποσό των σφαλμάτων κερματισμού μας. 
Είστε ακόμα μαζί μου; επειδή τώρα ερχόμαστε στην πραγματική ουσία του θέματος. Υπάρχει πράγματι μια τέλεια λύση για τα λάθη που κερματισμού κατά 100% όπου ελαχιστοποιεί την παραμόρφωση του σήματος δηλαδή το «distortion». 
Η διαδικασία αυτή ονομάζεται «πρόσμειξη» και είναι χτισμένη σε κάθε ADC στην αγορά. 
ADC = Analog to Digital Conversion.

Πρόσμειξη (Dither-Dithering)
Ουσιαστικά κατά τη διαδικασία μετατροπής του σήματος μας, μια πολύ μικρή ποσότητα λευκού θορύβου προστίθεται στο σήμα μας. Αυτό έχει ως αποτέλεσμα την πλήρη τυχαιοποίηση των σφαλμάτων κερματισμού. Τυχαιοποίηση στον ψηφιακό ήχο έχουμε όταν μετατρέπουμε πίσω από το ψηφιακό σήμα σε αναλογικό σήμα. Το αποτέλεσμα είναι να έχουμε μια τέλεια μέτρηση της κυματομορφής μας (2 *) συν κάποιο θόρυβο, με άλλα λόγια με την πρόσμειξη όλα τα σφάλματα μέτρησης έχουν μετατραπεί σε θόρυβο. (3 *).
Ας ελπίσουμε ότι είστε ακόμα μαζί μου, γιατί τώρα μπορούμε να πάμε να μάθουμε ακριβώς τι συμβαίνει με το βάθος bit. 
Πηγαίνοντας πίσω στο παραπάνω, όταν προσθέτουμε ένα «κομμάτι» των δεδομένων που έχουμε διπλασιάσει τον αριθμό των διαθέσιμων αξιών, άρα έχουμε μείωση κατά το ήμισυ του αριθμού των σφαλμάτων κερματισμού, αν μειωθεί κατά το ήμισυ ο αριθμός των σφαλμάτων κερματισμού, το αποτέλεσμα είναι να έχουμε μια τέλεια κυματομορφή με μειωμένη κατά το ήμισυ την ποσότητα του θορύβου. Για την φράση αυτή, κάθε επιπλέον κομμάτι δεδομένων, μετακινείται το πάτωμα θορύβου κάτω από 6dB. 

Κάνοντας την μετατροπή γύρω από αυτό, μπορούμε να πούμε πλέον πως: 
κάθε κομμάτι των δεδομένων μας παρέχει 6dB του δυναμικού εύρους (* 4). 
Ως εκ τούτου 16bit x 6db = 96dB. 
Αυτό το 96dB ορίζει το δυναμικό εύρος του CD, ενώ τα 24bit x = 6dB άρα 144dB και ούτω κάθε εξής.

Έτσι λοιπόν τα 24bit προσθέτουν πιο μεγάλη «ανάλυση» σε σύγκριση με τα 16bit αλλά αυτό δεν σημαίνει και υψηλότερη ποιότητα, αυτό σημαίνει απλώς ότι μπορεί να κωδικοποιήσει ένα μεγαλύτερο δυναμικό εύρος. Αυτή είναι η ΤΕΡΑΣΤΙΑ παρανόηση όπου γίνεται από πολλούς. 
Δεν υπάρχουν επιπλέον μαγικές ιδιότητες, τίποτα που η επιστήμη δεν κατανοεί ή δεν μπορεί να μετρήσει. Η μόνη διαφορά μεταξύ 16bit και 24bit είναι τα 48dB του δυναμικού εύρους (8bits x = 6dB 48dB) και τίποτα άλλο. Αυτό δεν είναι μια ερώτηση για την ερμηνεία ή γνώμη, είναι η αποδείξιμη, αδιαμφισβήτητη λογική μέσω μαθηματικών στην οποία στηρίζεται η ίδια η ύπαρξη του ψηφιακού ήχου.
Έτσι, το ερώτημα που δημιουργείτε είναι το εξής: μπορείτε να ακούσετε πραγματικά κάποια οφέλη από το μεγαλύτερο (48dB) δυναμικό εύρος που προσφέρονται από 24bit; 
Δυστυχώς, όχι δεν μπορείτε. 
Το σύνολο του δυναμικού εύρους ορισμένων τύπων μουσικής είναι μερικές φορές ακόμα και λιγότερο από 12dB. Οι ηχογραφήσεις με το μεγαλύτερο δυναμικό εύρος τείνουν να είναι οι συμφωνικές ορχήστρες, αλλά ακόμα και σε αυτές σχεδόν ποτέ δεν έχουμε μια μεγαλύτερη δυναμική περιοχή από 60dB περίπου. 
Όλα αυτά είναι καλά μέσα στο εύρος 96dB του ταπεινού μας CD. Επιπλέον, σύγχρονες τεχνικές αντιληπτικά ενισχύουν το δυναμικό εύρος του CD με την κίνηση του θορύβου «dithering» (http://kolirousis.blogspot.gr/2013/09/dsd-vs-pcm-format.html) έξω από την ζώνη συχνοτήτων όπου η ακοή μας είναι πιο ευαίσθητη
Αυτό δίνει ένα αντιληπτό δυναμικό εύρος για το CD μέχρι και 120dB (150 dB σε ορισμένες ζώνες συχνοτήτων). Θα πρέπει να συνειδητοποιήσουμε ότι κατά την αναπαραγωγή ενός CD, ο ενισχυτής είναι αυτός που συνήθως έχει ρυθμιστεί έτσι ώστε οι πιο ήσυχοι ήχοι του CD να μπορούν απλά να ακουστούν πάνω από το δάπεδο του θορύβου του περιβάλλοντος ακρόασης μας, δηλαδή το καθιστικό, club κλπ. 
Έτσι, αν ο μέσος όρος του δαπέδου θορύβου μας για ένα καθιστικό είναι περίπου τα 50dB (ή 30dB για κλειστό μικρό χώρο), τότε το δυναμικό εύρος του CD ξεκινά από αυτό το σημείο και είναι ικανό να πάει συν 96dB (τουλάχιστον) πάνω από αυτό.
(Δάπεδο θορύβου = Noise Floor)
Εάν το πλήρες δυναμικό εύρος του CD ήταν στην πραγματικότητα πάνω από το επίπεδο του θορύβου, ο ακροατής στο σπίτι (αν είχε τον κατάλληλο εξοπλισμό) είναι σχεδόν βέβαιο ότι θα προκαλούσε έντονο πόνο ακόμα και μόνιμη βλάβη στην ακοή του. Αν επρόκειτο να χρησιμοποιήσει το πλήρες δυναμικό εύρος των 24bit και ένας ακροατής είχε τον εξοπλισμό για να τα αναπαράγει ολόκληρα τα 24bit, 
...ο ακροατής θα είχε πεθάνει ακαριαία.!!
Το λιγότερο ίσως που θα μπορούσε να πάθει θα ήταν πιθανότατα να πήγαινε σε κώμα για μερικές εβδομάδες και να ξυπνήσει εντελώς κουφός. Δεν αστειεύομαι είτε υπερβάλλω εδώ, απλά σκεφτείτε, 144dB + 50dB το δάπεδο του θορύβου του δωματίου ίσον 194dB. Τα 120dB είναι ο αριθμός που συχνά αναφέρεται για τα υγιή επίπεδα πίεσης, τα 194dB είναι αρκετά ισχυρά ώστε να σκοτώσουν, ενώ θα πρέπει να σας ενημερώσω πως μερικοί άνθρωποι έχουν σκοτωθεί ακόμα και από 160dB
Ωστόσο, αυτό είναι αρκετά απίθανο να συμβεί, γιατί τα DACs (Digital to Analog Converter) στην αγορά μπορεί να μπορούν να εξάγουν την 144dB δυναμική περιοχή των 24bit ΑΛΛΑ να μην είναι αλήθεια 24bit μετατροπείς, σχεδόν κανείς δεν έχει ένα σύστημα ηχείων που μπορεί να εξάγει 144dB δυναμική περιοχή και, όπως είπα πιο πριν, γύρω στα 60dB είναι η πιο μεγάλη δυναμική περιοχή που θα βρείτε σε μία εμπορική ηχογράφηση*. (Υπάρχουν και εξαιρέσεις σε αυτό)
Έτσι, εφόσον αποδεχόμενοι τα παραπάνω γεγονότα, γιατί υπάρχουν τα 24bit; ποιο είναι το νόημα τους; 
Υπάρχουν κάποιες χρήσιμες εφαρμογές για τα 24bit οι οποίες βρίσκονται κατά την εγγραφή αλλά και κατά τη μίξη της μουσικής. Θυμηθείτε, ακόμη και μια ηχογράφηση με δυναμικό εύρος 60dB χρησιμοποιεί μόνο 10bits των δεδομένων από τα 16bit του CD, τα άλλα 6bits είναι απλά θόρυβος. Έτσι, η διαφορά στον πραγματικό κόσμο μεταξύ 16bit και 24bit είναι αυτά τα επιπλέον 8bits του θορύβου.
Ξέρω ότι μερικοί άνθρωποι θα πουν ότι όλα αυτά είναι σκουπίδια, και ότι "μπορώ να ακούσω εύκολα τη διαφορά ανάμεσα σε μια εμπορική καταγραφή 16bit και 24bit. Δυστυχώς δεν μπορείτε, δεν είναι ότι δεν έχετε τον εξοπλισμό ή τα αυτιά, δεν είναι ανθρωπίνως δυνατό στη θεωρία ή στην πράξη, κάτω από οποιεσδήποτε συνθήκες!
Εάν παίζετε μία 24bit εγγραφή και στη συνέχεια την ίδια εγγραφή σε 16bit και παρατηρήσετε μια διαφορά, είναι είτε γιατί κάτι έχετε «κάνει κάτι» κατά την καταγραφή των 16bit, κάποια ακατάλληλη επεξεργασία δηλαδή, είτε θα ακούσετε μια διαφορά, γιατί πολύ απλά «ψυχολογικά» την περιμένετε.
1 = Στην πραγματικότητα αυτές τις μέρες η διαδικασία της μετατροπής Analog to Digital είναι λίγο πιο περίπλοκη, με τη χρήση της υπέρ δειγματοληψίας (πολύ υψηλές συχνότητες δειγματοληψίας) και μόνο μια χούφτα των bits. Αργότερα, κατά τη διαδικασία μετατροπής αυτή η αρχική δειγματοληψία «αποδεκατίζεται» πίσω στο απαιτούμενο βάθος bit και συχνότητα δειγματοληψίας.
2 = Η έννοια της τέλειας μέτρησης ή αναδημιουργία μια τέλειας κυματομορφής μπορεί να φαίνεται σαν διαφημιστική εκστρατεία μάρκετινγκ. Ωστόσο, σε αυτή την περίπτωση δεν είναι. Είναι στην πραγματικότητα η βασική αρχή του Nyquist-Shannon θεώρημα δειγματοληψίας στις οποίες η ίδια η ύπαρξη και η εφεύρεση του ψηφιακού ήχου βασίζεται. Στην ουσία το θεώρημα δείχνει ότι ένα αναλογικό σήμα που έχει ληφθεί για δειγματοληψία μπορεί κάλλιστα να ανακατασκευαστεί από τα δείγματα. Ξέρω ότι θα υπάρξουν κάποιοι που θα διαφωνήσουν με αυτή την ιδέα, δυστυχώς, η διαφωνία δεν αποτελεί επιλογή. Αυτό το θεώρημα δεν έχει εφευρεθεί για να εξηγήσει πώς τα ψηφιακά έργα ήχου, είναι ο άλλος τρόπος γύρω από το Digital Audio όπου επινοήθηκε από το θεώρημα αυτό, αν δεν πιστεύει κάποιος στο θεώρημα αυτό, τότε δεν μπορώ να πιστέψω στον ψηφιακό ήχο, και αντίστροφα!
3 = Στην πραγματικότητα υπάρχει ένας αριθμός διαφορετικών τύπων ταλαντώσεων που χρησιμοποιείται κατά τη δημιουργία ενός προϊόντος μουσικής. Οι περισσότεροι εξακολουθούν να βασίζονται στις αρχικές TPDFs (τριγωνική συνάρτηση πυκνότητας - πιθανότητας), αλλά μερικοί είναι λίγο πιο «έξυπνοι» και αναδιανέμουν το αποτέλεσμα του θορύβου σε λιγότερο αισθητές περιοχές του φάσματος της ακοής. Αυτό ονομάζεται θόρυβος σχήματος ταλαντώσεως.

Σχόλια

Δημοφιλείς αναρτήσεις