Σύνοψη
Σκοπός
Με την αυξανόμενη διαθεσιμότητα ψηφιακών αρχείων ήχου, η ανάγκη για προηγμένες μεθόδους αυτόματης κατηγοριοποίησης μουσικών οργάνων γίνεται πιο επιτακτική. Η ακριβής αναγνώριση των οργάνων σε πολυφωνικές ηχογραφήσεις αποτελεί δύσκολο εγχείρημα, καθώς τα μουσικά όργανα έχουν επικαλυπτόμενα φασματικά και χρονικά χαρακτηριστικά. Κάθε ηχητικό δείγμα μπορεί να αντιστοιχεί σε πολλές ετικέτες οργάνων, γεγονός που προσθέτει πολυπλοκότητα στην ταξινόμηση, η οποία είναι υπερβολική για τους συμβατικούς ταξινομητές, κάνοντας αναγκαία την ανάπτυξη πιο προηγμένων τεχνικών. Η ικανότητα των CNNs να εξάγουν χαρακτηριστικά υψηλού επιπέδου από ανεπεξέργαστα ηχητικά δεδομένα και να τα μετατρέπουν σε αναπαραστάσεις κατάλληλες για ταξινόμηση έχει οδηγήσει στην ευρεία υιοθέτησή τους. Ωστόσο, για την τελική ταξινόμηση, τα μοντέλα αυτά βασίζονται συνήθως σε πλήρως συνδεδεμένα επίπεδα, που μπορεί να μην αντικατοπτρίζουν επαρκώς τις πολύπλοκες αλληλεπιδράσεις μεταξύ των χαρακτηριστικών. Μια αξιοποιήσιμη εναλλακτική λύση είναι τα δίκτυα Kolmogorov-Arnold (KAN), που προσεγγίζουν πολυμεταβλητές συνεχείς συναρτήσεις. Η παρούσα μελέτη παρουσιάζει ένα πλαίσιο ταξινόμησης πολλαπλών οργάνων που χρησιμοποιεί KAN για την ταξινόμηση και συνελικτικά νευρωνικά δίκτυα (CNN) για την εξαγωγή χαρακτηριστικών.
Μεθοδολογία
Το CNN εξάγει διακριτά χαρακτηριστικά από φασματογραφήματα κλίμακας Μελ, που αναπαριστούν τα ηχοχρωματικά γνωρίσματα των οργάνων. Χρησιμοποιούμε τον σκελετό του CNN14 από τη συλλογή PANNs (Pretrained Audio Neural Networks), χωρίς προ-εκπαίδευση. Η αρχιτεκτονική του περιλαμβάνει 6 convolutional blocks, καθένα με κανονικοποίηση ομάδας (batch normalization), η συνάρτηση ενεργοποίησης διορθωμένης γραμμικής μονάδας ReLU, η μέθοδος μέσης συγκέντρωσης (average pooling), και απόσυρση (dropout) για αποφυγή υπερπροσαρμογής. Μέσω επιπέδου μέγιστης συγκέντρωσης (global pooling) οι έξοδοι συνενώνονται για να τροφοδοτήσουν το KAN, που αντικαθιστά το κλασικό MLP.
Το KAN είναι ένας νέος, αποτελεσματικός ταξινομητής που βασίζεται στο θεώρημα αναπαράστασης Kolmogorov-Arnold και προσεγγίζει πολυμεταβλητές συνεχείς συναρτήσεις. Για την καλύτερη αντιστοιχία μεταξύ των εξαγόμενων χαρακτηριστικών και των πολλαπλών ετικετών οργάνων, προσαρμόζουμε την αρχιτεκτονική και τις υπερ-παραμέτρους του (π.χ. grid size, spline order, noise scale, base and spline scaling, activation function (SiLU), grid epsilon, και grid range) ώστε το KAN να ενσωματώνεται στο CNN14.
Δημιουργήσαμε το σετ δεδομένων χρησιμοποιώντας δημόσια διαθέσιμα δείγματα (700 /όργανο) σόλο πιάνου, ηλεκτρικής κιθάρας, βιολιού και ντραμς. Η επιλογή έγινε λόγω πληθώρας δειγμάτων και της έλλειψης ανάλογων ισορροπημένων πολυοργανικών σετ. Η μίξη τους με τεχνικές όπως κανονικοποίηση και αφαίρεση σιωπών μας έδωσε πλήρη έλεγχο των πολυοργανικών δειγμάτων και εξασφάλισε ένα ισορροπημένο σετ 11 κλάσεων από τους συνδυασμούς των οργάνων, με κάθε κλάση να περιέχει 1200 δείγματα διάρκειας 3 δευτερολέπτων και 300 τεχνητά δείγματα για την επαύξηση του σετ. Τα δείγματα περιέχουν τονικές και χρονικές μετατοπίσεις ή (και) προσθήκη θορύβου και μετατράπηκαν σε 16.500 φασματογραφήματα κλίμακας Mel, τα οποία χρησιμοποιήθηκαν ως είσοδος στο CNN14.
Παρά το ότι τα δείγματα στερούνται μουσικότητας χωρίς αρμονική και ρυθμική συνέχεια, αυτή η τυχαιότητα μπορεί να ωφελήσει την εκπαίδευση του μοντέλου καθώς μαθαίνει να διαχωρίζει τα όργανα βάσει των μοναδικών ηχητικών χαρακτηριστικών τους, ανεξαρτήτως αρμονικού πλαισίου. Οι μετρικές αξιολόγησης της απόδοσης του μοντέλου περιλαμβάνουν: ορθότητα (accuracy), ακρίβεια (precision), ανάκληση (recall), πίνακα σύγχυσης (confusion matrix) και macro avg F1-score (αρμονικός μέσος ακρίβειας και ευαισθησίας). Τα οφέλη της στρατηγικής φαίνονται από τη σύγκριση με ένα βασικό μοντέλο που χρησιμοποιεί συμβατικό ταξινομητή (MLP) μετά την αρχιτεκτονική CNN14.
Αποτελέσματα
Τα πειράματα δείχνουν ότι το CNN14-KAN αποδίδει παρόμοια με το CNN14-MLP όσον αφορά τη μέση βαθμολογία F1 και την ακρίβεια, όπως προκύπτει από τις αναφορές ταξινόμησης. Παρά τις παρόμοιες επιδόσεις, το KAN προσφέρει πλεονεκτήματα στην ερμηνευσιμότητα και την αποτελεσματικότητα χρησιμοποιώντας συναρτήσεις ενεργοποίησης με δυνατότητα εκμάθησης που παραμετροποιούνται ως splines, οι οποίες, σύμφωνα με το θεώρημα Kolmogorov-Arnold, βελτιώνουν την ικανότητα του μοντέλου να αναγνωρίζει και να κατανοεί τα πρότυπα που χρησιμοποιεί στη λήψη αποφάσεων. Αυτό φαίνεται από τους πίνακες σύγχυσης, που δείχνουν ποια όργανα αναγνωρίζονται σωστά και ποια συγχέονται. Αυτή η ερμηνευσιμότητα είναι σημαντική για πρακτικές εφαρμογές, όπως στη μουσικολογία, για τη διάκριση λεπτών ηχοχρωματικών διαφορών μεταξύ παρόμοιων οργάνων ή την κατανόηση πολύπλοκων πολυφωνικών δομών. Επιπλέον, ωφελεί άλλους τομείς της ανάκτησης μουσικής πληροφορίας (MIR), όπως την αυτόματη μεταγραφή μουσικής, την ταξινόμηση ειδών και τα συστήματα μουσικών συστάσεων, παρέχοντας σαφέστερες γνώσεις για την επεξεργασία και κατηγοριοποίηση μουσικού περιεχομένου. Τέλος, τα KANs είναι αποδοτικότερα των MLPs, επιτυγχάνοντας συγκρίσιμη ακρίβεια αλλά με μικρότερο μέγεθος μοντέλου, γεγονός που υπογραμμίζει την πρακτική χρησιμότητά τους.
Συμπεράσματα
Το προτεινόμενο σύστημα ταξινόμησης αναγνωρίζει αποτελεσματικά τους συνδυασμούς μουσικών οργάνων σε ηχογραφήσεις, συνδυάζοντας το CNN14 για εξαγωγή χαρακτηριστικών και το KAN για ταξινόμηση. Αυτή η υβριδική προσέγγιση προσφέρει ενθαρρυντικά αποτελέσματα, με το KAN να παρουσιάζει συγκρίσιμη ακρίβεια και F1-score με παραδοσιακές μεθόδους, ενώ παρέχει καλύτερη ερμηνευσιμότητα και αποδοτικότητα. Ωστόσο, αυτά τα αποτελέσματα είναι προκαταρκτικά και απαιτούν περαιτέρω επιβεβαίωση. Η μελλοντική έρευνα θα επεκτείνει αυτό το σύστημα σε άλλους τομείς ανάλυσης ήχου και θα ενσωματώσει πρόσθετα χαρακτηριστικά, όπως αρμονικό περιεχόμενο και χρονική δυναμική. Η βελτίωση των υπερπαραμέτρων του KAN μπορεί να ενισχύσει την απόδοσή του, καθιστώντας το πιο ισχυρό εργαλείο για ταξινόμηση πολυοργανικών δειγμάτων.