Βλέπετε μια παλιά εκδήλωση. Η πώληση εισιτηρίων και η υποβολή εργασιών έχουν κλείσει.

CAVEMOVE: Συλλογή ακουστικών δεδομένων για τη μελέτη τεχνολογιών φωνής μέσα σε κινούμενα οχήματα

Συγγραφείς

Νικόλαος Στεφανάκης, Μαρίνος Καλαϊτζάκης, Δέσποινα Παυλίδη, Αντρέας Συμιακάκης

Σύνοψη

Εκτιμάται ότι μέχρι το 2028, το 90% των οχημάτων που κατασκευάζονται παγκοσμίως θα ενσωματώνει τεχνολογίες φωνής, Οι τεχνολογίες αυτές θα επιτρέπουν στον οδηγό και τους επιβάτες να ελέγχουν λειτουργίες του οχήματος, αλλά θα βοηθούν επιπλέον σε εφαρμογές τηλεπικοινωνίας, ψυχαγωγίας και ασφάλειας. Οι τεχνολογίες φωνής έχουν μελετηθεί και εξελιχτεί σε σημαντικό βαθμό σήμερα, ωστόσο η απευθείας ενσωμάτωσή τους στα κινούμενα οχήματα χρήζει επιπρόσθετης έρευνας, λόγω των ιδιαίτερα δυσμενών συνθηκών θορύβου που επικρατούν στο συγκεκριμένο ηχητικό περιβάλλον. To CAVEMOVE είναι ένα ερευνητικό έργο που αποσκοπεί στην καταγραφή ηχητικών δεδομένων πολλών καναλιών για τη μελέτη και ανάπτυξη τεχνολογιών φωνής μέσα σε κινούμενα οχήματα. Το έργο επικεντρώνεται τόσο στην καταγραφή του θορύβου σε πραγματικές συνθήκες εν κινήσει, όσο και στη συλλογή κρουστικών αποκρίσεων που θα επιτρέπουν τη σύνθεση των συστατικών φωνής. Στο έργο υιοθετούνται δύο διαφορετικές προσεγγίσεις ως προς την τοποθέτηση των ακουστικών αισθητήρων εντός του οχήματος, αυτό των κατανεμημένων μικροφώνων και αυτό της συστοιχίας μικροφώνων. Στην παρούσα εργασία γίνεται μια σύντομη αναφορά στα δεδομένα που έχουν συλλεχθεί έως τώρα, στις αποφάσεις που ελήφθησαν για τις συνθήκες ηχογράφησής τους αλλά και στον τρόπο που τα εν λόγω ακουστικά δεδομένα μπορούν να αξιοποιηθούν για τη μελέτη και ανάπτυξη διαφορετικών εφαρμογών πάνω στις τεχνολογίες φωνής. Η καταγραφή του θορύβου γίνεται σε πραγματικές συνθήκες εν κινήσει και ανάλογα με το αυτοκίνητο, λαμβάνονται υπόψιν διαφορετικές καταστάσεις ως προς την ταχύτητα του οχήματος καθώς και ως προς τη θέση των παραθύρων. Παράλληλα, ηχογραφούνται θόρυβοι από τη λειτουργία του κλιματισμού και εξαερισμού (εν στάσει). Τα κάθε κανάλι εισόδου υποβάλλεται σε μία διαδικασία βαθμονόμησης, έτσι ώστε από τη στάθμη του σήματος να είναι δυνατόν να υπολογιστεί η στάθμη του ήχου σε dBA. Από τις ηχογραφήσεις που συλλέχθηκαν από τέσσερα διαφορετικά επιβατικά αυτοκίνητα, στην εργασία γίνεται μια σύντομη αναφορά στις στάθμες θορύβου που μετρήθηκαν εντός της καμπίνας καθώς και της διαφοροποίησης που παρατηρήθηκε στη μετρούμενη στάθμη ανάλογα με τη θέση του μικροφώνου. Η μέτρηση των κρουστικών αποκρίσεων από την άλλη αποσκοπεί στο να εκτιμηθούν τα χαρακτηριστικά του ακουστικού συστήματος όπως αυτό διαμορφώνεται από διαφορετικές θέσεις ομιλίας εντός της καμπίνας, θεωρώντας ότι το σύστημα είναι γραμμικό και χρονικά αμετάβλητο. Σε κάθε αυτοκίνητο, λαμβάνονται υπόψιν τουλάχιστον τέσσερις θέσεις διέγερσης, καλύπτοντας τις θέσεις του οδηγού, του συνοδηγού και των επιβατών πίσω αριστερά και πίσω δεξιά. Για τη διέγερση χρησιμοποιείται ειδικό βαθμονομημένο ηχείο που προσεγγίζει τα κατευθυντικά χαρακτηριστικά φωνής και συγκεκριμένα το Talkbox της NTi. Αξιοποιώντας ενσωματωμένα σήματα διέγερσης ροζ θορύβου το συγκεκριμένο ηχείο επιτρέπει την εκτίμηση της στάθμης του σήματος που αντιστοιχεί σε συγκεκριμένη φωνητική προσπάθεια. Αξιοποιώντας τόσο τις ηχογραφήσεις θορύβου όσο και μέρος των μετρούμενων ακουστικών αποκρίσεων, διερευνάται πως λόγος σήματος-θορύβου διαφοροποιείται ανάλογα με τη θέση του ομιλητή και τις συνθήκες οδήγησης, ενώ ταυτόχρονα διερευνάται αν κάποιες θέσεις μικροφώνων είναι πιο ευνοϊκές έναντι άλλων από πλευράς λόγου σήματος προς θόρυβο. Γίνεται αναφορά στο πως τα ηχητικά δεδομένα αυτά μπορούν να χρησιμοποιηθούν για την μελέτη και ανάπτυξη τεχνολογιών φωνής, εστιάζοντας σε προβλήματα όπως την ανίχνευση ομιλίας, το σχηματισμού λοβού, την αναγνώριση ομιλητή και ομιλίας, τον διαχωρισμό ηχητικών πηγών κ.α. Τέλος, γίνεται αναφορά στο Application Programming Interface (API) που είναι υπό ανάπτυξη και θα επιτρέπει στο χρήστη την εύκολη ανάκληση και σύνθεση ηχητικών δεδομένων μέσω των γλωσσών προγραμματισμού Matlab και Python.