Φανταστείτε τον εαυτό σας να κάθεται χαλαρός στον καναπέ και απλά να παραγγείλετε τον υπολογιστή ή το φορητό υπολογιστή ή το κινητό σας για να εκτελεί απλές εργασίες, όπως πληκτρολόγηση ενός γράμματος ή εκτέλεση ορισμένων εντολών. Είναι δυνατόν?

Φυσικά, εκεί είναι το σημείο της αναγνώρισης φωνής.

Πηγαίνοντας από τον ορισμό είναι η διαδικασία αναγνώρισης της ανθρώπινης ομιλίας και την αποκωδικοποίησε σε μορφή κειμένου.

Αρχή

Η βασική αρχή του αναγνώριση φωνής περιλαμβάνει το γεγονός ότι η ομιλία ή οι λέξεις που ομιλούνται από οποιοδήποτε άνθρωπο προκαλούν δονήσεις στον αέρα, γνωστές ως ηχητικά κύματα. Αυτά τα συνεχή ή αναλογικά κύματα ψηφιοποιούνται και υποβάλλονται σε επεξεργασία και στη συνέχεια αποκωδικοποιούνται σε κατάλληλες λέξεις και στη συνέχεια κατάλληλες προτάσεις.

αναγνώριση φωνής

Συστατικά ενός συστήματος αναγνώρισης ομιλίας

Τι περιλαμβάνει λοιπόν ένα βασικό σύστημα αναγνώρισης ομιλίας;

Συστατικά ενός συστήματος αναγνώρισης ομιλίας

Συσκευή καταγραφής ομιλίας : Αποτελείται από ένα μικρόφωνο, το οποίο μετατρέπει τα σήματα ηχητικών κυμάτων σε ηλεκτρικά σήματα και έναν Αναλογικό σε Ψηφιακό Μετατροπέα, ο οποίος δειγματίζει και ψηφιοποιεί τα αναλογικά σήματα για τη λήψη των διακριτών δεδομένων που μπορεί να κατανοήσει ο υπολογιστής.
Μονάδα ψηφιακού σήματος ή επεξεργαστής : Εκτελεί επεξεργασία στο μη επεξεργασμένο σήμα ομιλίας όπως μετατροπή τομέα συχνότητας, αποκαθιστώντας μόνο τις απαιτούμενες πληροφορίες κ.λπ.
Προεπεξεργασμένη αποθήκευση σήματος : Η προεπεξεργασμένη ομιλία αποθηκεύεται στη μνήμη για την εκτέλεση περαιτέρω εργασιών αναγνώρισης ομιλίας.
Σχέδια ομιλίας αναφοράς : Ο υπολογιστής ή το σύστημα αποτελείται από προκαθορισμένα μοτίβα ομιλίας ή πρότυπα που είναι ήδη αποθηκευμένα στη μνήμη, για χρήση ως αναφορά για αντιστοίχιση.
Αλγόριθμος αντιστοίχισης προτύπων : Το άγνωστο σήμα ομιλίας συγκρίνεται με το μοτίβο ομιλίας αναφοράς για τον προσδιορισμό των πραγματικών λέξεων ή του μοτίβου λέξεων.

Λειτουργία του συστήματος

Τώρα ας δούμε πώς λειτουργεί ολόκληρο το σύστημα.

Εργασία του συστήματος

Μια ομιλία μπορεί να θεωρηθεί ως ακουστική κυματομορφή, δηλαδή πληροφορίες που μεταφέρουν σήματα. Ένας φυσιολογικός άνθρωπος με τον περιορισμένο ρυθμό κίνησης των αρθρωτών του (όργανα ομιλίας) μπορεί να παράγει ομιλία με μέσο ρυθμό 10 ήχων ανά δευτερόλεπτο. Ο μέσος ρυθμός πληροφοριών είναι περίπου 50-60 bit / δευτερόλεπτο. Σημαίνει στην πραγματικότητα μόνο 50 bit / δευτερόλεπτο πληροφοριών που απαιτούνται στο σήμα ομιλίας. Αυτή η ακουστική κυματομορφή μετατρέπεται σε αναλογικά ηλεκτρικά σήματα από το μικρόφωνο. Ο μετατροπέας αναλογικού σε ψηφιακό μετατρέπει αυτό το αναλογικό σήμα σε ψηφιακά δείγματα λαμβάνοντας ακριβείς μετρήσεις του κύματος σε διακριτά διαστήματα.
Το ψηφιοποιημένο σήμα αποτελείται από ένα ρεύμα περιοδικών σημάτων που λαμβάνεται ως δείγμα 16000 φορές ανά δευτερόλεπτο και δεν είναι κατάλληλο για πραγματική εκτέλεση αναγνώρισης ομιλίας διαδικασία καθώς το μοτίβο δεν μπορεί να εντοπιστεί εύκολα. Για την εξαγωγή των πραγματικών πληροφοριών, το σήμα στον τομέα χρόνου μετατρέπεται σε σήμα στον τομέα συχνότητας. Αυτό γίνεται από τον Ψηφιακό Επεξεργαστή Σήματος χρησιμοποιώντας την τεχνική FFT. Στο ψηφιακό σήμα, το εξάρτημα μετά από κάθε 1/100^ουαναλύεται ένα δευτερόλεπτο και υπολογίζεται το φάσμα συχνοτήτων για κάθε τέτοιο συστατικό. Με άλλα λόγια, το ψηφιοποιημένο σήμα χωρίζεται σε μικρά μέρη πλάτους συχνότητας.
Κάθε τμήμα ή το γράφημα συχνότητας αντιπροσωπεύει τους διαφορετικούς ήχους που παράγονται από τα ανθρώπινα όντα. Ο υπολογιστής εκτελεί την αντιστοίχιση των άγνωστων τμημάτων με τα αποθηκευμένα φωνητικά της συγκεκριμένης γλώσσας. Αυτή η αντιστοίχιση μοτίβου γίνεται με 3 τρόπους:

Χρησιμοποιώντας μια ακουστική φωνητική προσέγγιση : Στην ακουστική φωνητική προσέγγιση, γενικά χρησιμοποιείται το μοντέλο Hidden Markov. Αυτό το μοντέλο αναπτύσσει ένα μη ντετερμινιστικό μοντέλο πιθανότητας για την αναγνώριση ομιλίας. Αυτό το μοντέλο αποτελείται από δύο μεταβλητές - τις κρυφές καταστάσεις των φωνημάτων που είναι αποθηκευμένα στη μνήμη του υπολογιστή και το τμήμα ορατής συχνότητας του ψηφιακού σήματος. Κάθε φωνή έχει τη δική του πιθανότητα και το τμήμα ταιριάζει με το φωνήμα σύμφωνα με την πιθανότητα και τα αντιστοιχισμένα φωνήματα συλλέγονται μαζί για να σχηματίσουν τις σωστές λέξεις σύμφωνα με τους αποθηκευμένους κανόνες γραμματικής της γλώσσας.

Χρησιμοποιώντας μια προσέγγιση αναγνώρισης προτύπων : Στην προσέγγιση αναγνώρισης προτύπων, το σύστημα εκπαιδεύεται με ένα συγκεκριμένο μοτίβο ομιλίας για οποιαδήποτε γλώσσα και το άγνωστο μοτίβο ομιλίας συγκρίνεται με το μοτίβο ομιλίας αναφοράς καθορίζοντας την απόσταση μεταξύ των σημάτων χρησιμοποιώντας τεχνική χρονικής στρέβλωσης.

Χρήση τεχνητής νοημοσύνης : Η προσέγγιση της Τεχνητής Νοημοσύνης βασίζεται στη χρήση βασικών πηγών γνώσης, όπως η γνώση των ήχων που εκφωνούνται βάσει φασματικών μετρήσεων, η γνώση κατάλληλων ουσιαστικών και συντακτικών λέξεων.

Παράγοντες από τους οποίους εξαρτάται το σύστημα αναγνώρισης ομιλίας

Το σύστημα αναγνώρισης ομιλίας εξαρτάται από τους ακόλουθους παράγοντες:

Απομονωμένες λέξεις : Πρέπει να υπάρχει μια παύση μεταξύ των διαδοχικών λέξεων που εκφωνούνται επειδή οι συνεχείς λέξεις μπορούν να αλληλεπικαλύπτονται καθιστώντας δύσκολο για το σύστημα να κατανοήσει πότε μια λέξη ξεκινά ή τελειώνει. Επομένως, πρέπει να υπάρχει σιωπή μεταξύ διαδοχικών λέξεων.
Μονό ηχείο : Πολλά ηχεία που προσπαθούν να δώσουν ομιλία ταυτόχρονα μπορεί να προκαλέσουν αλληλεπικάλυψη των σημάτων και διακοπών. Τα περισσότερα από τα συστήματα αναγνώρισης ομιλίας που χρησιμοποιούνται είναι συστήματα που εξαρτώνται από τα ηχεία.
Μέγεθος λεξιλογίου : Οι γλώσσες με μεγάλο λεξιλόγιο είναι δύσκολο να ληφθούν υπόψη για την αντιστοίχιση προτύπων από εκείνες με μικρό λεξιλόγιο, καθώς οι πιθανότητες να έχουν διφορούμενες λέξεις είναι μικρότερες στο τελευταίο.

Σύστημα αναγνώρισης ομιλίας στα Windows 7

Θα ήθελα να προτείνω τα ακόλουθα βήματα για κάθε άτομο που χρησιμοποιεί τα Windows 7 για το σύστημα αναγνώρισης ομιλίας

Ανοίξτε τον Πίνακα Ελέγχου από το μενού έναρξης ή κάνοντας κλικ στο εικονίδιο.
Επιλέξτε Ευκολία πρόσβασης και, στη συνέχεια, κάντε κλικ στην επιλογή Αναγνώριση ομιλίας.
Στη συνέχεια, κάντε κλικ στο Ρύθμιση μικροφώνου και επιλέξτε επιτραπέζιο μικρόφωνο από τις διαθέσιμες επιλογές.
Στη συνέχεια, ακολουθήστε το σεμινάριο ομιλίας και ακολουθήστε τις οδηγίες που δίνονται.
Μετά από αυτό, εκπαιδεύστε τον υπολογιστή σας για καλύτερες επιλογές, ώστε ο υπολογιστής να αποθηκεύει ένα συγκεκριμένο μοτίβο του σήματος ομιλίας σας. Αυτό γίνεται κάνοντας κλικ στην επιλογή 'Εκπαίδευση του υπολογιστή σας για καλύτερη κατανόηση' και, στη συνέχεια, ακολουθεί τις οδηγίες.
Τώρα ξεκινήστε το εικονίδιο αναγνώρισης ομιλίας και ξεκινήστε να υπαγορεύετε την ομιλία σας στον υπολογιστή. Μπορείτε επίσης να προσθέσετε τις δικές σας λέξεις στο λεξικό του υπολογιστή.

Πρακτικά Συστήματα Αναγνώρισης Ομιλίας: Χρήση του HM2007

Ένα πρακτικό σύστημα αναγνώρισης ομιλίας μπορεί να κατασκευαστεί χρησιμοποιώντας το Speech Recognition IC ΗΜ2007 . Το HM2007 είναι ένα IC 48 ακίδων που παρέχει λειτουργία αναγνώρισης ομιλίας. Λειτουργεί σε δύο τρόπους: Χειροκίνητη ή CPU. Και στις δύο λειτουργίες, το IC εκπαιδεύεται πρώτα να αναγνωρίζει λέξεις από τον χρήστη λέγοντας ότι κάθε λέξη για τον αντίστοιχο αριθμό πιέζεται στο πλήκτρο. Το IC αποθηκεύει κάθε σήμα λέξης στη θέση μνήμης που αντιστοιχεί στη λέξη. Η έξοδος δεδομένων από το IC συνδέεται με τον Μικροελεγκτή από όπου εμφανίζεται στην οθόνη LCD.

Πρακτικά Συστήματα Αναγνώρισης Ομιλίας

Κανονικά χρησιμοποιούμε χειροκίνητη λειτουργία για τη λειτουργία HM2007.

Το HM2007 αποτελείται από έναν πείρο RDY που είναι ένας ενεργός χαμηλός πείρος που δείχνει ότι το IC είναι έτοιμο για εκπαιδευτικό σκοπό.
Η είσοδος φωνής θα δοθεί μέσω ενός μικροφώνου συνδεδεμένου στον ακροδέκτη MICIN του IC.
Το IC είναι διασυνδεδεμένο με ένα πληκτρολόγιο που χρησιμοποιείται για την παροχή αριθμητικής εισόδου που αντιστοιχεί σε κάθε λέξη. Το IC λειτουργεί σε δύο λειτουργίες - Clear και Train. Όταν πατηθεί το πλήκτρο Train στο πληκτρολόγιο, το IC ξεκινά τη διαδικασία προπόνησής του.
Ο χρήστης πατά ένα αριθμητικό πλήκτρο πριν πατήσει το πλήκτρο λειτουργίας «Εκπαίδευση» και λέει την απαιτούμενη λέξη στο μικρόφωνο.
Το IC στέλνει ένα υψηλό σήμα στην καρφίτσα ME (Ενεργοποίηση μνήμης) που συνδέεται με τον αντίστοιχο ακροδέκτη ΜΕ SRAM. Το σήμα δεδομένων 8 bit που αντιστοιχεί στον αριθμό που πιέζεται αποθηκεύεται στο SRAM (εξωτερική μνήμη RAM) μέσω του εξωτερικού διαύλου.
Αφού εντοπιστεί η φωνητική είσοδος, ο ακροδέκτης RDY βρίσκεται σε λογική υψηλή και το IC φτάνει στην κατάσταση αναγνώρισης, όπου ξεκινά τη διαδικασία αναγνώρισης.
Το αποτέλεσμα της διαδικασίας δίνεται μέσω του διαύλου δεδομένων με τον πείρο DEN (Ενεργοποίηση δεδομένων).
Τα δεδομένα 8 bit μπορούν στη συνέχεια να δοθούν στον Μικροελεγκτή μέσω ενός επεξεργαστή σειράς Interface ή πρώτα να κλειδωθούν χρησιμοποιώντας το μάνδαλο IC 74HC573.
Ο μικροελεγκτής είναι διασυνδεδεμένος με μια οθόνη LCD και προγραμματίζεται έτσι ώστε η αντίστοιχη λέξη να εμφανίζεται στην οθόνη.

Η μόνη προφύλαξη που πρέπει να ληφθεί είναι να μην χρησιμοποιείτε ομώνυμα (λέξεις με παρόμοιο ήχο) και επίσης να φροντίζετε τη διέγερση στη φωνή.

Λοιπόν, έτσι είναι α βασικό σύστημα αναγνώρισης ομιλίας έργα. Μπορείτε να προσθέσετε τυχόν περαιτέρω εισόδους.