Análise e reconhecimento de voz com a criação de um ambiente virtual
Abstract
This innovative project addresses the security challenges associated with the use of virtual assistants in home automation, proposing a solution that maintains the comfort provided by this technology. The solution focuses on voice recognition per specific speaker, allowing the system to respond only to the voice of the configured user. To demonstrate this approach, a virtual environment controlled by the virtual assistant "RAVI" was developed, which interacts with objects using voice commands from the identified speaker. The research involved a comparative study of virtual assistant devices such as Alexa, Google Home, HomePod and Siri, and analysis of global initiatives such as the Australian government's "Create your voiceprint".
These studies have provided insights into the application of speech recognition technologies in different contexts. Furthermore, it was necessary to deepen the technical aspects of the human voice, such as timbre and its detection, through the study of Fourier Transforms, Fourier Series, spectrograms, MEL Scale and spectral analysis. These techniques enabled the precise identification of the speaker's timbre, essential for effective voice recognition. With the need to distinguish a specific speaker in a varied database, the project adopted supervised learning techniques. This method has proven to be essential for predicting results based on input data,
in this case audio files, facilitating efficient speaker identification. The project explored several classifiers in the context of supervised learning, with Logistic Regression emerging as the most appropriate technique after analyzing "classification reports" and "Confusion Matrices".
Combining Logistic Regression with speech filters, such as Fourier transforms, a profile-based speech recognition system was established. This system goes beyond identifying the speaker, interpreting and executing their verbal instructions. To integrate this solution, two endpoints were created using the Flask framework, connected to the Unity platform. This integration allowed the virtual environment to process voice data, enabling RAVI to perform actions as instructed by the identified speaker. The integration highlights the balance between user security and the convenience of home automation. Este projeto inovador aborda os desafios de segurança associados ao uso de assistentes virtuais em automações residenciais, propondo uma solução que mantém o conforto proporcionado por esta tecnologia. A solução foca no reconhecimento de voz por locutor específico, permitindo que o sistema responda apenas à voz do usuário configurado. Para demonstrar essa abordagem, desenvolveu-se um ambiente virtual controlado pelo assistente virtual "RAVI", que interage com objetos mediante comandos de voz do locutor identificado.
A pesquisa envolveu um estudo comparativo de dispositivos de assistentes virtuais como Alexa, Google Home, HomePod e Siri, e análises de iniciativas globais como o "Create your voiceprint" do governo australiano. Esses estudos forneceram insights sobre a aplicação de tecnologias de reconhecimento de voz em diferentes contextos. Além disso, foi necessário um aprofundamento técnico em aspectos da voz humana, como timbre e sua detecção, através do estudo de Transformadas de Fourier, Séries de Fourier, espectrogramas, Escala MEL e análise espectral. Essas técnicas possibilitaram a identificação precisa do timbre do locutor, essencial para o reconhecimento eficaz da voz. Com a necessidade de distinguir um locutor
específico em um banco de dados variado, o projeto adotou técnicas de aprendizado
supervisionado. Este método provou ser essencial para prever resultados com base em dados de entrada, neste caso, arquivos de áudio, facilitando a identificação eficiente do locutor. O projeto explorou diversos classificadores no contexto do aprendizado supervisionado, com a Regressão Logística emergindo como a técnica mais adequada após análises de "classification reports" e "Matrizes de Confusão". Combinando a Regressão Logística com filtros de voz, como as transformadas de Fourier, foi estabelecido um sistema de reconhecimento de voz por perfil. Este sistema vai além da identificação do locutor, interpretando e executando suas
instruções verbais. Para integrar esta solução, foram criados dois endpoints usando o framework Flask, conectados à plataforma Unity. Esta integração permitiu que o ambiente virtual processasse dados de voz, habilitando o RAVI a executar ações conforme as instruções do locutor identificado. A integração destaca o equilíbrio entre segurança do usuário e a conveniência da automação residencial.
Collections
Related items
Showing items related by title, author, creator and subject.
-
Manufacture equipment retrofit to allow usage in the industry 4.0 (Trabalho apresentado em evento)
Diego Hernandez Arjoni; Fernando Silveira Madani; Guilherme Ikeda; Gustavo de M. Carvalho; Loredana B. Cobianchi; Luiz F. L. R. Ferreira; Emilia Villani (Institute of Electrical and Electronics Engineers Inc., 2017)Industry 4.0 brings a new productive period, in which companies that do not have its machinery updated and compatible with the precepts of the advanced manufacture will have difficulties to survive in this new competitive ... -
Proposta de um layout para o novo galpão de uma empresa metalúrgica (Trabalho de conclusão de curso)
Andrade, Maria Paula Novaes de; Daher, Andre Luigi; Koga, Arthur Jun; Lucchesi, Guilherme Cury (2023)The project consists in a study of the creation of a layout for a metallurgical company called Machroterm, located in Arujá (SP). The main objective was to propose a layout for the company's new warehouse where the ... -
A virtual environment to help deaf students with written language (Artigo de Periódico)
Fernandes, João Carlos Lopes; Rodrigues, Silvia Cristina Martini; Da Netto, Ovídio Lopes Cruz (Inderscience Publishers, 2013)The environment developed in 'visual basic' and PostgreSQL, helps deaf students in the construction of sentences in the Portuguese language respecting their rules of writing. Its design is passed by the interaction between ...