Análise e reconhecimento de voz com a criação de um ambiente virtual
Abstract
Este projeto inovador aborda os desafios de segurança associados ao uso de assistentes virtuais em automações residenciais, propondo uma solução que mantém o conforto proporcionado por esta tecnologia. A solução foca no reconhecimento de voz por locutor específico, permitindo que o sistema responda apenas à voz do usuário configurado. Para demonstrar essa abordagem, desenvolveu-se um ambiente virtual controlado pelo assistente virtual "RAVI", que interage com objetos mediante comandos de voz do locutor identificado. A pesquisa envolveu um estudo comparativo de dispositivos de assistentes virtuais como Alexa, Google Home, HomePod e Siri, e análises de iniciativas globais como o "Create your voiceprint" do governo australiano. Esses estudos forneceram insights sobre a aplicação de tecnologias de reconhecimento de voz em diferentes contextos. Além disso, foi necessário um aprofundamento técnico em aspectos da voz humana, como timbre e sua detecção, através do estudo de Transformadas de Fourier, Séries de Fourier, espectrogramas, Escala MEL e análise espectral. Essas técnicas possibilitaram a identificação precisa do timbre do locutor, essencial para o reconhecimento eficaz da voz. Com a necessidade de distinguir um locutor específico em um banco de dados variado, o projeto adotou técnicas de aprendizado supervisionado. Este método provou ser essencial para prever resultados com base em dados de entrada, neste caso, arquivos de áudio, facilitando a identificação eficiente do locutor. O projeto explorou diversos classificadores no contexto do aprendizado supervisionado, com a Regressão Logística emergindo como a técnica mais adequada após análises de "classification reports" e "Matrizes de Confusão". Combinando a Regressão Logística com filtros de voz, como as transformadas de Fourier, foi estabelecido um sistema de reconhecimento de voz por perfil. Este sistema vai além da identificação do locutor, interpretando e executando suas instruções verbais. Para integrar esta solução, foram criados dois endpoints usando o framework Flask, conectados à plataforma Unity. Esta integração permitiu que o ambiente virtual processasse dados de voz, habilitando o RAVI a executar ações conforme as instruções do locutor identificado. A integração destaca o equilíbrio entre segurança do usuário e a conveniência da automação residencial. This innovative project addresses the security challenges associated with the use of virtual assistants in home automation, proposing a solution that maintains the comfort provided by this technology. The solution focuses on voice recognition per specific speaker, allowing the system to respond only to the voice of the configured user. To demonstrate this approach, a virtual environment controlled by the virtual assistant "RAVI" was developed, which interacts with objects using voice commands from the identified speaker. The research involved a comparative study of virtual assistant devices such as Alexa, Google Home, HomePod and Siri, and analysis of global initiatives such as the Australian government's "Create your voiceprint". These studies have provided insights into the application of speech recognition technologies in different contexts. Furthermore, it was necessary to deepen the technical aspects of the human voice, such as timbre and its detection, through the study of Fourier Transforms, Fourier Series, spectrograms, MEL Scale and spectral analysis. These techniques enabled the precise identification of the speaker's timbre, essential for effective voice recognition. With the need to distinguish a specific speaker in a varied database, the project adopted supervised learning techniques. This method has proven to be essential for predicting results based on input data, in this case audio files, facilitating efficient speaker identification. The project explored several classifiers in the context of supervised learning, with Logistic Regression emerging as the most appropriate technique after analyzing "classification reports" and "Confusion Matrices". Combining Logistic Regression with speech filters, such as Fourier transforms, a profile-based speech recognition system was established. This system goes beyond identifying the speaker, interpreting and executing their verbal instructions. To integrate this solution, two endpoints were created using the Flask framework, connected to the Unity platform. This integration allowed the virtual environment to process voice data, enabling RAVI to perform actions as instructed by the identified speaker. The integration highlights the balance between user security and the convenience of home automation.
Collections
Related items
Showing items related by title, author, creator and subject.
-
Manufacture equipment retrofit to allow usage in the industry 4.0 (Trabalho apresentado em evento)
Arjoni, Diego Hernandez; Madani, Fernando Silveira; Ikeda, Guilherme Hiroji Anraku; Carvalho, Gustavo de M.; Cobianchi, Loredana B.; Ferreira, Luiz F. L. R.; Villani, Emília (Institute of Electrical and Electronics Engineers Inc., 2017)Industry 4.0 brings a new productive period, in which companies that do not have its machinery updated and compatible with the precepts of the advanced manufacture will have difficulties to survive in this new competitive ... -
Proposta de um layout para o novo galpão de uma empresa metalúrgica (Trabalho de conclusão de curso)
Andrade, Maria Paula Novaes de; Daher, Andre Luigi; Koga, Arthur Jun; Lucchesi, Guilherme Cury (2023)O trabalho aborda um estudo sobre a elaboração de um layout para a empresa metalúrgica chamada Machroterm, localizada em Arujá (SP). O principal objetivo foi propor um layout para o novo galpão da empresa em que irão ... -
Plataforma didática de comissionamento virtual utilizando princípios da indústria 4.0 (Trabalho de conclusão de curso)
Mahfoud, Ahmad Kheder; Manuel, Caio Kurek Marques; Accorinti, Henrique Fortuna; Palu, Matheus Ferreira (2024)A Indústria 4.0 está revolucionando processos industriais, e o ensino dessas tecnologias se torna essencial para a formação de profissionais qualificados. Este trabalho apresenta o desenvolvimento de uma plataforma de ...