CoDAS
https://codas.org.br/article/doi/10.1590/2317-1782/e20250111pt
CoDAS
Artigo Original

Elaboração e validação do banco de vozes brasileiro nas variadas emoções (EMOVOX-BR)

Development and validation of the Brazilian voice bank for various emotions (EMOVOX-BR)

Héryka Maria Oliveira Lima; Larissa Nadjara Almeida; Alexandra Christine de Aguiar; Anna Alice Almeida

Downloads: 0
Views: 13

Resumo

RESUMO: Objetivo: Elaborar e validar o Banco de Vozes nas Variadas Emoções para o português brasileiro (EMOVOX-BR).

Método: Estudo observacional e transversal. O corpus deste estudo foi constituído por 1.638 sinais sonoros, em diferentes tarefas de fala, produzidos por atores profissionais e em formação, nativos e falantes do português brasileiro (PT-BR). Desses áudios, selecionou-se os que continham a frase em PT-BR “olha lá o avião azul” na variação das seis emoções básicas mais emissão neutra. Na etapa de validação, a amostra foi composta por juízas fonoaudiólogas brasileiras, com experiência na área de voz, para realizar o julgamento perceptivo-auditivo das vozes para selecionar os sinais sonoros para compor e validar o EMOVOX-BR. Julgaram a identificação e valência da emoção, e quais parâmetros vocais foram mais decisivos no reconhecimento das emoções. Utilizou-se testes para verificar a concordância e confiabilidade intra e interjuizas.

Resultados: O EMOVOX-BR foi formado por 39 áudios, 24 vozes masculinas e 15 femininas. Na fase de validação, todos os áudios obtiveram uma alta taxa de acerto no reconhecimento das emoções a partir da voz. As emoções, raiva, nojo e neutra foram as mais facilmente identificadas, com taxas superiores a 70%. Os parâmetros pitch e loudness foram os mais relevantes para o reconhecimento das emoções.

Conclusão: O EMOVOX-BR é um banco de vozes pioneiro no PT-BR, composto por 39 áudios de falantes nativos, com variação nas seis emoções básicas e emissão neutra.

Palavras-chave

Voz, Reconhecimento de Voz, Comunicação, Emoções, Comportamento, Banco de Dados

Referências

1 Behlau M. Voz: O livro do especialista. Rio de Janeiro: Editora Revinter; 2008. Vol. 1.

2 Sundberg J. A ciência da voz. São Paulo: Editora da Universidade de São Paulo; 2015.

3 Silva EF. A voz dentro da relação psíquico-orgânica: estudo sobre a influência das emoções na voz do ator. Rev Cient/FAP. 2009;4(1):1-19. https://doi.org/10.33871/19805071.2009.4.1.1600.

4 Costa DB, Lopes LW, Silva EG, Cunha GMS, Almeida LNA, Almeida AAF. Fatores de risco e emocionais na voz de professores com e sem queixas vocais. Rev CEFAC. 2013;15(4):1001-10. https://doi.org/10.1590/S1516-18462013000400030.

5 Lopes LW, Silva IM, Sousa ESS, Silva ACF, Paiva MAA, Diniz EGR, et al. Spectrographic classification of the vocal signal: relation with laryngeal diagnosis and auditory-perceptual analysis. Audiol Commun Res. 2020;25:e2194. https://doi.org/10.1590/2317-6431-2019-2194.

6 Almeida AAF, Behlau M, Leite JR. Correlação entre ansiedade e performance comunicativa. Rev Soc Bras Fonoaudiol. 2011;16(4):384-6. https://doi.org/10.1590/S1516-80342011000400004.

7 Adriano T, Arriaga P. Exaustão emocional e reconhecimento de emoções na face e voz em médicos. Psicol Saude Doencas. 2016;17(1):97-104. https://doi.org/10.15309/16psd170114.

8 Sundberg J, Salomão GL, Scherer K. Emotional expressivity in singing: assessing physiological and acoustic indicators of two opera singers’ voice characteristics. J Acoust Soc Am. 2024;155(1):18-28. https://doi.org/10.1121/10.0023938. PMid:38169520.

9 Ekman P. Basic emotions. In: Dalgleish T, Power MJ, editors. Handbook of cognition and emotion. Hoboken: Wiley; 1999. p. 45-60. https://doi.org/10.1002/0470013494.ch3.

10 Ververidis D, Kotropoulos C. Emotional speech recognition: resources, features, and methods. Speech Commun. 2006;48(9):1162-81. https://doi.org/10.1016/j.specom.2006.04.003.

11 Burkhardt F, Paeschke A, Rolfes M, Sendlmeier W, Weiss B. A database of german emotional speech. Proc INTERSPEECH. 2005;1517-20. https://doi.org/10.21437/Interspeech.2005-446.

12 Busso C, Bulut M, Lee CC, Kazemzadeh A, Mower E, Kim S, et al. IEMOCAP: Interactive Emotional Dyadic Motion Capture Database. Lang Resour Eval. 2008;42(4):335-59. https://doi.org/10.1007/s10579-008-9076-6.

13 McKeown G, Valstar M, Cowie R, Pantic M, Schroder M. The SEMAINE 24 database: annotated multimodal records of emotionally colored conversations between a person and a limited agent. IEEE Trans Affect Comput. 2012;3(1):5-17. https://doi.org/10.1109/T-AFFC.2011.20.

14 Ringeval F, Sonderegger A, Sauer J, Lalanne D. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions. In: Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG); 2013; Shanghai, China. USA: IEEE; 2013. p. 1-8. https://doi.org/10.1109/FG.2013.6553805.

15 Singh J, Sirohi S, Mall S. Use of artificial intelligence in voice recognition. In: Proceedings of the 2023 5th International Conference on Advances in Computing, Communication Control and Networking (ICAC3N); 2023; Greater Noida, India. USA: IEEE; 2023. p. 995-8. https://doi.org/10.1109/ICAC3N60023.2023.10541456.

16 Bi L. The application and analysis of emotion recognition based on modern technology. ITM Web Conf. 2025;70:03012. https://doi.org/10.1051/itmconf/20257003012.

17 Behlau M, Rocha B, Englert M, Madazio G. Validation of the Brazilian Portuguese CAPE-V instrument—BR CAPE-V for auditory-perceptual analysis. J Voice. 2022;36(4):586.e15-e20. https://doi.org/10.1016/j.jvoice.2020.07.007.

18 Santos SF, Morais AS, Almeida LN, Monteiro GFP, Lima HMO, Rodrigues BA, et al. Qual a tarefa de fala mais robusta durante a coleta remota em variadas emoções? In: Anais do XXIX Congresso Brasileiro e XI Congresso Internacional de Fonoaudiologia; 2021; São Paulo. São Paulo: Sociedade Brasileira de Fonoaudiologia; 2021. Vol. 1. p. 1-1.

19 American Speech-Language-Hearing Association. Consensus auditory-perceptual evaluation of voice (CAPE-V). Rockville: ASHA Special Interest Division 3, Voice and Voice Disorders; 2002.

20 Morais AS, Santos SF. Julgamento perceptual a diferentes estados emocionais de pessoas com e sem problemas de voz na perspectiva de juízes leigos [Iniciação Científica]. João Pessoa: Pró-Reitoria de Pesquisa, Universidade Federal da Paraíba; 2021.

21 Monteiro GFP, Lima HMO, Rodrigues BA, Almeida LN, Santos SF, Morais AS, et al. Será que o smartphone é uma boa estratégia de coleta de voz de forma remota? In: Anais do XXIX Congresso Brasileiro e XI Congresso Internacional de Fonoaudiologia; 2021. São Paulo: Sociedade Brasileira de Fonoaudiologia; 2021. vol. 1, pp. 1-8.

22 Deliyski DD, Shaw HS, Evans MK. Adverse effects of environmental noise on acoustic voice quality measurements. J Voice. 2005;19(1):15-28. https://doi.org/10.1016/j.jvoice.2004.07.003. PMid:15766847.

23 Cohen JA. Coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20(1):37-46. https://doi.org/10.1177/001316446002000104.

24 Deliyski DD, Shaw HS, Evans MK. Adverse effects of environmental noise on acoustic voice quality measurements. J Voice. 2005;19(1):15-28. https://doi.org/10.1016/j.jvoice.2004.07.003. PMid:15766847.

25 Bottalico P, Codino J, Cutiva LC, Marks K, Nudelman CJ, Skeffing J, et al. Reproducibility of voice parameters: the effect of room acoustics and microphones. J Voice. 2020;34(3):320-34. https://doi.org/10.1016/j.jvoice.2018.10.016. PMid:30471944.

26 Landis JR, Koch GG. A one-way components of variance model for categorical data. Biometrics. 1977;33(4):671-9. https://doi.org/10.2307/2529465.

27 Silva RSA, Simões-Zenari M, Nemr NK. Impacto de treinamento auditivo na avaliação perceptivo-auditiva da voz realizada por estudantes de fonoaudiologia. J Soc Bras Fonoaudiol. 2012;24(1):19-25. https://doi.org/10.1590/S2179-64912012000100005. PMid:22460368.

28 Alves JN, Almeida AA, Yamasaki RK, Lopes LW. The influence of listener experience, measurement scale and speech task on the reliability of auditory-perceptual evaluation of vocal quality. CoDAS. 2024;36(3):e20230175. https://doi.org/10.1590/2317-1782/20232023175. PMid:38629682.

29 Gonçalves RR, Costa DB, Almeida AAF. Fatores e sintomas vocais como preditores da alta ansiedade. In: Anais do XXIV Congresso Brasileiro de Fonoaudiologia; III Congresso Ibero-americano de Fonoaudiologia; 2018 out; Curitiba, Brasil. São Paulo: Sociedade Brasileira de Fonoaudiologia; 2018. vol. 1.

30 Busso C, Rahman T. Unveiling the acoustic properties that describe the valence dimension. In: Proceedings of the 13th Annual Conference of the International Speech Communication Association (INTERSPEECH); 2012 Sep; Portland, OR, USA. Rotterdam Ahoy: ISCA; 2012. p. 1179-82. https://doi.org/10.21437/Interspeech.2012-124.

31 Hirst D, Di Cristo A. Intonation systems. Cambridge: Cambridge University Press; 1998.

32 Lopes LW, Alves JN, Evangelista DS, França FP, Vieira VJD, Lima-Silva MFB, et al. Acurácia das medidas acústicas tradicionais e formânticas na avaliação da qualidade vocal. CoDAS. 2018;30(5):e20170282. https://doi.org/10.1590/2317-1782/20182017282. PMid:30365651.

33 Scherer KR. A cross-cultural investigation of emotion inferences from voice and speech: implications for speech technology. In: Proceedings of the 6th International Conference on Spoken Language Processing (ICSLP); 2000; Beijing, China. Rotterdam Ahoy: ISCA; 2000. p. 379-82. https://doi.org/10.21437/ICSLP.2000-287.

34 Vieira VJD. Análise de variações acústicas não estacionárias e seu efeito na detecção de múltiplas emoções e condições de estresse [tese]. Campina Grande: Universidade Federal de Campina Grande; 2018.

35 Bänziger T, Scherer KR. The role of intonation in emotional expressions. In: Scherer KR, Bänziger T, Roesch EB, editors. Blueprint for affective computing: a sourcebook and manual. Oxford: Oxford University Press; 2005. p. 245-71.
 


Submetido em:
12/05/2025

Aceito em:
11/08/2025

69e6b547a953951d044934e8 codas Articles

CoDAS

Share this page
Page Sections