Adecuación de una base de datos bilingüe en euskera y castellano para su uso en conversión de texto en habla
Date
2021-04-16Author
Buruchaga Ramos, Aingeru
Metadata
Show full item recordAbstract
[ES] En el desarrollo de sistemas de conversión de texto en habla, para que la voz artificial generada tenga buena calidad, es fundamental que la voz del locutor con la que se genera tenga también buena calidad. Por ello, estos sistemas se desarrollan normalmente usando bases de datos cuidadosamente diseñadas y grabadas para este propósito. Sin embargo, esta es una tarea muy costosa, tanto desde el punto de vista económico como por el tiempo que requiere. Si no se graba una base de datos expresamente para desarrollar el sistema de conversión de texto en habla, es necesario adaptar grabaciones ya existentes para su uso en conversión de texto en habla. Disponer de ficheros de audio que cumplan las condiciones necesarias no es sencillo, bien porque en los ficheros disponibles la voz del locutor no tiene buena entonación e inteligibilidad o porque existe más de un locutor, y, por tanto, voces de diferentes personas. En este segundo caso, separar la voz del locutor de interés es imprescindible para poder emplear los ficheros.
Una manera de separar los diferentes locutores que hablan en un espacio de tiempo es mediante sistemas de diarización de locutores. Este tipo de sistemas permiten diferenciar cuántos locutores hablan en un fichero de audio, determinando en qué instantes habla cada uno de ellos.
En este trabajo se estudia la adecuación de diferentes sistemas de diarización de locutores a una base de datos que contiene voces de periodistas de EITB junto con voces de otros locutores. Se realiza la implementación y optimización con dos sistemas de diarización y se comprueba su adecuación a la base de datos por medio de los resultados obtenidos. De esta manera, se consigue desarrollar una herramienta que permite obtener ficheros de voz válidos para desarrollar sistemas de conversión de texto en habla. [EU] Testua hizketa bihurtzeko sistemak garatzean, funtsezkoa da sortzen den esatariaren ahotsa kalitate ona izatea, sortutako ahots artifizialak kalitate ona izan dezan. Horregatik, sistema horiek, kontu handiz diseinatutako eta horretarako grabatutako datu-baseak erabiliz garatzen dira. Hala ere, lan hori oso garestia da, bai ekonomiaren aldetik, bai behar duen denboragatik. Testua hizketa bihurtzeko sistema garatzeko datu-base bat grabatzen ez bada, grabazioak egokitu behar dira. Ez da erraza beharrezko baldintzak betetzen dituzten audio-fitxategiak edukitzea, bai eskuragarri dauden fitxategietan esatariaren ahotsak intonazio eta ulergarritasun onik ez dutelako, bai esatari bat baino gehiago dagoelako, eta, beraz, hainbat pertsonen ahotsak daudelako. Bigarren kasu horretan, ezinbestekoa da esatari nagusiaren ahotsa bereiztea fitxategiak erabili ahal izateko.
Denbora tarte batean hitz egiten duten esatariak bereizteko modu bat da diarizazio sistemak erabiltzea. Sistema mota horiei esker, audio-fitxategi batean zenbat esatari hitz egin duten bereiz daiteke, bakoitzak zein unetan hitz egiten duen zehaztuz.
Lan honetan, diarizatzeko sistemak EITBko kazetarien eta beste esatari batzuen ahotsak dituen datu-base batera egokitzapena aztertzen da. Inplementazioa eta optimizazioa bi diarizazio-sistemaren bidez egiten da, eta lortutako emaitzen bidez datu-basera egokitzen direla egiaztatzen da. Horrela, testua hizketa bihurtzeko sistemak garatzeko balio duten ahots-fitxategiak lortzeko tresna garatzea lortzen da. [EN] In order to obtain high quality artificial voices, text to speech systems require good quality input audio recordings. Therefore, these systems are normally developed using carefully designed and recorded databases. However, this is a very expensive task, both economically and due to the time it takes to develop them. If a database is not recorded specifically to develop text to speech conversion systems, it is necessary to adapt existing recordings to the requirements of these systems. Obtaining those recordings is not an easy task, due to poor conditions in the speaker’s voice or because the main speaker´s voice is mixed with others in the recording. For that reason, it is very important to separate the different voices in the recordings.
Speaker diarization systems detect speaker changes in a recording and they can be used to detect when a speaker talks. In this work, speaker diarization systems are studied with an EITB (Basque Radio and Television) database, in which journalists and other speakers are present. The main objective is to set up two diarization systems and check if they are suitable for the database of this work. After that, an effective speaker diarization tool is provided to get recordings for text to speech purposes.