Show simple item record

dc.contributor.advisorNavas Cordón, Eva ORCID
dc.contributor.authorBuruchaga Ramos, Aingeru
dc.contributor.otherMaster de Ingeniería (Tel902)
dc.contributor.otherIngeniariako Master (Tel902)
dc.date.accessioned2021-04-16T16:51:51Z
dc.date.available2021-04-16T16:51:51Z
dc.date.issued2021-04-16
dc.identifier.urihttp://hdl.handle.net/10810/51044
dc.description.abstract[ES] En el desarrollo de sistemas de conversión de texto en habla, para que la voz artificial generada tenga buena calidad, es fundamental que la voz del locutor con la que se genera tenga también buena calidad. Por ello, estos sistemas se desarrollan normalmente usando bases de datos cuidadosamente diseñadas y grabadas para este propósito. Sin embargo, esta es una tarea muy costosa, tanto desde el punto de vista económico como por el tiempo que requiere. Si no se graba una base de datos expresamente para desarrollar el sistema de conversión de texto en habla, es necesario adaptar grabaciones ya existentes para su uso en conversión de texto en habla. Disponer de ficheros de audio que cumplan las condiciones necesarias no es sencillo, bien porque en los ficheros disponibles la voz del locutor no tiene buena entonación e inteligibilidad o porque existe más de un locutor, y, por tanto, voces de diferentes personas. En este segundo caso, separar la voz del locutor de interés es imprescindible para poder emplear los ficheros. Una manera de separar los diferentes locutores que hablan en un espacio de tiempo es mediante sistemas de diarización de locutores. Este tipo de sistemas permiten diferenciar cuántos locutores hablan en un fichero de audio, determinando en qué instantes habla cada uno de ellos. En este trabajo se estudia la adecuación de diferentes sistemas de diarización de locutores a una base de datos que contiene voces de periodistas de EITB junto con voces de otros locutores. Se realiza la implementación y optimización con dos sistemas de diarización y se comprueba su adecuación a la base de datos por medio de los resultados obtenidos. De esta manera, se consigue desarrollar una herramienta que permite obtener ficheros de voz válidos para desarrollar sistemas de conversión de texto en habla.es_ES
dc.description.abstract[EU] Testua hizketa bihurtzeko sistemak garatzean, funtsezkoa da sortzen den esatariaren ahotsa kalitate ona izatea, sortutako ahots artifizialak kalitate ona izan dezan. Horregatik, sistema horiek, kontu handiz diseinatutako eta horretarako grabatutako datu-baseak erabiliz garatzen dira. Hala ere, lan hori oso garestia da, bai ekonomiaren aldetik, bai behar duen denboragatik. Testua hizketa bihurtzeko sistema garatzeko datu-base bat grabatzen ez bada, grabazioak egokitu behar dira. Ez da erraza beharrezko baldintzak betetzen dituzten audio-fitxategiak edukitzea, bai eskuragarri dauden fitxategietan esatariaren ahotsak intonazio eta ulergarritasun onik ez dutelako, bai esatari bat baino gehiago dagoelako, eta, beraz, hainbat pertsonen ahotsak daudelako. Bigarren kasu horretan, ezinbestekoa da esatari nagusiaren ahotsa bereiztea fitxategiak erabili ahal izateko. Denbora tarte batean hitz egiten duten esatariak bereizteko modu bat da diarizazio sistemak erabiltzea. Sistema mota horiei esker, audio-fitxategi batean zenbat esatari hitz egin duten bereiz daiteke, bakoitzak zein unetan hitz egiten duen zehaztuz. Lan honetan, diarizatzeko sistemak EITBko kazetarien eta beste esatari batzuen ahotsak dituen datu-base batera egokitzapena aztertzen da. Inplementazioa eta optimizazioa bi diarizazio-sistemaren bidez egiten da, eta lortutako emaitzen bidez datu-basera egokitzen direla egiaztatzen da. Horrela, testua hizketa bihurtzeko sistemak garatzeko balio duten ahots-fitxategiak lortzeko tresna garatzea lortzen da.es_ES
dc.description.abstract[EN] In order to obtain high quality artificial voices, text to speech systems require good quality input audio recordings. Therefore, these systems are normally developed using carefully designed and recorded databases. However, this is a very expensive task, both economically and due to the time it takes to develop them. If a database is not recorded specifically to develop text to speech conversion systems, it is necessary to adapt existing recordings to the requirements of these systems. Obtaining those recordings is not an easy task, due to poor conditions in the speaker’s voice or because the main speaker´s voice is mixed with others in the recording. For that reason, it is very important to separate the different voices in the recordings. Speaker diarization systems detect speaker changes in a recording and they can be used to detect when a speaker talks. In this work, speaker diarization systems are studied with an EITB (Basque Radio and Television) database, in which journalists and other speakers are present. The main objective is to set up two diarization systems and check if they are suitable for the database of this work. After that, an effective speaker diarization tool is provided to get recordings for text to speech purposes.es_ES
dc.language.isospaes_ES
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/es/
dc.subjectdiarización de locutoreses_ES
dc.subjectconversión de texto a vozes_ES
dc.subjecttestu hizketa bihurketaes_ES
dc.subjectspeaker diarizationes_ES
dc.subjecttext to speech conversiones_ES
dc.subjectesatarien diarizazioaes_ES
dc.titleAdecuación de una base de datos bilingüe en euskera y castellano para su uso en conversión de texto en hablaes_ES
dc.typeinfo:eu-repo/semantics/masterThesis
dc.date.updated2021-02-24T10:49:08Z
dc.language.rfc3066es
dc.rights.holderAtribución-NoComercial-CompartirIgual (cc by-nc-sa)
dc.contributor.degreeMaster en Ingeniería de Telecomunicaciónes_ES
dc.identifier.gaurregister111309-694557-05
dc.identifier.gaurassign118002-694557


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Atribución-NoComercial-CompartirIgual (cc by-nc-sa)
Except where otherwise noted, this item's license is described as Atribución-NoComercial-CompartirIgual (cc by-nc-sa)