RESUMO DO PROJECTO

O projecto ``BDFALA - Base de Dados Falada para o Português Europeu (PLUS/C/LIN/801/93)'' teve início em Janeiro de 94 e duração de três anos e meio, tendo os seis meses finais contituído um prolongamento não previsto no contrato inicial.

O projecto envolveu dois centros de investigação - o INESC (Instituto de Engenharia de Sistemas e Computadores, em Lisboa) e o CLUL (Centro de Linguística da Universidade de Lisboa). O projecto decorreu sob a responsabilidade geral de Isabel Trancoso (IST / INESC), que supervisionou o trabalho das duas equipas chefiadas respectivamente por Luís Oliveira (IST / INESC) e por Céu Viana (CLUL). Para além destes investigadores, o projecto envolveu também (por ordem alfabética): Amália Andrade (CLUL), Pedro Carvalho (INESC / IST), Isabel Mascarenhas (CLUL) e Carlos Ribeiro (ISEL / INESC), e ainda vários estagiários.

O objectivo fundamental do projecto foi a recolha de uma base de dados falada para o Português Europeu. Para conseguir este objectivo, o trabalho foi estruturado em 5 tarefas: normalização, levantamento estatístico do Português europeu, especificação do conteúdo da base de dados, recolha da mesma e pós-gravação.

O relacionamento entre este projecto e outros projectos europeus em áreas afins foi de crucial importância, tendo garantido a adopção de normas de recolha e processamento de corpora falados à escala internacional. Salientam-se, em particular, os projectos SAM_A, EAGLES e SPEECHDAT. De facto, o corpus EUROM.1, recolhido no âmbito do projecto SAM_A, não só foi adoptado como embrião do corpus BDFALA, como serviu de material de treino inicial para o desenvolvimento de uma ferramenta semi-automática de segmentação e etiquetagem para o Português europeu, um dos principais resultados do projecto. Também é de salientar a inclusão no projecto BDFALA de um subconjunto das frases foneticamente ricas gravadas no âmbito do projecto SPEECHDAT (recolha de fala de 5000 falantes via rede telefónica).

O material gravado em CDROM foi recolhido numa cabine insonorizada e inclui locuções de 8 locutores, a maior parte dos quais fazia já parte do subconjunto Few Talkers do EUROM.1: 4 do sexo feminino e 4 do sexo masculino, de idades compreendidas entre os 20 e os 50 anos. As locuções compreendem palavras isoladas e frases de carácter diverso, recolhidas em condições rigorosamente controladas. As especificações iniciais do conteúdo da base de dados foram sendo revistas ao longo do projecto, ultrapassando largamente a quantidade de material inicialmente prevista. A parte dos logátomos e das frases SPEECHDAT foi, tal como planeado, gravada apenas por 2 locutores, um de cada sexo; todo o restante material foi gravado pela totalidade dos locutores. Um subconjunto de palavras e frases foi gravado por 2 locutores, um de cada sexo, de idades inferiores a 16 anos.

O corpus BDFALA ocupa actualmente cerca de 2Gb, constituindo assim um recurso linguístico importantíssimo, que esperamos venha a responder às necessidades há muito sentidas pelas equipas que em Portugal se dedicam ao processamento automático do Português falado.

Saliente-se finalmente que a experiência adquirida na transcrição de fala espontânea, correspondente às gravações televisivas efectuadas no âmbito deste projecto, é também fundamental para o projecto CORAL (Corpus de Diálogo Etiquetado - programa PRAXIS), recentemente iniciado.

Publicações no Âmbito do Projecto:

M. Céu Viana, Isabel M. Trancoso, Fernando M. Silva, Gonçalo C. Marques, Ernesto d'Andrade e Luís C. Oliveira, ``Sobre a pronúncia de nomes próprios, siglas e acrónimos em português europeu'', Actas do 1 Congresso Internacional sobre o Português, Lisboa, Abril de 1994.

M. Céu Viana, Isabel M. Trancoso, Fernando M. Silva, ``On the pronunciation of proper names and acronyms in European Portuguese'', Onomastica Research Colloquium, Londres, Dezembro de 1994.

M. Céu Viana, Isabel M. Trancoso, M. Isabel Mascarenhas, Carlos M. Ribeiro e Luís C. Oliveira, ``Corpora de Fala do PE: Constituição, Segmentação e Etiquetagem'', Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, Outubro de 1995.

D. Chan, A. Fourcin, D. Gybbon, B. Granstrom, M. Huckvale, G. Kokkinakis, K. Kvale, L. Lamel, B. Lindberg, A. Moreno, J. Mouropoulos, F. Senia, I. Trancoso, C. Veld e J. Zeiliger (ordem alfabética), ``EUROM - a Spoken Language Resource for the EU'', Proc. EUROSPEECH'95, Madrid, Espanha, Setembro de 1995.

C. Ribeiro e I. Trancoso, ``Phonetic Vocoding with Speaker Adaptation'', aceite para publicação em Proc. EUROPSEECH'97, Rodes, Grécia, Setembro de 1997.



Isabel Trancoso
Wed Aug 13 15:29:52 WET DST 1997