The performance of three different taggers (Treetagger, Freeling and GRAMPAL) is evaluated on three different languages, i.e. English, Italian and Spanish. The materials are transcripts from the European Parliament Interpreting Corpus (EPIC), a corpus of original (source) and simultaneously interpreted (target) speeches. Owing to the oral nature of our materials and to the specific characteristics of spoken language produced in simultaneous interpreting, the chosen taggers have to deal with non-standard word order, disfluencies and other features not to be found in written language. Parts of the tagged sub-corpora were automatically extracted in order to assess the success rate achieved in tagging and lemmatisation. Errors and problems are discussed for each tagger, and conclusions are drawn regarding future developments.

Il contributo esamina la prestazione di tre diversi tagger (Treetagger, Freeling e GRAMPAL) su tre lingue diverse, cioè inglese, italiano e spagnolo. I materiali sono trascrizioni provenienti dallo European Parliament Interpreting Corpus (EPIC), un corpus di discorsi originali (in lingua di partenza) e interpretati in simultanea (in lingua d'arrivo). Data l'oralità dei nostri materiali e le specifiche caratteristiche della lingua parlata prodotta in condizioni di interpretazione simultanea, i tagger prescelti devono gestire l'ordine sintattico non standard, disfluenze e altre caratteristiche inusuali per la lingua scritta. Dopo aver estratto automaticamente alcune parti dei sottocorpora taggati, si è proceduto a valutare il tasso di accuratezza nell'assegnazione dei tag POS e nella lemmatizzazione. Per ogni tagger vengono discussi gli errori e i problemi riscontrati e vengono tratte delle conclusioni relative agli sviluppi futuri.

Tagging a corpus of interpreted speeches: the European Parliament Interpreting Corpus (EPIC)

SANDRELLI A;
2006-01-01

Abstract

The performance of three different taggers (Treetagger, Freeling and GRAMPAL) is evaluated on three different languages, i.e. English, Italian and Spanish. The materials are transcripts from the European Parliament Interpreting Corpus (EPIC), a corpus of original (source) and simultaneously interpreted (target) speeches. Owing to the oral nature of our materials and to the specific characteristics of spoken language produced in simultaneous interpreting, the chosen taggers have to deal with non-standard word order, disfluencies and other features not to be found in written language. Parts of the tagged sub-corpora were automatically extracted in order to assess the success rate achieved in tagging and lemmatisation. Errors and problems are discussed for each tagger, and conclusions are drawn regarding future developments.
2006
Il contributo esamina la prestazione di tre diversi tagger (Treetagger, Freeling e GRAMPAL) su tre lingue diverse, cioè inglese, italiano e spagnolo. I materiali sono trascrizioni provenienti dallo European Parliament Interpreting Corpus (EPIC), un corpus di discorsi originali (in lingua di partenza) e interpretati in simultanea (in lingua d'arrivo). Data l'oralità dei nostri materiali e le specifiche caratteristiche della lingua parlata prodotta in condizioni di interpretazione simultanea, i tagger prescelti devono gestire l'ordine sintattico non standard, disfluenze e altre caratteristiche inusuali per la lingua scritta. Dopo aver estratto automaticamente alcune parti dei sottocorpora taggati, si è proceduto a valutare il tasso di accuratezza nell'assegnazione dei tag POS e nella lemmatizzazione. Per ogni tagger vengono discussi gli errori e i problemi riscontrati e vengono tratte delle conclusioni relative agli sviluppi futuri.
tagger
POS-tagging
spoken corpus
simultaneous interpreting
accuracy
tagger
etichettatura per parti del discorso
corpus di lingua parlata
interpretazione simultanea
accuratezza
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14090/1919
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
social impact