Tehdyt toimenpiteet

fbc

Finnish Broadcast Corpus

Description

The material in the Finnish broadcast corpora has been divided into four categories:

  • Radio monologues
  • Radio dialogues
  • TV monologues
  • TV dialogues

Currently, the Finnish Broadcast Corpus contains two parts: 1 (FBC-1) and 2 (FBC-2). These contains recordings from the Finnish Broadcasting Company.

The recordings themselves are called primary data according to the terminology of the Language Bank. In addition, the corpus contains annotations, which is called secondary data. It contains information on units in speech, such as fones, words, and utterances that have been anchored to the time series of the speech and video signals.

Formats:

  • WAV audio format
  • HQ_Pure audio format (44,1–48 KHz)
  • HQ_Pure audio format (16 KHz).
  • MPEG2 video

Home Page: http://www.yle.fi/

Version and Size

Version: The current version contains the two first parts: FBC-1 and FBC-2. 

Size:

FBC-1. The Finnish Broadcast Corpus 1 (FBC-1) comprises sample 65 recordings from the Finnish Broadcasting Company in 2003, forming a speech corpus of 17 hours.

  • Radio monologues (WAV, HQ.Pure and LQ.Pure formats)
    • broadcasted telegraph news (24 × 3 minutes, Nov. 2003)
    • broadcasted lectures of the week (8 × 14 minuuttia).
  • Radio dialogues (WAV, MP3, HQ.Pure and LQ.Pure)
    • unfinished recodings of the Moninaisuusfoorumi-event (5 × 1h).
  • TV monologues (MPEG2, WAV, HQ.Pure, LG.Pure)
    • broadcasted main news read by Arvi Lind ja Eeva Polttila (15 × 30 minunutes, September - November 2003).
  • TV dialogues
    • broadcasted Morning-TV programs (13 × n. 12 minutes, 2003).

FBC-2. While FBC-2 was described in more detail on the above, the summary information on the total size of FBC-2 has not computed yet.

Content and Structure

/kielipankki/fbc

Directory Listing
 1 drwxr-xr-x  3 ling csc   1024 16. syys   15:45 adm
1 drwxr-xr-x 2 ling csc 1024 16. syys 15:40 adm/fbc-morex
1 drwxr-xr-x 2 ling csc 1024 27. helmi 2006 fbc-unmatched
0 drwxr-x--- 5 ling puhe 96 16. syys 15:37 fbc-1
0 drwxr-xr-x 2 ling csc 96 17. elo 13:48 fbc-1/example
0 drwxr-x--- 4 ling puhe 96 16. syys 15:45 fbc-1/radio
2 drwxr-x--- 2 ling puhe 2048 17. elo 13:48 fbc-1/radio/dialog
8 drwxr-x--- 2 ling puhe 8192 17. elo 14:10 fbc-1/radio/monolog
0 drwxr-x--- 4 ling puhe 96 1. maalis 2004 fbc-1/tv
3 drwxr-x--- 2 ling puhe 3072 16. syys 15:45 fbc-1/tv/dialog
4 drwxr-x--- 2 ling puhe 4096 16. syys 15:44 fbc-1/tv/monolog
1 drwxr-x--- 3 ling puhe 1024 5. elo 2004 fbc-2
0 drwxr-x--- 4 ling csc 96 5. elo 2004 fbc-2/radio
0 drwxr-x--- 2 ling csc 96 5. elo 2004 fbc-2/radio/dialog
14 drwxr-x--- 2 ling csc 14336 16. syys 15:44 fbc-2/radio/monolog

Access Rights and Conditions

FBC: Conditions of Use

  1. The user account on the corpus.csc.fi server is valid for the maximum period of two (2) years at the time, starting from the day of admission. CSC will notify the user well before the expiration date of the user account. User information will be updated in connection with the renewal of the license. If not agreed otherwise, unused accounts and the corresponding files will be removed one year after the last use at the latest. The user account will expire immediately when a task or a study has been completed or the user has left the university or polytechnic.
  2. Each user account is personal. No user shall pass the password on to a third party.
  3. If there is a reason to doubt that unauthorized people have used or tried to use the resources, CSC must be notified immediately. Storing delicate or confidential information or sending it over the network should be negotiated in advance with CSC.
  4. The resources obtained must be used for the proposed task only.
  5. Due to licence conditions, foreign user accounts and the use of the resources from abroad should be negotiated separately.
  6. The user id must be secured by a password that is difficult to anticipate.
  7. Some software can be used by academic users only. Other users must settle the matter with software contact persons.
  8. CSC stores customer files for a maximum time of two years after the user account has expired.
  9. CSC takes back-up copies of the customers files regularly. However, CSC declines any responsibility for files lost due to system failure.
  10. This agreement will dissolve immediately, if the licensee brakes the rules and regulation stipulated in this agreement.
  11. Neither contracting party is liable to compensate the other party for such damage preventing the fulfillment of this agreement that is caused by force majeure.

Additional conditions for the use of speech corpora (in Finnish only)

  1. Käyttöoikeuden saaja sitoutuu noudattamaan hyvää tieteellistä käytäntöä, tekijänoikeuksiin ja muihin immateriaalioikeuksiin liittyvää lainsäädäntöä sekä tässä sopimuksessa asetettuja velvollisuuksia.
  2. Mikäli käyttöoikeuden saajalle on annettu kopio tutkimusaineistosta, käyttöoikeuden saaja sitoutuu varmistamaan, että kopion tietoturva varmistetaan ja tämän sopimuksen ehtoja ja niihin liittyviä velvollisuuksia noudatetaan. Samaan tutkimusryhmään kuuluvat tutkijat voivat käyttää tutkimusaineiston yhteistä kopiota edellyttäen, että kaikille tutkijoille on myönnetty tutkimus­aineis­toon henkilökohtainen käyttöoikeus.
  3. Tutkimusaineiston käyttöoikeus on henkilökohtainen eikä sitä saa luovuttaa toiselle henkilölle. Mikäli samaan tutkimuslaitokseen kuuluvat tutkijat haluavat käyttää yhteistä tutkimusaineiston kopiota, kunkin tutkimusryhmän jäsenen on haettava henkilökohtainen käyttöoikeus.
  4. Käyttöoikeuden saaja sitoutuu käyttämään tutkimusaineistoa ainoastaan tämän sopimuksen Käyttötarkoitus -kohdassa ilmoittamaansa tarkoitukseen.
  5. Kun käyttöoikeuden saaja julkaisee tutkimustuloksia, jotka on saatu tutkimusaineistoa hyödyntä­mällä siitä on mainittava julkaisussa seuraavan mallin mukaisesti: http://www.csc.fi/kielipankki/aineistot/viittaus.phtml
  6. Käyttöoikeussopimus voidaan sopijaosapuolen toimesta irtisanoa kirjallisesti päättymään 30 päivän pituisen irtisanomisajan kuluessa.
  7. Käyttöoikeuden myöntäjä voi purkaa tämän sopimuksen päättymään välittömästi, jos käyttöoikeuden saaja rikkoo tämän sopimuksen ehtoja.
  8. Sopijaosapuoli on velvollinen korvaamaan mahdollisen vahinkotapahtuman johdosta ainoastaan välittömät vahingot. Sopijaosapuoli ei ole velvollinen korvaamaan toiselle osapuolelle aiheu­tuneita vahinkoja, mikäli sopimuksen täyttämisen estää osapuolesta riippumaton ylivoimainen este. Ylivoimaiseksi esteeksi katsotaan sellainen sopimuksen täyttämisen estävä ja sopimuksen syntymisen jälkeen sattunut epätavallinen ja asiaan vaikuttava tapahtuma, jota sopijapuolten ei ole syytä ottaa huomioon sopimusta tehtäessä ja joka on sopijapuolista riippumaton, eikä sitä voida ennalta estää ilman kohtuuttomia lisäkustannuksia tai kohtuutonta ajanhukkaa. Tällainen tapahtuma voi olla sota, kapina, pakko-otto tai takavarikko julkiseen tarpeeseen, vientikielto, luonnon­mullistus, yleisen liikenteen tai energiajakelun keskeytys, työselkkaus tai tulipalo tai muu vaikutuksiltaan yhtä merkittävä ja epätavallinen sopijapuolista riippumaton syy. Sopijapuolten on viipymättä ilmoitettava ylivoimaisesta esteestä kirjallisesti toiselle sopijapuolelle, samoin kuin esteen lakkaamisesta.
  9. Käyttöoikeuden myöntäjä ei ole vastuussa sopimuksen kohteena olevien äännitteiden soveltumisesta mihinkään tiettyyn käyttötarkoitukseen, eikä vastaa annotaatioiden oikeellisuudesta.
  10. Tämä sopimus astuu voimaan, kun käyttöoikeuden myöntäjä on hyväksynyt anomuksen ja myöntänyt käyttöluvan.
  11. Käyttöoikeus on voimassa 5 vuotta siitä päivämäärästä lukien, jolloin käyttöoikeuden myöntäjä on viimeksi myöntänyt tai pidentänyt käyttöluvan. Käyttöoikeuden päätyttyä käyttöoikeuden saaja on velvollinen palauttamaan tai hävittämään tutkimusaineiston kopion.

The Group of Unix Users Having Access to the Resource: puhe

References

Making Bibliographical Reference to the Material:

Specify the official names of the speech corpus according to the following examples:

FBC-1
  • Suomalainen radio- ja TV-korpus 1. Suomen Akatemian rahoituksella vuosina 2002–2004 Yleisradio Oy:n materiaalista koostaneet Teknillisen korkeakoulun Akustiikan ja äänenkäsittelytekniikan laborotorio, Teknillisen korkeakoulun Neuroverkkojen tutkimusyksikkö, Helsingin yliopiston fonetiikan laitos, Helsingin yliopiston suomen kielen laitos ja CSC – Tieteen tietotekniikan keskus.
  • Finnish Broadcast Corpus 1. Based on material provided by Finnish Broadcast Company. Compiled 2002–2004 with funding from the Academy of Finland by Helsinki University of Technology Laboratory of Acoustics and Audio Signal Processing, Helsinki University of Technology Neural Network Research Centre, Department of Phonetics, Department of Finnish Helsinki University and CSC – IT Center for Science.
Field of science:
Language research
Available:
  • hippu
License:
A