Tehdyt toimenpiteet

sfnet

SFNET discussion group corpus

Description

The Sfnet corpus is collected from a finnish new group area, sfnet. Sfnet is an administered Finnish usenet hierarchy. The sfnet newagroups generally exist for discussion in the Finnish language.

The corpus contains Finnish discussions from October 2002 to April 2003.

Home Page

Version and Size

Installed in June 2005. The corpus covers more than 100 news groups. The total number of words in the corpus is some 100 million.

Content and Structure

The Sfnet corpus contains the following five directories:

  • raw_texts/
  • parsed_texts/
  • scripts/
  • annotations/
  • posting_authors/

raw_texts/

Hakemistossa raw_texts uutisryhmät on jaettu alihakemistoihin yhdeksänluokkaisen pääjaottelun (sfnet.keskustelu.* -> keskustelu/, jne.) ja yhden kaatoluokan (misc/) mukaan.

Kunkin keskusteluryhmän osaaineisto koostuu yhdestä tekstitiedostosta, jossa on yhtenä pötkönä kaikki yksittäiset keskustelukontribuutioista (posting). Kukin kontribuutio alkaa vaihtelevan sisältöisellä otsakekentällä (Header), jonka avulla keskusteluryhmät voidaan osittaa kontribuutioihinsa. Ositettaessa tiedostoa yksittäisiin kontribuutioihin on huomioitava, että otsakekenttien ensimmäisen rivin nimi voi vaihdella, vaikkakin se yleisimmin on ' Path: ... '. On myös huomattava, että kontribuutiot sisältävät kirjoittajien uuden, oman tekstin lisäksi kaikki kirjoittajien sisällyttämät lainaukset toisista kontribuutioista sekä allekirjoitus- ym. kentät, joiden merkitsemiseen on käytetty useita eri notaatiota. Esimerkiksi lainaukset on yleisimmin merkitty yhdellä tai useamalla kulmasululla ' > [lainaus] ' tai ' > > [lainaus] ', mutta muitakin merkintätapoja esiintyy.

parsed_texts/

Hakemistosta parsed_texts löytyvät seuraavat viisi keskusteluryhmää, joka esiprosessoitu käyttäen prep-and-parse-sfnet-with-quotes -skriptiä ja lingvistisesti automaattisesti analysoitu käyttäen Connexorin fi-fdg -parseria:

  • sfnet.keskustelu.ihmissuhteet
  • sfnet.keskustelu.politiikka
  • sfnet.keskustelu.yhteiskunta
  • sfnet.keskustelu.evoluutio
  • sfnet.tiede.fysiikka

Näissä tiedostoissa on analysoitu paitsi kunkin kontribuution uusi teksti niin myös kontribuution sisältämät lainaukset. Kunkin kontrobuution eri osaset on merkitty seuraavasti:

BEGIN_ARTICLE
Yksittäisen kontribuution (posting) alku
END_ARTICLE
Yksittäisen kontribuution loppu
BEGIN_HEADER
Kontribuution otsakeosion alku
END_HEADER
Kontribuution otsakeosion loppu
BEGIN_BODY
Kontribuution varsinaisen viestitekstin alku
END_BODY
Kontribuution varsinaisen viestitekstin loppu
BEGIN_QUOTE_[STRING]
Lainauksen alku, missä STRING antaa lainauksen tunnusmerkkijonon ('>', '> >', ym.)
END_QUOTE_[STRING]
Lainauksen loppu, missä STRING antaa lainauksen tunnusmerkkijonon
BEGIN_TEXT
Lingvistisesti analysoidun osion alku
END_TEXT
Lingvistisesti analysoidun osion loppu
CITATION
Lainauslähde, esim. ' On 14 June 2006 Antti Arppe wrote: '
BEGIN_SIGNATURE
Allekirjoitusosion (signature) alku (jonka jälkeen ei oleteta enää löytyvän tekstiä)
BEGIN_HTML
Kontribuution html-muotoisen sisällön alku (kontribuutioissa, joissa on sekä teksti- että html-muotoinen sisältö)

scripts/

Hakemistossa scripts/ on kaksi skriptiä, joiden avulla raakatekstimuotoisia uutisryhmiä voidaan esiprosessoida ja parsata tai jälkikäteen ekstrahoida valittuja kontribuutioita ja näiden valittuja osasia.

prep-and-parse-sfnet-with-quotes
tunnistaa kontribuutioiden rajat raakatekstimuotoisesta tiedostosta, merkitsee kontribuutioiden eri osaset, ja lingvistisesti analysoi kontribuutioiden kielelliset osat.
post-process-sfnet
valitsee esiprosessoidusta ja lingvistisesti analysoidusta tiedostosta yksittäisiä kontribuutioita niiden uutisryhmäosoitusten mukaan (otsakkeen Newsgroups -kentän sisällön perusteella), sekä kustakin kontribuutiosta valitut osaset (lainausten kera tai ilman lainauksia). Tämän lisäksi lisää kussakin kontribuutiossa indeksi- ja tekijätagit. Tekijätagi otetaan oletusarvoisesti sellaisenaan From: -kentästä, ellei skriptille ole annettu posting-author tiedostoa, jossa on yhdistetty anonyymeihin kirjoittajanumerotunnuksiin saman kirjoittajan eri kontribuutioissa niiden From: -kentissä antamia internetosoitevariantteja (joista suurin osa on tarkoituksellisesti virheellisiä).

annotations/

Sisältää uutisryhmien sfnet.keskustelu.ihmissuhteet ja sfnet.keskustelu.politiikka osalta muutostiedostot, joissa on tarkistettu ja täydennetty neljän ajatella -verbin, ajatella, miettiä, pohtia ja harkita, sekä niitten argumenttien morfologiset ja syntaktiset analyysit sekä lisätty näiden verbien nominaalisille argumenteille WordNetin mukaiset semanttiset luokittelut.

posting_authors/

Sisältää uutisryhmien sfnet.keskustelu.ihmissuhteet ja sfnet.keskustelu.politiikka osalta tehdyn kirjoittajien internetosoitevarianttien yhdistelyn anonyymeihin kirjoittajanumerotunnuksiin, jota voidaan käyttää ym. post-process-sfnet -skriptin yhteydessä, esimerkiksi:

Tunnusluku Kontribuutioiden lukumäärä =From:= -kenttä
42 39 Batcat <batcat@saunalahti.---------.-----.invalid>
42 115 Batcat <sisilia@sci.fi>

Directory
/kielipankki/sfnet

Directory Listing
dr-xr-x---   2 ling sktp-a 4096  9. kesä   23:35 annotations
dr-xr-x--- 2 ling sktp-a 4096 9. kesä 23:23 parsed_texts
dr-xr-x--- 2 ling sktp-a 4096 9. kesä 23:30 posting_authors
dr-xr-x--- 11 ling sktp-a 4096 9. kesä 23:16 raw_texts
-r-------- 1 ling sktp-a 2617 13. kesä 18:53 README
dr-xr-x--- 2 ling sktp-a 4096 9. kesä 23:27 scripts

Sample

Access Rights and Conditions

This is available for research purposes only. The permission to use the material for research purposes is granted as a part of the SKTP-A permission and under the equivalent conditions of use.

  1. The user account on the corpus.csc.fi server is valid for the maximum period of two (2) years at the time, starting from the day of admission. CSC will notify the user well before the expiration date of the user account. User information will be updated in connection with the renewal of the license. If not agreed otherwise, unused accounts and the corresponding files will be removed one year after the last use at the latest. The user account will expire immediately when a task or a study has been completed or the user has left the university or polytechnic.
  2. Each user account is personal. No user shall pass the password on to a third party.
  3. If there is a reason to doubt that unauthorized people have used or tried to use the resources, CSC must be notified immediately. Storing delicate or confidential information or sending it over the network should be negotiated in advance with CSC.
  4. The resources obtained must be used for the proposed task only.
  5. Due to licence conditions, foreign user accounts and the use of the resources from abroad should be negotiated separately.
  6. The user id must be secured by a password that is difficult to anticipate.
  7. Some software can be used by academic users only. Other users must settle the matter with software contact persons.
  8. CSC stores customer files for a maximum time of two years after the user account has expired.
  9. CSC takes back-up copies of the customers files regularly. However, CSC declines any responsibility for files lost due to system failure.
  10. This agreement will dissolve immediately, if the licensee brakes the rules and regulation stipulated in this agreement.
  11. Neither contracting party is liable to compensate the other party for such damage preventing the fulfillment of this agreement that is caused by force majeure.

Additional conditions for the use of A (academic users) texts (in Finnish only)

  1. Right to access B-texts in the Finnish, Swedish and Finland-Swedish SKTP Text Collections is granted, provided that the user observes the copyright legislation and the good scientic practices, to their use
    • as texts in scientific research
    • by means of linguistic features (statistical measurements, grammar rules, lexical semantics) derived from them
    • in short quotations and examples that are taken from texts without infringing copyright
  2. As to the Swedish Parole Corpus, the access right are limited according to a separate license.
  3. When publishing research results that have been acquired using research materials (e.g. text and speech corpora) made available.
  4. The right to use any research materials made available by the Language Bank of Finland does not affect the copyrights or other immaterial property rights coupled with the texts. Such rights stay with their current holders.
  5. Users may not copy longer passages of text from the text collections from the corpus server (corpus.csc.fi) than short citations.
  6. Privileged users may store temporary copies of texts in non-official directories on the corpus server if it is required for carrying out the research and the user takes action to assure the data security of the texts.
  7. The right to use granted to the user who has signed this agreement is personal and cannot be transferred to any third person or party.
  8. The right to use takes effect when the licensor has approved the application and opened a user account for the licensee on the corpus server (corpus.csc.fi).
  9. The right to use the research materials applied for in the application is valid as long as the access right to the corpus server (corpus.csc.fi).
  10. The licensor is not responsible for the suitability of the research materials for any given purpose.

References

Making Bibliographical Reference to the Material:

SFNET 2002-2003. ~100 million words of Finnish internet newsgroup discussion posted during October 2002 -- April 2003. Compiled by Tuuli Tuominen and Panu Kalliokoski, Computing Centre, University of Helsinki, and Antti Arppe, Department of General Linguistics, University of Helsinki, and CSC - IT Center for Science, Finland. Available on-line at: http://www.csc.fi/kielipankki/

Field of science:
Language research
Available:
  • hippu
License:
A