sfnet
SFNET discussion group corpus
Description
The Sfnet corpus is collected from a finnish new group area, sfnet. Sfnet is an administered Finnish usenet hierarchy. The sfnet newagroups generally exist for discussion in the Finnish language.The corpus contains Finnish discussions from October 2002 to April 2003.
Home Page
Version and Size
Installed in June 2005. The corpus covers more than 100 news groups. The total number of words in the corpus is some 100 million.Content and Structure
The Sfnet corpus contains the following five directories:-
raw_texts/ -
parsed_texts/ -
scripts/ -
annotations/ -
posting_authors/
raw_texts/
Hakemistossa raw_texts uutisryhmät on jaettu alihakemistoihin yhdeksänluokkaisen pääjaottelun (sfnet.keskustelu.* -> keskustelu/, jne.) ja yhden kaatoluokan (misc/) mukaan.
Kunkin keskusteluryhmän osaaineisto koostuu yhdestä
tekstitiedostosta, jossa on yhtenä pötkönä kaikki yksittäiset
keskustelukontribuutioista (posting). Kukin kontribuutio alkaa vaihtelevan sisältöisellä otsakekentällä (Header),
jonka avulla keskusteluryhmät voidaan osittaa kontribuutioihinsa.
Ositettaessa tiedostoa yksittäisiin kontribuutioihin on huomioitava,
että otsakekenttien ensimmäisen rivin nimi voi vaihdella, vaikkakin se
yleisimmin on ' Path: ... '. On myös huomattava, että
kontribuutiot sisältävät kirjoittajien uuden, oman tekstin lisäksi
kaikki kirjoittajien sisällyttämät lainaukset toisista kontribuutioista
sekä allekirjoitus- ym. kentät, joiden merkitsemiseen on käytetty
useita eri notaatiota. Esimerkiksi lainaukset on yleisimmin merkitty
yhdellä tai useamalla kulmasululla ' > [lainaus] ' tai ' > > [lainaus] ', mutta muitakin merkintätapoja esiintyy.
parsed_texts/
Hakemistosta parsed_texts löytyvät seuraavat viisi keskusteluryhmää, joka esiprosessoitu käyttäen prep-and-parse-sfnet-with-quotes -skriptiä ja lingvistisesti automaattisesti analysoitu käyttäen Connexorin fi-fdg -parseria:
-
sfnet.keskustelu.ihmissuhteet -
sfnet.keskustelu.politiikka -
sfnet.keskustelu.yhteiskunta -
sfnet.keskustelu.evoluutio -
sfnet.tiede.fysiikka
Näissä tiedostoissa on analysoitu paitsi kunkin kontribuution uusi teksti niin myös kontribuution sisältämät lainaukset. Kunkin kontrobuution eri osaset on merkitty seuraavasti:
-
BEGIN_ARTICLE - Yksittäisen kontribuution (posting) alku
-
END_ARTICLE - Yksittäisen kontribuution loppu
-
BEGIN_HEADER - Kontribuution otsakeosion alku
-
END_HEADER - Kontribuution otsakeosion loppu
-
BEGIN_BODY - Kontribuution varsinaisen viestitekstin alku
-
END_BODY - Kontribuution varsinaisen viestitekstin loppu
-
BEGIN_QUOTE_[STRING] - Lainauksen alku, missä STRING antaa lainauksen tunnusmerkkijonon ('>', '> >', ym.)
-
END_QUOTE_[STRING] - Lainauksen loppu, missä STRING antaa lainauksen tunnusmerkkijonon
-
BEGIN_TEXT - Lingvistisesti analysoidun osion alku
-
END_TEXT - Lingvistisesti analysoidun osion loppu
-
CITATION - Lainauslähde, esim. '
On 14 June 2006 Antti Arppe wrote:' -
BEGIN_SIGNATURE - Allekirjoitusosion (signature) alku (jonka jälkeen ei oleteta enää löytyvän tekstiä)
-
BEGIN_HTML - Kontribuution html-muotoisen sisällön alku (kontribuutioissa, joissa on sekä teksti- että html-muotoinen sisältö)
scripts/
Hakemistossa scripts/ on kaksi skriptiä, joiden
avulla raakatekstimuotoisia uutisryhmiä voidaan esiprosessoida ja
parsata tai jälkikäteen ekstrahoida valittuja kontribuutioita ja näiden
valittuja osasia.
- prep-and-parse-sfnet-with-quotes
- tunnistaa kontribuutioiden rajat raakatekstimuotoisesta tiedostosta, merkitsee kontribuutioiden eri osaset, ja lingvistisesti analysoi kontribuutioiden kielelliset osat.
- post-process-sfnet
- valitsee esiprosessoidusta ja
lingvistisesti analysoidusta tiedostosta yksittäisiä kontribuutioita
niiden uutisryhmäosoitusten mukaan (otsakkeen
Newsgroups-kentän sisällön perusteella), sekä kustakin kontribuutiosta valitut osaset (lainausten kera tai ilman lainauksia). Tämän lisäksi lisää kussakin kontribuutiossa indeksi- ja tekijätagit. Tekijätagi otetaan oletusarvoisesti sellaisenaanFrom:-kentästä, ellei skriptille ole annettu posting-author tiedostoa, jossa on yhdistetty anonyymeihin kirjoittajanumerotunnuksiin saman kirjoittajan eri kontribuutioissa niidenFrom:-kentissä antamia internetosoitevariantteja (joista suurin osa on tarkoituksellisesti virheellisiä).
annotations/
Sisältää uutisryhmien sfnet.keskustelu.ihmissuhteet ja sfnet.keskustelu.politiikka osalta muutostiedostot, joissa on tarkistettu ja täydennetty neljän ajatella -verbin, ajatella, miettiä, pohtia ja harkita, sekä niitten argumenttien morfologiset ja syntaktiset analyysit sekä lisätty näiden verbien nominaalisille argumenteille WordNetin mukaiset semanttiset luokittelut.
posting_authors/
Sisältää uutisryhmien sfnet.keskustelu.ihmissuhteet ja sfnet.keskustelu.politiikka
osalta tehdyn kirjoittajien internetosoitevarianttien yhdistelyn
anonyymeihin kirjoittajanumerotunnuksiin, jota voidaan käyttää ym. post-process-sfnet -skriptin yhteydessä, esimerkiksi:
| Tunnusluku | Kontribuutioiden lukumäärä | =From:= -kenttä |
|---|---|---|
| 42 | 39 | Batcat <batcat@saunalahti.---------.-----.invalid> |
| 42 | 115 | Batcat <sisilia@sci.fi> |
Directory
/kielipankki/sfnetDirectory Listing
dr-xr-x--- 2 ling sktp-a 4096 9. kesä 23:35 annotations
dr-xr-x--- 2 ling sktp-a 4096 9. kesä 23:23 parsed_texts
dr-xr-x--- 2 ling sktp-a 4096 9. kesä 23:30 posting_authors
dr-xr-x--- 11 ling sktp-a 4096 9. kesä 23:16 raw_texts
-r-------- 1 ling sktp-a 2617 13. kesä 18:53 README
dr-xr-x--- 2 ling sktp-a 4096 9. kesä 23:27 scripts
Sample
Access Rights and Conditions
This is available for research purposes only. The permission to use the material for research purposes is granted as a part of the SKTP-A permission and under the equivalent conditions of use.
- The user account on the corpus.csc.fi server is valid for the maximum period of two (2) years at the time, starting from the day of admission. CSC will notify the user well before the expiration date of the user account. User information will be updated in connection with the renewal of the license. If not agreed otherwise, unused accounts and the corresponding files will be removed one year after the last use at the latest. The user account will expire immediately when a task or a study has been completed or the user has left the university or polytechnic.
- Each user account is personal. No user shall pass the password on to a third party.
- If there is a reason to doubt that unauthorized people have used or tried to use the resources, CSC must be notified immediately. Storing delicate or confidential information or sending it over the network should be negotiated in advance with CSC.
- The resources obtained must be used for the proposed task only.
- Due to licence conditions, foreign user accounts and the use of the resources from abroad should be negotiated separately.
- The user id must be secured by a password that is difficult to anticipate.
- Some software can be used by academic users only. Other users must settle the matter with software contact persons.
- CSC stores customer files for a maximum time of two years after the user account has expired.
- CSC takes back-up copies of the customers files regularly. However, CSC declines any responsibility for files lost due to system failure.
- This agreement will dissolve immediately, if the licensee brakes the rules and regulation stipulated in this agreement.
- Neither contracting party is liable to compensate the other party for such damage preventing the fulfillment of this agreement that is caused by force majeure.
Additional conditions for the use of A (academic users) texts (in Finnish only)
- Right to access B-texts in the Finnish, Swedish and
Finland-Swedish SKTP Text Collections is granted, provided that the
user observes the copyright legislation and the good scientic
practices, to their use
- as texts in scientific research
- by means of linguistic features (statistical measurements, grammar rules, lexical semantics) derived from them
- in short quotations and examples that are taken from texts without infringing copyright
- As to the Swedish Parole Corpus, the access right are limited according to a separate license.
- When publishing research results that have been acquired using research materials (e.g. text and speech corpora) made available.
- The right to use any research materials made available by the Language Bank of Finland does not affect the copyrights or other immaterial property rights coupled with the texts. Such rights stay with their current holders.
- Users may not copy longer passages of text from the text collections from the corpus server (corpus.csc.fi) than short citations.
- Privileged users may store temporary copies of texts in non-official directories on the corpus server if it is required for carrying out the research and the user takes action to assure the data security of the texts.
- The right to use granted to the user who has signed this agreement is personal and cannot be transferred to any third person or party.
- The right to use takes effect when the licensor has approved the application and opened a user account for the licensee on the corpus server (corpus.csc.fi).
- The right to use the research materials applied for in the application is valid as long as the access right to the corpus server (corpus.csc.fi).
- The licensor is not responsible for the suitability of the research materials for any given purpose.
References
Making Bibliographical Reference to the Material:
SFNET 2002-2003. ~100 million words of Finnish internet newsgroup discussion posted during October 2002 -- April 2003. Compiled by Tuuli Tuominen and Panu Kalliokoski, Computing Centre, University of Helsinki, and Antti Arppe, Department of General Linguistics, University of Helsinki, and CSC - IT Center for Science, Finland. Available on-line at: http://www.csc.fi/kielipankki/
Field of science:
Language researchAvailable:
- hippu