Ligipääs ajalehtede tekstidele

Ligipääs ajalehtede täistekstidele toimub nüüdsest OnDemand keskkonnas RStudio kaudu. Keskkonnale ligipääsemiseks kirjutage digilab@rara.ee.

Lisaks dea.digar.ee kasutajaliidesele on teinekord vaja tekstidele otseligipääsu. Selle jaoks on digilabor kasutusele võtnud eraldi keskkonna, kus on võimalik ligi pääseda soovitud tekstide toorandmetele, töötada nendega R-i koodi kaudu ja nii andmeid kui analüüsitulemusi endale arvutisse laadida ja teistega jagada. Tekstide kasutamisel ja taaskasutamisel tuleb jälgida litsentsitingimusi.

Kirjeldus

Joonis 1. dea.digar.ee kollektsiooni sisu. Avatud ligipääs on rohelistele numbritele. Punased numbrid on ligipääsetavad Rahvusraamaatukogus autoriseeritud töökohal või lepingu alusel.

Digiteeritud Eesti Artiklid on otsitavad veebiliidese kaudu https://dea.digar.ee/ ja ligipääsetav ka andmestikuna. Ülevaade andmestikust on eraldi lehel.
Andmetele pääseb ligi OnDemand keskkonna kaudu, kus saab tekstidele ligipääsuks kasutada R-i.
OnDemand keskkonnas on ligipääs täistekstidele ja metaandmetele, võimalus kirjutada oma analüüs ja laadida alla oma leiud. Andmed on avatud kõigile kasutamiseks.

Kuidas alustada

Keskkonna kasutamiseks kirjutage e-posti aadressile digilab@rara.ee.
Andmestikule mugavaks ligipääsuks on loodud R-i pakett digar.txts, mille kaudu saab eraldada tervikkollektsioonist osa ning teha otsinguid täistekstil.
Andmete töötlusel on võimalik kasutada enda koodi, toetuda mõnele näidisanalüüsile või võtta välja otsingu tulemused tabeli kujul.
Vaata näidisanalüüse: Elekter, aur ja hobujõud 20. saj vahetusel (.html, .ipynb, .Rmd), Marlene Dietrich läbi aja.
Töötoad: Kevad 2020 eestikeelne lühikursus tekstitöötlusest R-is.
Juhendid: Kuidas teha reprodutseeritavat RaRa digilabori teadustööd.

Pakett

Ligipääs failidele on toetatud R-i paketi poolt digar.txts, mis paari lihtsa käsuga 1) annab ülevaate andmekogust koos seostega failidele, 2) võimaldab moodustada andmestikust vajalikke alamhulki, 3) võimaldab teha tekstiotsingut ja 4) võimaldab otsingu tulemustes võtta välja leidude vahetu konteksti. Otsingu tulemused võib edasi salvestada ka tabelisse ja töötada juba väiksema koguga edasi mujal.

Need käsud on:

get_digar_overvew() – loeb sisse ülevaate tervst kollekstioonist (numbrite tasandil)
get_subset_meta() – loeb sisse alamhulga metainformatsiooni (artikli tasandil)
do_subset_search() – teostab alamhulgas otsingu ja salvestab tulemused faili (artiklite kaupa)
get_concordances() – leiab otsingutulemustest konkordantsid (s.t. otsingusõna ja selle vahetu konteksti)

Vahepealseks töötluseks sobivad igasugu R-i paketid ja käsud. Töötluseks Pythonis tuleks andmed enne kokku koguda ja teha uus Pythoni märkmik.

Koodi kasutamine

Mõned vajalikud paketid on serverisse juba installitud. Kui soovite kasutada tidyverse pakette saab sisse laadida tidyverse ja tidytext paketid.

suppressPackageStartupMessages(library(tidyverse,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))
suppressPackageStartupMessages(library(tidytext,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))

Käivitage installitud pakett.

suppressPackageStartupMessages(library(digar.txts,lib.loc="/gpfs/space/projects/digar_txt/R/4.3/"))

Kasuta get_digar_overview() käsku andmestiku sisust ülevaate saamiseks.

all_issues <- get_digar_overview()

Ehita oma valim andmetest kasutades R-i käske. Siin on tidyverse stiilis näide.

library(tidyverse)
subset <- all_issues %>%
    filter(DocumentType=="NEWSPAPER") %>%
    filter(year>1880&year<1940) %>%
    filter(keyid=="postimeesew")

Hangi alamhulga metainformatsioon (iga artikli kohta) käsuga get_subset_meta(). Juhul kui me kasutame seda infot korduvalt on soovitav metaandmestik salvestada faili. Täismetaandmestikuks on meil vaja ka varem võetud ülevaadet all_issues.

subset_meta <- get_subset_meta(subset)
#potentially write to file, for easier access if returning to it
#readr::write_tsv(subset_meta,"subset_meta_postimeesew1.tsv")
#subset_meta <- readr::read_tsv("subset_meta_postimeesew1.tsv")

Teeme märksõnaotsingu käsuga do_subset_search(). See salvestab otsingu tulemused faili artiklite kaupa. Käsk vaikimisi eirab suur ja väiketähti.

do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset)

Vaikimisi otsib pakett läbi artiklite kaupa esitatud allikatest. Mõned allikad ei ole segmenteeritud artikliteks ja on ligipääsetavad ainult lehekülgede kaupa. Lehekülgede kaupa otsimiseks kasuta lisaparameetrit source.

do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset, source= "pages")

Otsida võib ka lemmatiseeritud tekstidest, sel juhul määratle ka searchtype.

do_subset_search(searchterm="lurich", searchfile="lurich1.txt",subset, source= "pages", searchtype="lemmas")

Loe sisse otsingu tulemused failist. Edasi saab kasutada R-i tööriistu töötluseks. Kasulik on nimetada otsingu tulbad ümber id-ks ja txt-ks.

texts <- fread("lurich1.txt",header=F)[,.(id=V1,txt=V2)]

Hangi otsingusõnad lähemas kontekstis ehk konkordantsd käsuga get_concordances()

concs <- get_concordances(searchterm="[Ll]urich",texts=texts,before=30,after=30,txt="txt",id="id")

Märkus: et kasutada ctrl+shift+m klahve %>% toru kirjutamiseks Jupyteris, tuleb lisada väike koodijupp. Selleks mine Settings -> Advanced Settings Editor… -> Keyboard Shortcuts vasakul pool User Preferences kastis ja lisa sinna järgnev kood. ctrl+shift+m peaks nüüd töötama.

{
    "shortcuts": [
         {
            "command": "notebook:replace-selection",
            "selector": ".jp-Notebook",
            "keys": ["Ctrl Shift M"],
            "args": {"text": '%>% '}
        }
    ]
}

Lihtsamad R-i käsud

<- - salvesta väärtused
%>% - ‘toru’ mis suunab väärtusi edasi
filter() - vii oma andmed läbi filtri (säilitades sobivad väärtused)
count() - loenda väärtuste esinemisi
mutate() - loo uus tulp (saab kasutada nt n(), row_number(), min(), max() uute väärtuste arvutamisel)
head(n) - võta esimesed n rida

Avatud teadus

Andmetega töötamisel soovitame lähtuda avatud teaduse põhimõtetest. Selle tööriista kontekstis vaata selleks juhendit siin.

Perioodiliselt uuendatav ülevaade DEA tekstide kollektsioonist on näha siin.

Käsud on koondatud R-i paketti, mis on hoiustatud githubis https://github.com/peeter-t2/digar.txts. Kood töötab keskkonnas pärast sisse logimist. Andmed on hoiustatud ETAIS-i serveris ja ligipääsetavad paketi abil (vt juhend) või käsureal.

Ülevaate tegemise kood ja andmed on OSF-is https://doi.org/10.17605/OSF.IO/3GZXE.