Skip to content

Excel failu importēšana programmā R ar paketi readxl

Lai arī bieži ir dzirdēts, kā arī pats tā iesaku, ka datu failus labāk glabāt un importēt R kā .txt un .csv failus, jo tādējādi varam izvairīties no dažādām problēmām, tomēr reizēm ir vēlme importēt pa tiešo no Excel failiem. Lai to darītu, programmā R ir nepieciešamas papildus paketes, no kurām viena ir readxl.

Šajā paketē ir tikai divas funkcijas – excel_sheets() un read_excel(). Ar pirmo funkciju ir iespējams noskaidrot kādi ir lapu nosaukumi Excel failā, kuru vēlamies importēt. Otrā funkcija ir paša faila importēšanai.

Pēc noklusējuma read_excel() importēs pirmo lapu no faila, bet to var izmainīt ar argumentu sheet = un norādīt, kuru lapu (pēc  skaita vai pēc nosaukuma) importēt. Nākamais pieņēmums ir, ka Jūsu failā pirmā rinda satur kolonnu nosaukumus – ja tas tā nav, tad jāizmanto arguments col_names = . Šī funkcija visnotaļ veiksmīgi māk pati “saprast” kāda veida dati ir katrā no kolonnām, bet, ja tas neizdodas automātiski, tad izmantojiet argumentu col_types = un norādiet katras kolonnas veidu (“blank”, “numeric”, “date” vai “text”). Tas, ka funkcija atpazīst datumu kolonnu, lielā mērā aiztaupa papildus darbības kolonnu pārvēršanā turpmākajā darba procesā.

library(readxl)
dati <- read_excel("faila.nosaukums.xlsx")

Grāmata “A Beginner’s Guide to Generalized Additive Models with R”

gam_book“A Beginner’s Guide to Generalized Additive Models with R” ir pirmā grāmata no “A Beginner’s Guide” sērijas grāmatām, kuras paredzējusi izdot Highland Statistics Ltd. ar A.F.Zuur priekšgalā. Grāmatā tiek apskatīti aditīvie un vispārinātie aditīvie modeļi un to izmantošana programmā R.

Šī ir jau trešā grāmata, kuras viens no autoriem A.F.Zuur, un ar kuru man ir bijusi iespēja iepazīties. Līdzīgi kā ar citām grāmatām, arī šī nelika vilties. Autors visnotaļ vienkāršā valodā, ar minimālu sarežģītu formulu daudzumu, sniedz ieskatu tajā, kas ir aditīvie modeļi, kādā veidā tie “strādā”, sākot ar vienkāršiem modeļiem (kur atbildes mainīgais ir nepārtraukti variējoša pazīme) un pārejot jau pie sarežģītākiem modeļiem, kur atbildes mainīgais jau ir skaita vai esamības/neesamības dati. Viena no labākajām A.F.Zuur grāmatu priekšrocībām ir tā, ka visi aprēķini tiek veikti izmantojot reālu pētījumu piemērus, atsaucoties uz publikācijām, no kurienes šie dati ir nākuši. Šeit gan jāmin, ka visi šie piemēri ir no bioloģiskiem (ekoloģiskiem) pētījumiem, tāpēc citu jomu speciālistiem varbūt varētu būt grūtāk apgūt lasīto. Datu analīzes piemēriem tiek veikta tā, kā to vajadzētu pareizi darīt – no sākuma veicot grafisko analīzi, apskatot datu sadalījumu, meklējot “izlēcošas” vērtības, tad sākot piemērot vienkāršākus modeļus un beigās nonākot pie pareizā modeļa. Nodaļu beigās parasti arī tiek sniegti padomi par to, ko vajadzētu no analīzes iekļaut rakstā.  Grāmatā izmantotie piemēri (kodu rindas) un datu faili ir pieejami šīs grāmatas mājaslapā.

Diemžēl grāmatai ir arī savi trūkumi. Man tomēr gribētos, lai šī grāmata būtu plašāka (garākā) un iekļautu arī tēmas par jaukta efekta (mixed effects) GAM modeļiem. Reizēm traucējoši ir tas, ka autors daudz atsaucas uz savām citām grāmatām, kurās būtu jāmeklē papildus informācija – ne visiem būs pieejamas tās citas grāmatas.

Jāsecina, ka grāmata ir attaisnojusi uz to liktās cerības kā labs materiāls biologam/praktiķim par konkrēto analīzes veidu. Ja ir tāda iespēja, tad iesaku iepazīties gan arī šo, gan arī ar citām autora grāmatām, ja ir vēlme saprotamā valodā apgūt papildus statistiskās metodes.

Didzis Elferts

Grāmata “Implementing Reproducible Research”

Tā kā šogad personīgi vai ar LU BF bibliotēkas palīdzību bija iespēja tikt pie vairākām jaunām grāmatām par R un statistiku, tad nolēmu ieviest mājaslapā jaunu sadaļu: Grāmatu apskats.

9781466561595Pirmā grāmata ir “Implementing Reproducible Research”, kuras redaktori V. Stodden, F.Leisch un R.D.Peng (izdevējs CRC Press). Kā jau rāda nosaukums, tad šī grāmata ir par šobrīd ļoti aktuālu tēmu – reproducējamiem pētījumiem. Diemžēl labāku latvisko tulkojumu šim terminam neatradu, jo vārds “atkārtojams” šeit nederēs (ar to apzīmē repeatable). Nezinātājiem mēģināšu ieviest skaidrību, ko tad tieši nozīmē reproducējams pētījums un ar ko tas atšķiras no atkārojama pētījuma. Ar atkārtojamu pētījumu saprot tādu pētījumu, ka izlasot pētījumu aprakstu, es varu paņemt savus datus un izdarīt visu to pašu, kas veikts konkrētajām pētījumā. Reproducējams pētījums savukārt nozīmē, ka es man ir pieejami dati, metodes, aprēķina kodi un es varu veikt tiešu to pašu, kas veikts pētījumā ar tiem pašiem datiem un, ideālā gadījumā, iegūt identisku rezultātu. Ja Jūsu pētījums ir reproducējams, tad citiem ir iespēja jebkurā laikā pārliecināties, vai visi Jūsu veiktie aprēķini ir pareizi.

Tagad par pašu grāmatu. Tā ir kā rakstu krājums, kur katrai grāmatas nodaļai ir savs autors vai autoru kolektīvs. Grāmata ir sadalīta trīs daļās: (a) Rīki (Tools) – šajā daļā ir apskatītas pāris programmas/R pakete, kas var palīdzēt reproducējamu pētījumu ieviešanā; (b) Prakses un vadlīnijas (Practicies un guidelines) – grāmatas plašākā daļa, kurā apskatīti vairāki piemēri tam, kādā veidā dažādās jomās (bioinformātika, lielapjoma skaitļošana, mākoņskaitļošana, u.c.) ir ieviesti reproducējamu pētījumu pamatprincipi; (c) Platformas (Platforms) – divas nodaļas par internetvietnēm, kas var palīdzēt organizēt darbu, kā arī nodaļa par izdevēju lomu reproducējamos pētījumos.

Tā kā šī grāmata ir izdota “The R Series” grāmatu sērīja, nelielu vilšanos sagādāja tas, ka ļoti maz ir veltīts tieši R programmas rīkiem/iespējām reproducējamu pētījumu veikšanā, jo ir zināms, ka R ir viena no piemērotākajām programmām šāda veidam procesam. Tā rezultātā bija pāris nodaļas, kurām ļoti ātri pārskrēju pāri, jo sapratu, ka tās uz mani galīgi neattiecas. Otra lieta, kas nedaudz “kaitināja”, ir atkārtošanās, sevišķi prakses sadaļā. Vairumā nodaļu atkal un atkal tiek minēts, ka jāizmanto versiju kontroles sistēmu (kas protams ir atbalstāma un pareiza ideja), turklāt bieži piedāvātais risinājums bija identisks.

No šīs grāmatas gribētos īpaši izcelt divas nodaļas: (a) “Practicing Open Sciences” (L.Ibanez, W.J.Schroeder, M.D.Hanwell) – sniegts ieskats dažādos “atvērtās” zinātnes (pētījumu) aspektos, gan runājot par atvērtiem datiem un kodiem, gan arī brīvpieeju un atvērtiem standartiem. Daudzi no šiem aspektiem, piemēram, Latvijas zinātnē ir tiešām vēl tikai attīstības sākumā, jo ik pa laikam saskaramies ar zinātniekiem, kas visus savus datus/darbus tur zem “atslēgas”, lai tik kāds nenozog; (b) “Open Science and the Role of Publishers in Reproducible Research” (I.Hrynaszkiewicz, P.Li, S.Edmunds) – šajā nodaļā apskatītas vairākas būtiskas lietas saistībā ar “atvērto” zinātni, tai skaitā juridiskie aspekti, dažādi licenzēšanas veidi, kā arī aizskarta samērā “sāpīgā” tēma par žurnālu izdevējiem, kuriem bieži esam spiesti atdot visas savas tiesības uz publicēto darbu.

Kāds tad ir kopējais secinājums par šo grāmatu – izlasot šo grāmatu, Jūs nevarēsiet uzreiz ķerties klāt reproducējamu pētījumu ieviešanai savā darba vietā, jo tā nav soli-pa-solim pamācība, bet šī grāmata  ir ļoti labs apkopojošais materiāls par to, kas reproducējams pētījums tāds ir, kādi ir virzieni, kuros skatīties, lai to ieviestu, kā arī kādas ir galvenās problēmas, ar kurām varat saskarties šī procesa ieviešanā.

RStudio jaunākā versija

Šī gada 21. jūnijā ir iznākusi jaunākā programmas RStudio versija (0.98.945). RStudio ir atvērtā koda programma (IDE), kas paredzēta darbam ar programmu R un ietver sevī daudz rīku efektīvākam darbam ar R.

Galvenie jaunumi šajā RStudio versijā ir:

  • Jaunākā R Markdown paaudze, kas ļauj radīt dokumentus ar iekļautiem R kodiem, aprēķiniem un attēliem tādos formātos kā html, pdf un MS Word, kā arī iespēja veidot prezentācijas (HTML5 vai Beamer). Šīs iespējas ir nozīmīgs solis, lai nodrošinātu savu pētījumu reproducējamību (reproducability).
  • Tagad ir iespējams veidot arī interaktīvus dokumentus, iekļaujot tajos Shiny paketes iespējas.
  • No R skripta failiem var vienkārši izveidot “pieraktus” (dažādos formātos), kas sevī ietver R kodus un rezultātus.
  • Uzlabojumi, kas saistāmi ar pakešu veidošanu, versiju kontroli.

Plašāku informāciju par jaunumiem var iegūt RStudio blogā. Pašu programmu var lejupielādēt no RStudio mājas lapas.

ggplot2 versija 1.0.0.

Šonedēļ parādījusies jaunāka versija (1.0.0.) vienai no populārākajām attēlu veidošanās R paketei ggplot2. Diemžēl papildinājumu/jaunumu skaits nav tik plašs kā varētu gaidīt pēc tik ilga versijas iztrādes laika.

Būtiskākie ieviestie jaunumi ir sekojošie:

  1. Jauna koordinātu sistēma maza mēroga kartēm – coord_quickmap().
  2. Box-plot attēliem var mainīt platumu atkarībā no novērojumu skaita (geom_boxplot() arguments varwidth=).
  3. Jauns punktu novietošanas veids position_jitterdodge().
  4. Asīm tagad var norādīt tikai vienu no robežā (min vai max), bet otra tiks aprēķināta automātiski.
  5. Jauna tēma theme_linedraw(), kas padarīs attēla elemtus tikai baltus vai melnus.
  6. Jauni tēmu argumenti panel.magin.x= un panel.margin.y=, kaus ļauj atsevišķi noteikt horizontālo un vertikālo attālu starp atsevišķām attēla daļām, ja tas ir sadalīts ar facet_..().

Pilns labojumu saraksts NEWS failā.

R 3.1.0

2014. gada 10. aprīlī izlaista jaunākā programmas R versija 3.1.0, ar nosaukumu Spring Dance.

Jaunākajā versijā veikti virkne uzlabojumu esošajās funkcijās, lai uzlabotu to darbību, kā arī novērstas kļūdas, kas pamanītas iepriekšējās versijās.

Pilnu sarakstu ar veiktajām izmaiņām var izlasīt versijas jaunu (NEWS) aprakstā.

R 3.0.0

Šodien ir liela diena programmas R lietotājiem – izlaista jaunākā R versija ar numuru 3.0.0 (tādējādi norādot, ka ir sācies jauns posms R attīstībā).

Kā jau parasti ar programmu R, ārēji izmaiņas nebūs ātri pamanāmas, toties ir vairākas būtiskas izmaiņas R darbībā:

  • tagad var veidot vektorus, kuru garums pārsniedz 2^31 (uz 64 bitu sistēmas);
  • uz 64 bitu sistēmām R var atvēlēt lielāku atmiņas daudzumu (RAM), ko ierobežo tikai OS iespējas;
  • daudzām funkcijām pievienotas jaunas iespējas, kā arī novērstas atrastās poblēmas.

Būtiskākais – uzinstalējot jaunāko R versiju, ir jāpārinstalē visas paketes, kuras Jūs izmantojat.

Vairāk informācijas par veiktajām izmaiņām un uzlabojumiem www.r-bloggers.com

Follow

Get every new post delivered to your Inbox.