JEZIK SLOVENSKIH TVITOV: KORPUSNA RAZISKAVA

Tomà Erjavec
unpublished
Darja Fi{er Filozofska fakulteta, Ljubljana UDK 004.773:811.163.6'276'354 V prispevku predstavimo korpus in analizo nestandardne sloven{~ine zdrùbenegaomrèja Twitter. Korpus, ki vklju~uje tvite iz prvih {tirih let obstojaomrèja, vsebuje 360.000 tvitov oz. pet milijonov besed. Sloven{~ina, uporabljena v njih, je zelo bogata in se precej razlikuje od sloven{~ine, uporabljene v slovenskemuravnotèenem korpusu ccKRES, in sicer predvsem po pogovorni, bolj foneti~ni ortografiji, rabi prvin, ki so bolj
more » ... zna~ilne za govorjeni jezik, ter po pogosti rabi tujejezi~nih besed. tviti, nestandardna sloven{~ina, korpusna analiza, ortografija, besedi{~e This paper presents a corpus of Slovene tweets and the analysis of non-standard Slovene as used on the Twitter social network. The corpus, which comprises tweets from the first four years of Twitter's existence, contains 360,000 tweets or 5 million tokens. The Slovene used in the analysed tweets is substantially different from the balanced corpus of standard Slovene ccKRES. The distinguishing features of »Twitter Slovene« are a more colloquial, phonetic orthography, frequent use of spoken language elements and an abundance of foreign words. Tweets, non-standard Slovene, corpus analysis, orthography, vocabulary 1 Uvod Drùbenaomrèja postajajo vse popular-nej{a tudi med slovenskimi uporabniki. Zaradi tehni~nih zna~ilnosti medija in oko-li{~in, v katerih tovrstna komunikacija pote-ka, se jezik, ki se uporablja za komunikacijo nadrùbenihomrèjih, precej razlikuje od standardne sloven{~ine. Prou~evanje rabe sloven{~ine na spletu je relevantno s socio-lingvisti~nega vidika, analiza nestandardne sloven{~ine pa je potrebna tudi zaradi zago-tavljanja u~inkovitih ra~unalni{kih orodij za procesiranje jezika, saj lahko le tako govor-cem omogo~imo polno funkcionalnost splet-nih orodij, kot so pametni brskalniki, orodja za povzemanje besedil, sintetizatorji govora, strojni prevajalniki ipd. Jezik, ki ga uporabljamo v komunikaciji preko ra~unalnika, je pod drobnogled vzel Crystal in ugotovil, da t. i. internetni jezik ni ne pisni ne govorjeni, temve~ vsebuje zna-~ilnosti obeh (Crystal 2001: 47). ^eprav Crystal ni analiziral jezika spletnihdrùbenih omrèij (Facebook se je namre~ pojavil {ele leta 2004, Twitter pa dve leti kasneje), bi ga lahko uvrstili v njegovo kategorijo jezika spletnih klepetalnic (prav tam: 129), kamor je sicer uvrstil jezik, ki ga uporabljamo na foru-mih in dopisnih seznamih. Za tovrstno ko-munikacijo je zna~ilno, da poteka v realnem ~asu ali z zamikom in pri tem uporablja ne-standardno ortografijo (npr. izklju~no male tiskane ~rke, opu{~anje ve~ine lo~il in ve~-kratno ponavljanje ~rk za ~ustveno pouda-rjanje zapisane izjave), nestandarden zapis besed in pogoste specifi~ne okraj{ave. Da je angle{ki klepetalni{ki jezik resni~no bogat z okraj{avami, akronimi in emotikoni, je pokazala raziskava N. Baron (2003), do Simpozij OBDOBJA 32 109
fatcat:su4dpy5lpnhsbdnj32wkfgxp3e