Što je korpusna lingvistika?

Prije nekoliko desetljeća, znanstvenici su mogli samo sanjati o automatizaciji lingvističkog istraživanja. Rad je obavljen ručno, veliki broj studenata bio je uključen u njega, postojala je značajna vjerojatnost pogreške "nepažnjom", i što je najvažnije - sve je trebalo puno, puno vremena.

sadržaj

Povijest korpusne lingvistike
Koje su tijela
Primjena
Korištenje kućišta
Postupak stvaranja
Teškoće u stvaranju zgrada
Morfološko označavanje
Sintaktička oznaka
Semantičko označavanje
Primjena sustava za pronalaženje informacija
Nacionalna građevina ruskog jezika
Planovi
U zaključku

Razvojem računalne tehnologije postalo je moguće brže provoditi studije redoslijedom veličine, a danas jedno od najpoželjnijih područja u proučavanju jezika je korpusna lingvistika. Njegova glavna značajka je upotreba velikih količina tekstualnih informacija, kombiniranih u jedinstvenoj bazi podataka, posebno označene i nazvane tijelom.

Do danas postoji mnogo zgrada stvorenih za različite svrhe, na temelju različitih jezičnih materijala, od milijun do desetaka milijardi leksičkih jedinica. Ovaj smjer prepoznaje se kao obećavajuće i pokazuje značajan napredak u postizanju primijenjenih i ciljeva istraživanja. Stručnjaci koji se nekako bave prirodnim jezikom, preporučujemo da se upoznate s korpusom tekstova, barem na osnovnoj razini.

Povijest korpusne lingvistike

Formiranje ovog smjera povezano je s stvaranjem SAD-a u Brown corpsu početkom šezdesetih godina prošlog stoljeća. Zbirka tekstova sadržavala je samo 1 milijuna oblika riječi, a danas bi korpus ove veličine bio potpuno nekonkurentan. U velikoj mjeri, to je zbog brzine razvoja računalnih tehnologija, kao i sve većih zahtjeva za novim istraživačkim resursima.

U devedesetima je korpusska lingvistika formirana u punopravnu i neovisnu disciplinu, zbirke tekstova sastavljeno je i označeno na više desetaka jezika. Tijekom tog razdoblja, primjerice, britanski nacionalni korpus stvoren je za 100 milijuna korisnika.

korpusna lingvistika

Kako se ova lingvistika razvija, svezak tekstova postaje sve više (i dosegne milijarde jedinica vokabulara), a izgled postaje sve raznolikiji. Do danas, u prostoru Interneta, možete pronaći slučajeve pisanog i govornog govora, višejezičnog jezika i nastave, orijentiranog na umjetničku ili akademsku literaturu, kao i mnoge druge vrste.

Koje su tijela

Vrste slučajeva u kabinetskoj lingvistici mogu se iznijeti iz nekoliko razloga. Intuitivno, osnova za razvrstavanje mogu biti tekstualni jezik (ruski, njemački), pristup načinu rada (open source, zatvoreni, trgovački), žanr izvornog materijala (igrani, dokumentarni, akademski, novinarstvo).

metode korpusne lingvistike

Zanimljiv način je stvaranje materijala koji predstavljaju usmeni govor. Budući da bi namjerno snimanje takvog govora stvorilo umjetne uvjete za ispitanike, a rezultirajući materijal nije mogao biti nazvan "spontan", suvremena korpusna lingvistika imala je drugačiji put. Volonter je opremljen mikrofonom, a tijekom dana bilježe se svi razgovori u kojima sudjeluje. Naravno, ljudi koji okružuju, ne znaju da tijekom razgovora u kućanstvu doprinose razvoju znanosti.

Naknadno zaprimljene audio zapise spremaju se u bazu podataka i prate tiskani tekst prema vrsti transkripta. Dakle, moguće je obilježavanje stvoriti tijelo usmenog svakodnevnog govora.

primjena

Tamo gdje je moguća uporaba jezika, moguće je koristiti i tekstne kutije. Svrha primjene metoda trupa u lingvistiku može biti:

Uspostaviti programe određivanja tona koji se aktivno koriste u politici i poslovanju za praćenje pozitivnih i negativnih odgovora od birača i korisnika.
Povezivanje informacijskog sustava s rječnicima i prevoditeljima radi poboljšanja njihovog učinka.
Razni istraživački zadaci koji pridonose razumijevanju strukture jezika, povijesti njegovog razvoja i predviđanja njegove promjene u bliskoj budućnosti.
Razvoj sustava prikupljanja informacija temeljenih na morfološkim, sintaktičkim, semantičkim i drugim karakteristikama.
Optimizacija rada različitih jezični sustavi i drugima.

Korištenje kućišta

Resursno sučelje slično je tipičnoj tražilici i traži od korisnika da unese riječ ili kombinaciju riječi za pretraživanje putem baze podataka. Pored točnog obrasca zahtjeva možete upotrijebiti proširenu verziju koja vam omogućuje pronalaženje tekstualnih informacija za gotovo sve jezične kriterije.

računarstva i jezika slučajeva

Osnova za pretraživanje može biti:

pripadaju određenoj skupini dijelova govora;
gramatički znakovi;
semantike;
stilskog i emocionalnog bojanja.

Također možete kombinirati kriterije pretraživanja za niz riječi, na primjer, kako bi pronašli sve pojave glagola u sadašnjem vremenu, prvom licu jednine, koja dolazi nakon prijedloga „u” i imenice u akuzativ. Rješenje takvog jednostavnog zadatka traje nekoliko sekundi za korisnika i zahtijeva samo nekoliko klikova u navedenim poljima.

Postupak stvaranja

Sama pretraga može se provesti i na svim podskupinama i na jednom, posebno odabranom, ovisno o potrebama postizanja određenog cilja:

Prije svega, određuje se koji će tekst biti osnova slučaja. U praktične svrhe često se koriste novinarski, novinski materijali, internetske komentare. U istraživačkim projektima koriste se razni tipovi enclosures, ali tekstovi bi trebali biti odabrani u skladu s nekim zajedničkim temeljem.
Rezultirajući skup tekstova podvrgava se pretprocesiranju, ispravljaju se pogreške, ako postoje, izrađuju se bibliografski i izvanjezikni opis teksta.
Izbrisat će se sve informacije bez teksta: grafike, slike, tablice se brišu.
Postoji izbor tokena, koji obično predstavljaju riječi, za daljnju obradu.
Konačno, realizirana je morfološka, sintaktička i druga obilježja dobivenog skupa elemenata.

Rezultat svih transakcija po sintaktičke strukture s distribuira u njemu veći broj elemenata, od kojih je svaki identificirani dio govora, gramatičke i, u nekim slučajevima, semantičkih obilježja.

Teškoće u stvaranju zgrada

Važno je shvatiti da nije dovoljno prikupiti puno riječi ili rečenica kako bi dobili slučaj. S jedne strane, zbirka tekstova treba biti uravnotežena, tj. Predstavljati različite vrste tekstova u određenim omjerima. S druge strane, sadržaj predmeta mora biti posebno označen.

lingvistika zaharovskog korpusa

Prvi problem je riješen dogovorom: na primjer, u zbirci obuhvaća 60% književnih tekstova, 20% dokumentaraca, određeni postotak se daje pisani prikaz govornog jezika, zakona, znanstvenih radova, itd savršen recept uravnotežena tijelo danas ne postoji ...

Drugo pitanje, koje se tiče označavanja sadržaja, teže je riješiti. Postoje posebni programi i algoritmi koji se koriste za automatsko označavanje, ali ne daju 100% rezultat, mogu uzrokovati kvarove i zahtijevati ručnu reviziju. Mogućnosti i problemi u rješavanju ovog problema detaljno su opisani u Zakharovovom radu na corpus linguistics.

Označavanje teksta provodi se na nekoliko razina, koje ćemo popisati u nastavku.

Morfološko označavanje

S klupa škole se sjećamo da na ruskom jeziku postoje različiti dijelovi govora, a svaki od njih ima svoje osobitosti. Na primjer, glagol ima kategorije raspoloženja i vremena koje imenica nema. Izvorni govornik ne ustručava se klanjati imenicama i konjugirati glagole, ali manualni rad neće raditi da označi slučaj u 100 milijuna riječi. Sve potrebne operacije može se obavljati na računalu, međutim, za to je potrebno podučavati.

Morfološko označavanje je potrebno za računalo da "razumije" svaku riječ kao određeni dio govora koji ima određene gramatičke značajke. Budući da na nizu redovitih pravila funkcionira na ruskom (kao na bilo kojem drugom jeziku), moguće je napraviti automatski postupak za morfološku analizu ulašćujući niz algoritama u stroj. Međutim, postoje izuzeci od pravila, kao i razni faktori kompliciranja. Kao rezultat toga, čista računalna analiza danas je daleko od idealnog, a čak 4% pogrešaka daje 4 milijuna riječi po slučaj do 100 milijuna jedinica, što zahtijeva ručnu reviziju.

Detaljno ovaj problem opisuje Zakharov VP "Corpus linguistics".

Sintaktička oznaka

Analiza ili raščlanjivanje je postupak koji određuje odnos riječi u rečenici. Pomoću skup algoritama, postaje moguće definirati u tekstu predmet, predikat, dopune, razni zavrsi govora. Pronalaženje riječi koje su u nizu glavne i koje su ovisne, možemo učinkovito izdvojiti informacije iz teksta i obučiti stroj kako bismo izdali samo informacije koje nas zanimaju kao odgovor na upit za pretraživanje.

Laboratorij corpus lingvistike na ruskim sveučilištima

Usput, suvremene tražilice koriste to da daju određene brojke umjesto dugih tekstova kao odgovor na odgovarajuće upite poput "koliko kalorija u jabuli" ili "udaljenost od Moskve do Petrogradu". Međutim, da biste shvatili čak i samu osnovu opisanog procesa, morat ćete se upoznati s "Uvodom u Corpusovu lingvistiku" ili drugom osnovnom nastavnom pomoći.

Semantičko označavanje

Semantika jedne riječi je, u jednostavnim terminima, njegovo značenje. U semantičkoj analizi široko primjenjiv pristup pripisuje se oznakama riječi, što odražava pripadnost skupu semantičkih kategorija i potkategorija. Takve informacije su vrijedne za optimizaciju algoritama za analizu tonaliteta teksta, automatskog apstrahiranja i drugih zadataka korištenjem metoda korpusne lingvistike.

Postoji niz "korijena" stabla, koje su apstraktne riječi, imaju vrlo široku semantiku. Kao što ovo stablo grane, nastaju čvorovi koji sadrže sve specifičnije leksičke elemente. Na primjer, riječ "biće" može biti povezana s pojmovima kao što su "čovjek" i "životinja". Prva će riječ biti razgranjena u različita zanimanja, pojmova srodstva, nacionalnosti, a druga - na klase i vrste životinja.

Primjena sustava za pronalaženje informacija

Područja upotrebe korpusne lingvistike pokrivaju široku paletu područja djelovanja. Slučajevi se koriste za sastavljanje i ispravljanje rječnika, izradu automatskih prevoditeljskih sustava, sažetak, izdvajanje činjenica, utvrđivanje ključne i druge obrade riječi.

vrste tijela tijela lingvistike

Osim toga, takvi se resursi aktivno koriste za proučavanje svjetskih jezika i mehanizme funkcioniranja jezika kao cjeline. Pristup velikim količinama unaprijed pripremljenih informacija olakšava operativnu i sveobuhvatnu studiju trendova u razvoju jezika, formiranju neologizma i stabilnog govornog prometa, promjenama vrijednosti leksičkih jedinica,

Budući da rad s takvim velikim količinama podataka zahtijeva automatizaciju, danas postoji bliska interakcija između računalne i jezične korpusa.

Nacionalna građevina ruskog jezika

Ova zgrada (skraćeno NKRN) uključuje niz podskupina koje omogućuju korištenje resursa za rješavanje velikog broja zadataka.

Materijali u bazi NKRN su podijeljeni:

o objavljivanju u medijima 90-ih i 2000-ih domaćih i stranih;
evidencije usmenog govora;
akcentni označeni tekstovi (tj. oznake na stresu);
govor govora;
pjesnički radovi;
materijali s sintaktičkim označavanjem itd.

Informacijski sustav također uključuje podskupine s paralelnim prijevodom radova s ruskog na engleski, njemački, francuski i mnogi drugi jezici (i natrag).

Također u bazi nalazi se dio povijesnih tekstova koji predstavljaju pisani govor na ruskom jeziku tijekom različitih razdoblja njegovog razvoja. Tu je i obrazovna zgrada, koja može biti korisna za strane državljane u svladavanju ruskog jezika.

Nacionalni korpus ruskog jezika uključuje 400 milijuna leksičkih jedinica i, u mnogim pogledima, nadmašuje značajan dio jezičnih građevina Europe.

planovi

Činjenica da su laboratoriji korpuske lingvistike na ruskim sveučilištima, kao i onima u inozemstvu, obećavajući činjenica u prilog prepoznavanju tog smjera. S primjenom i istraživanjem u okviru informacija i resursa za pretraživanje koji se razmatraju razvija se određena područja u području visokih tehnologija, sustav pitanja i odgovora, no to je već bilo riječi.

povijest korpusne lingvistike

Daljnji razvoj korpusne lingvistike je predvidjeti na svim razinama, od tehničke i u smislu provedbe novih algoritama koji optimiziraju procese traženja i obradu podataka, osnaživanje računala, više RAM-a, a na potrošača, jer korisnici su sve više i više načina za korištenje ove vrste resursa u svakodnevnom život i posao.

U zaključku

Sredinom prošlog stoljeća, 2017. godine, bila je daleka budućnost, u kojoj svemirska plovila prostranstva svemira i robota čine sav posao ljudima. Zapravo, znanost obiluje "bijelim mrljama" i očajnički pokušava odgovoriti na pitanja koja su stoljećima zadesila čovječanstvo. Pitanja funkcioniranja jezika ovdje zauzimaju časno mjesto, a korpuskularna i računalna lingvistika mogu nam pomoći da im odgovorimo.

Obrada velikih skupova podataka omogućuje vam otkrivanje obrazaca koji prethodno nisu dostupni, predviđaju razvoj određenih jezičnih značajki, praćenje formiranja riječi u stvarnom vremenu.

Na praktičnoj razini, globalna kućišta se može vidjeti, na primjer, kao potencijalni alat za procjenu javne raspoloženju - Internet je stalno ažuriraju svakodnevno razni tekstovi stvorili stvarnih korisnika: Ova komentare i mišljenja i članke, i mnogi drugi oblik govora.

Osim toga, rad s tijelima doprinosi razvoju istih tehničkih sredstava koja sudjeluju u pretraživanju informacija, znamo o uslugama "Google" ili "Yandex", strojno prevođenje, elektronski rječnici.

Može se sa sigurnošću tvrditi da korpusna lingvistika čini samo prve korake, au bliskoj budućnosti će se brzo razvijati.

Dijelite na društvenim mrežama:

Povezan