АдукацыяКаледжы і універсітэты

Што такое корпусная лінгвістыка?

Яшчэ некалькі дзесяцігоддзяў таму аб аўтаматызацыі лінгвістычных даследаванняў навукоўцы маглі толькі марыць. Праца выконвалася ўручную, да яе прыцягвалася вялікая колькасць студэнтаў, існавала значная верагоднасць памылкі «па няўважлівасці», а галоўнае - на ўсё гэта патрабавалася шмат, вельмі шмат часу.

З развіццём кампутарных тэхналогій стала магчымым праводзіць даследаванні на парадак хутчэй, і сёння адным з перспектыўных напрамкаў у даследаванні мовы з'яўляецца корпусная лінгвістыка. Яе асноўнай асаблівасцю з'яўляецца выкарыстанне вялікіх аб'ёмаў тэкставай інфармацыі, зведзенай ў адзіную базу, адмысловай выявай размечанай і названай корпусам.

На сённяшні дзень існуе мноства карпусоў, створаных з рознымі мэтамі, на базе рознага моўнага матэрыялу, які ахоплівае ад мільёнаў да дзясяткаў мільярдаў лексічных адзінак. Дадзены кірунак прызнаецца перспектыўным і дэманструе значныя поспехі ў дасягненні прыкладных і навукова-даследчых мэтаў. Спецыялістам, так ці інакш маюць справу з натуральнай мовай, рэкамендуецца азнаёміцца з карпусамі тэкстаў хаця б на базавым узроўні.

Гісторыя корпуснай лінгвістыкі

Станаўленне дадзенага кірунку звязана са стварэннем у ЗША Брауновского корпуса ў пачатку 60-х гадоў мінулага стагоддзя. Сход тэкстаў налічвала ўсяго 1 мільён словаформ, і сёння корпус такога аб'ёму быў бы зусім неканкурэнтаздольны. У значнай ступені гэта абумоўлена тэмпамі развіцця камп'ютэрных тэхналогій, а таксама растуць патрабаваннямі да новых даследчым рэсурсаў.

У 90-х гадах корпусная лінгвістыка сфармавалася ў паўнавартасную і самастойную дысцыпліну, сходу тэкстаў былі складзеныя і размечаныя для некалькіх дзесяткаў моў. У гэты перыяд быў створаны, напрыклад, Брытанскі нацыянальны корпус на 100 мільёнаў словаўжывання.

Па меры развіцця дадзенага кірунку лінгвістыкі, аб'ёмы тэкстаў становяцца ўсё больш (і дасягаюць мільярдаў слоўнікавых адзінак), а разметка аказваецца ўсё больш разнастайнай. На сённяшні дзень у інтэрнэт-прасторы можна знайсці карпусы пісьмовай і вуснай прамовы, мультиязыковые і навучальныя, арыентаваныя на мастацкую або акадэмічную літаратуру, а таксама многія іншыя разнавіднасці.

Якія бываюць корпуса

Тыпы карпусоў у корпуснай лінгвістыцы могуць быць прадстаўлены па некалькіх падставах. Інтуітыўна зразумела, што базай для класіфікацыі можа з'яўляцца мова тэкстаў (руская, нямецкая), рэжым доступу (адкрыты крыніца, закрыты, камерцыйны), жанр зыходнага матэрыялу (мастацкая літаратура, дакументальная, акадэмічная, публіцыстыка).

Цікавым чынам ажыццяўляецца генерацыя матэрыялаў, якія прадстаўляюць вусную мову. Паколькі наўмысная запіс такой прамовы стварыла б штучныя ўмовы для рэспандэнтаў, і атрыманы матэрыял нельга было б назваць «спантанным», сучасная корпусная лінгвістыка пайшла іншым шляхам. Добраахвотнік абсталёўваецца мікрафонам, і на працягу сутак вырабляецца запіс ўсіх размоваў, у якіх ён ўдзельнічае. Навакольныя людзі, зразумела, не могуць ведаць, што ў ходзе бытавога размовы ажыццяўляюць ўклад у развіццё навукі.

Пазней атрыманыя аўдыёзапісы захоўваюцца ў банку дадзеных і суправаджаюцца друкаваным тэкстам па тыпу стэнаграмы. Такім чынам, становіцца магчымай разметка, неабходная для стварэння корпуса вуснай паўсядзённым прамовы.

прымяненне

Там, дзе магчыма выкарыстанне мовы, магчыма і выкарыстанне карпусоў тэкстаў. Мэтай прымянення карпусных метадаў у лінгвістыцы можа з'яўляцца:

  • Стварэнне праграм вызначэння танальнасці, актыўна выкарыстоўвальных у палітыцы і бізнэсе для адсочвання станоўчых і негатыўных водгукаў выбаршчыкаў і кліентаў, адпаведна.
  • Падключэнне інфармацыйнай сістэмы да слоўніках і перакладчыкам для паляпшэння паказчыкаў іх працы.
  • Разнастайныя навукова-даследчыя задачы, якія спрыяюць разуменню прылады мовы, гісторыі яго развіцця і прадказанняў яго змены ў найбліжэйшай будучыні.
  • Распрацоўка сістэм здабывання інфармацыі на падставе марфалагічных, сінтаксічных, семантычных і іншых прыкмет.
  • Аптымізацыя працы розных лінгвістычных сістэм і інш.

выкарыстанне карпусоў

Інтэрфейс рэсурсаў падобны з тыповай пошукавай сістэмай і прапануе карыстачу ўвесці некаторы словы цi некалькi слоў для пошуку па інфармацыйнай базе. Акрамя формы дакладнага запыту можна скарыстацца пашыранай версіяй, якая дазваляе знаходзіць тэкставую інфармацыю практычна па любых лінгвістычным крытэрам.

Падставай для пошуку можа стаць:

  • прыналежнасць да пэўнай групе часцін мовы;
  • граматычныя прыкметы;
  • семантыка;
  • стылістычная і эмацыйная афарбоўка.

Акрамя таго, можна сумяшчаць крытэры пошуку для паслядоўнасці слоў: напрыклад, знайсці ўсе ўваходжання дзеяслова ў цяперашнім часе, першай асобы, адзіночнага ліку, пасля якога ідзе прыназоўнік «у» і назоўнік у вінавальным склоне. Рашэнне такой простай задачы займае ў карыстальніка некалькі секунд і патрабуе толькі некалькіх пстрычак мышшу ў зададзеных палях.

працэс стварэння

Сам пошук можна ажыццяўляць як па ўсіх подкорпусам, так і па адным, канкрэтна выбраным, у залежнасці ад патрэбаў пры дасягненні нейкай пэўнай мэты:

  1. Перш за ўсё вызначаецца, якія тэксты будуць пакладзены ў аснову корпуса. У практычных мэтах часта выкарыстоўваюцца публіцыстычныя, газетныя матэрыялы, інтэрнэт-каментары. У навукова-даследчых праектах знаходзяць прымяненне самыя разнастайныя тыпы карпусоў, аднак тэксты павінны быць падабраныя па некаторым агульнаму падставы.
  2. Атрыманая сукупнасць тэкстаў падвяргаецца предобработке, адбываецца выпраўленне памылак, пры іх наяўнасці, падрыхтоўваецца бібліяграфічнае і экстралингвистическое апісанне тэксту.
  3. Адсяецца ўся Нятэкставыя інфармацыя: выдаляюцца графікі, малюнкі, табліцы.
  4. Адбываецца вылучэнне токенаў, звычайна ўяўляюць сабой словы, для іх далейшай апрацоўкі.
  5. Нарэшце, ажыццяўляецца марфалагічная, сінтаксічная і іншая разметка атрыманага мноства элементаў.

Вынікам усіх вырабленых аперацый з'яўляецца сінтаксічная структура з размеркаваным па ёй мноствам элементаў, для кожнага з якіх вызначаны частка прамовы, граматычныя і, у некаторых выпадках, семантычныя прыкметы.

Складанасці пры стварэнні карпусоў

Важна разумець, што для атрымання корпуса недастаткова сабраць разам мноства слоў ці прапаноў. З аднаго боку, сход тэкстаў павінна быць збалансаваным, то ёсць прадстаўляць розныя тыпы тэкстаў у пэўных прапорцыях. З іншага - змесціва корпуса павінна быць адмысловым чынам размечана.

Першае пытанне вырашаецца шляхам дамоўленасці: напрыклад, на сход ўключаецца 60% мастацкіх тэкстаў, 20% дакументальных, пэўная доля адводзіцца пісьмовай прадстаўленні вуснай прамовы, заканадаўчым актам, навуковых работ і т. Д. Ідэальнага рэцэпту збалансаванага корпуса на сённяшні дзень не існуе.

Другое пытанне, які тычыцца разметкі змесціва, вырашаецца складаней. Існуюць спецыяльныя праграмы і алгарытмы, якія выкарыстоўваюцца для аўтаматычнай разметкі тэкстаў, аднак яны не даюць стопрацэнтнага выніку, могуць выклікаць збоі і патрабуюць ручной дапрацоўкі. Магчымасці і праблемы пры вырашэнні дадзенай задачы падрабязна апісваюцца ў працы В. П. Захарава па корпуснай лінгвістыцы.

Разметка тэксту ажыццяўляецца на некалькіх узроўнях, якія мы пералічым далей.

марфалагічная разметка

Са школьнай лавы мы памятаем, што ў рускай мове існуюць розныя часціны мовы, і кожная з іх мае свае асаблівасці. Напрыклад, дзеяслоў валодае катэгорыямі ладу і часу, якіх няма ў назоўніка. Носьбіт мовы не задумваючыся схіляе назоўнікі і дзеяслова, але для разметкі корпуса ў 100 млн. Словаўжывання ручная праца не падыйдзе. Усе неабходныя аперацыі зможа выканаць кампутар, праўда, для гэтага яго патрабуецца навучыць.

Марфалагічная разметка неабходная, каб кампутар «разумеў» кожнае слова як некаторую частку прамовы, якая мае пэўныя граматычныя прыкметы. Паколькі ў рускай (як і ў любым іншым) мове функцыянуе шэраг рэгулярных правілаў, магчыма пабудаваць аўтаматычную працэдуру марфалагічнага аналізу, уклаўшы ў машыну некаторы колькасць алгарытмаў. Аднак існуюць і выключэнні з правілаў, а таксама розныя ўскладняюць фактары. У выніку, чысты кампутарны аналіз сёння далёкі ад ідэалу, і нават 4% памылак дае значэнне ў 4 млн. Слоў на корпусе ў 100 млн. Адзінак, патрабуючы ручной дапрацоўкі.

Падрабязна гэтую праблему апісвае кніга Захарава В. П. «Корпусная лінгвістыка».

сінтаксічная разметка

Сінтаксічны аналіз або парсінга - гэта працэдура, якая вызначае ўзаемаадносіны слоў у сказе. З дапамогай набору алгарытмаў становіцца магчымым вызначыць у тэксце падлягае, выказнік, дапаўненні, розныя звароты мовы. Высвятляючы, якія словы ў паслядоўнасці з'яўляюцца галоўнымі, а якія - залежнымі, мы можам эфектыўна здабываць інфармацыю з тэксту і навучыць машыну выдаваць у адказ на пошукавы запыт толькі цікавую для нас інфармацыю.

Дарэчы, сучасныя пошукавыя сістэмы карыстаюцца гэтым, каб выдаваць канкрэтныя лічбы замест вялізных тэкстаў у адказ на адпаведныя запыты тыпу: «колькі калорый у яблыку» або «адлегласць ад Масквы да Пецярбурга». Зрэшты, для разумення нават самых асноў апісванага працэсу спатрэбіцца азнаёміцца з «Увядзеннем ў корпусную лінгвістыку» ці іншай базавым навучальным дапаможнікам.

семантычная разметка

Семантыка слова - гэта, кажучы простай мовай, яго сэнс. Шырока дастасавальным падыходам ў семантычнай аналізе з'яўляецца прыпісванне слову тэгаў, якія адлюстроўваюць яго прыналежнасць да набору сэнсавых катэгорый і матэрыялы па тэме. Падобная інфармацыя з'яўляецца каштоўнай для аптымізацыі алгарытмаў аналізу танальнасці тэксту, аўтаматычнага рэферыраванне і выканання іншых задач метадамі корпуснай лінгвістыкі.

Існуе некаторая колькасць «каранёў» дрэва, якія ўяўляюць сабой абстрактныя словы, якія маюць вельмі шырокую семантыку. Па меры галінавання гэтага дрэва утвараюцца вузлы, якія змяшчаюць усё больш канкрэтныя лексічныя элементы. Напрыклад, слова "істота" можа быць звязана з такімі паняццямі як «чалавек» і «жывёла». Першае слова будзе далей галінавацца на розныя прафесіі, тэрміны роднасці, нацыянальнасці, а другое - на класы і віды жывёл.

Прымяненне інфармацыйна-пошукавых сістэм

Сферы выкарыстання корпуснай лінгвістыкі ахопліваюць самыя разнастайныя вобласці дзейнасці. Карпусы выкарыстоўваюцца для складання і карэктавання слоўнікаў, стварэння аўтаматычных сістэм перакладу, рэферыраванне, здабывання фактаў, вызначэння танальнасці і іншай апрацоўкі тэкстаў.

Акрамя таго, падобныя рэсурсы актыўна выкарыстоўваюцца пры даследаванні моў свету і механізмаў функцыянавання мовы ў цэлым. Доступ да вялікіх аб'ёмах папярэдне падрыхтаванай інфармацыі спрыяе аператыўнаму і ўсебаковаму вывучэнню тэндэнцый у развіцці моў, адукацыі неалагізмаў і ўстойлівых маўленчых абарачэнняў, змене значэнняў лексічных адзінак і інш.

Паколькі праца са гэтак буйнымі аб'ёмамі дадзеных патрабуе аўтаматызацыі, сёння ажыццяўляецца цеснае ўзаемадзеянне кампутарнай і корпуснай лінгвістыкі.

Нацыянальны корпус рускай мовы

Дадзены корпус (скарочана, НКРЯ) уключае ў сябе шэраг подкорпусов, якія дазваляюць выкарыстоўваць рэсурс для вырашэння самых разнастайных задач.

Матэрыялы ў базе НКРЯ падпадзяляюцца:

  • на публікацыі ў СМІ 90-х і 2000-х гадоў як айчынных, так і замежных;
  • запісы вуснай прамовы;
  • акцентологически размечаныя тэксты (гэта значыць, з адзнакамі аб націску);
  • дыялектнай гаворка;
  • паэтычныя творы;
  • матэрыялы з сінтаксічнай разметкай і інш.

Інфармацыйная сістэма ўключае таксама подкорпуса з паралельнымі перакладамі твораў з рускай на англійскую, нямецкую, французскую і многія іншыя мовы (і назад).

Таксама ў базе ёсць раздзел гістарычных тэкстаў, якія прадстаўляюць пісьмовую гаворка на рускай мове ў розныя перыяды яго развіцця. Існуе і навучальны корпус, які можа быць карысны замежным грамадзянам пры авалоданні беларускай мовай.

Нацыянальны корпус рускай мовы ўключае ў сябе 400 мільёнаў лексічных адзінак і па многіх параметрах апярэджвае значную частку карпусоў моў Еўропы.

перспектывы

Фактам на карысць прызнання дадзенага кірунку перспектыўным з'яўляецца наяўнасць лабараторый корпуснай лінгвістыкі ў расійскіх ВНУ, роўна як і ў замежных. З ужываннем і даследаваннямі ў рамках разгляданых інфармацыйна-пошукавых рэсурсаў спалучана развіццё некаторых напрамкаў у галіне высокіх тэхналогій, вопросная-у адказ сістэм, аднак гэта абмяркоўвалася вышэй.

Далейшае развіццё корпуснай лінгвістыкі прадказваецца на ўсіх узроўнях, пачынаючы ад тэхнічнага, у плане ўкаранення новых алгарытмаў, якія аптымізуюць працэсы пошуку і апрацоўкі інфармацыі, пашырэння магчымасцяў кампутараў, павелічэння аператыўнай памяці, і заканчваючы бытавым, паколькі карыстальнікі знаходзяць усё больш спосабаў прымянення дадзенага тыпу рэсурсаў у паўсядзённым жыцця і ў працы.

У заключэнне

У сярэдзіне мінулага стагоддзя 2017 год уяўляе далёкім будучым, у якім касмалёты барозняць прасторы Сусвету і робаты выконваюць усю працу за людзей. У рэчаіснасці ж навука мае шмат "белымі плямамі" і прадпрымае адчайныя спробы адказаць на пытанні, стагоддзямі выклікаюць трывогу чалавецтва. Пытанні функцыянавання мовы тут займаюць ганаровае месца, і корпусная і кампутарная лінгвістыка здольныя дапамагчы нам адказаць на іх.

Апрацоўка вялікіх масіваў дадзеных дазваляе выяўляць заканамернасці, недаступныя раней, прадказваць развіццё пэўных моўных рысаў, адсочваць фарміраванне слоў практычна ў рэальным часе.

На практычным глабальным узроўні карпусы могуць разглядацца, напрыклад, як патэнцыйны інструмент ацэнкі грамадскіх настрояў - Інтэрнэт ўяўляе сабой бесперапынку папаўнялі базу розных тэкстаў, створаных рэальнымі карыстальнікамі: гэта і каментары, і водгукі, і артыкулы, і многія іншыя формы маўлення.

Акрамя таго, праца з карпусамі спрыяе распрацоўцы тых жа тэхнічных сродкаў, што ўдзельнічаюць у інфармацыйным пошуку, знаёмым нам па сэрвісаў «Гугл» або «Яндэкс», машынным перакладзе, электронных слоўніках.

Можна з упэўненасцю сцвярджаць, што корпусная лінгвістыка робіць толькі першыя крокі, і ў найбліжэйшай будучыні будзе бурна развівацца.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 be.birmiss.com. Theme powered by WordPress.