SamuwarKolejoji da jami'o'i da

Mene ne Corpus harsuna?

Kamar 'yan shekarun da suka gabata da suka wuce zuwa sanya aiki da kai da ilimin harsuna ya gudanar da bincike, masana kimiyya ne kawai zai iya mafarki na. A aikin da aka yi da hannu, shi janyo hankalin babban adadin dalibai, akwai wani gwaji alama "m" kuskure, da kuma mafi muhimmanci - duk wannan ya dauki dogon, dogon lokaci.

Tare da ci gaban fasahar kwamfuta Ya zama zai yiwu a gudanar da bincike a kan tsari na girma da sauri, kuma a yau daya daga cikin alamar rahama kwatance a cikin nazarin harshe ne mai tarin rubuce-rubuce harsuna. Its main alama ne da yin amfani da manyan yawa na rubutu bayani, bayanai cikin guda database, a wani musamman hanya da kuma kira da alama jiki.

Don kwanan wata, akwai da yawa gine-gine halitta da daban-daban dalilai a kan tushen da daban-daban da ilimin harsuna abu taqin daga miliyoyin zuwa dubun biliyoyin lexical raka'a. Wannan shugabanci da aka gane a matsayin alamar da kuma nuna gagarumin ci gaba a wajen aikace-aikace da kuma bincike makasudai. Masana, ko ta wani hanya tafiyad da harshe na halitta, shi ne shawarar ka sami matsahi na saba da jiki na matani a kalla a wani asali matakin.

Tarihi na tarin rubuce-rubuce harsuna

Da samuwar wannan Trend ne saboda da halittar Amurka a Brown jiki a cikin farkon 60-ies karni na karshe. The tarin hada da ayoyin duk 1 da miliyan na kalmar siffofin, da kuma a yau jikin wannan size zai zama kaucewa uncompetitive. Wannan shi ne sun fi mayar saboda da taki na ci gaban fasahar kwamfuta, kazalika da biyan bukatun ga sabon bincike albarkatu.

A cikin 90s tarin rubuce-rubuce harsuna ya haifar a cikin wani cikakken kuma m horo, a tarin rubutun da aka kõma sama da alama ga mutane da dama na harsuna. A wannan lokaci an halitta, misali, Birtaniya National Corpus miliyan 100 Alamu.

Tare da ci gaban wannan yanki na harsuna, rubutu kundin ana ƙara zama (da kai biliyoyin kamus raka'a), da kuma layout ne mafi zama bambancin. A ranar, da Internet sarari za a iya samu carcasses rubuta da kuma magana da harshen, harsuna da yawa, da kuma ilmantarwa-daidaitacce m, ko ilimi adabi, kazalika da yawa wasu jinsunan.

Mene ne gidaje

Jikin iri a cikin jiki harsuna iya bayar ga dalilai da dama. Lamirinsu, da dalilin da rarrabuwa na iya zama wani rubutu da harshen (Rasha, Jamus), da samun yanayin (bude source, rufe, kasuwanci), da Genre na tushen kayan (almarar, shirin gaskiya, ilimi, aikin jarida).

Ban sha'awa hanyar haifar kayan na magana da harshen. Tun da m rikodi na irin wannan magana don ƙirƙirar wani wucin gadi yanayi domin weights, da kuma sakamakonsa abu ba za a iya kira "kwatsam", ta zamani, ayyukan marubuta harsuna, ya tafi da sauran hanyar da. A sa kai sanye take da wani Reno, da kuma lokacin da rana ta fito da wani rikodin duk tattaunawa, a cikin abin da ta ke taka rawa. Mutane kewaye da, ba shakka, zai iya sani ba cewa a cikin shakka daga yau da kullum tattaunawar taimaka wa ci gaban kimiyya.

Daga baya samu rikodin adana a cikin database kuma suna tare da buga rubutu kwafi irin. Saboda haka, shi ya zama mai yiwuwa markup da ake bukata don ƙirƙirar wani baka kullum jawabin gidaje.

aikace-aikace

Duk inda zai yiwu a yi amfani da harshen, da kuma watakila amfani da gine-gine texts. Hanyar su yi amfani da ƙwanso a harsuna, zai iya zama:

  • Samar da wani shirin kayyade key, an yi amfani da ko'ina a cikin harkokin siyasa da kuma kasuwanci ya ci gaba da lura da kyau da kuma mummunan martani na masu jefa} uri'a da kuma abokan ciniki, bi da bi.
  • Connection bayanai tsarin to kamus da kuma fassara su inganta yi.
  • A iri-iri na bincike da ayyuka da cewa taimako zuwa ga fahimtar harshen naúrar, tarihin ta ci gaba da kuma Hasashen na canje-canje a nan gaba.
  • Development of bayanai gyara tsarin dangane da morphological, syntactic, na ginin jumla da sauran fasali.
  • Ingantawa da daban-daban da ilimin harsuna da tsarin da sauransu.

Amfani da gine-gine

irin wannan hanya dubawa tare da wani hali search engine, da kuma ya sa muka mai amfani shiga wata kalma ko hade da kalmomi don bincika bayanai tushe. Baya samar da ainihin tambaya iya amfani da inganta version, wanda damar samun matani bayanai a kusan kowace rabe-sharudda.

search tushe iya zama:

  • membobinsu da wani rukuni na sassa na magana.
  • nahawu siffofin.
  • ilimin harsuna.
  • stylistic kuma wani tunanin canza launi.

Zaka kuma iya hada search sharudda ga wani jerin kalmomi, misali, don nemo duk aukuwar na fi'ili a cikin rãyuwar siga, da farko mufradi, wanda ya zo bayan da harafin bayanau "a" da suna a cikin accusative hali. Maganin irin wannan sauki aiki daukan mai amfani a 'yan seconds da kuma bukatar kawai' yan linzamin kwamfuta akafi a kayyade filayen.

A aiwatar da samar

The search kanta za a iya za'ayi a kan duk subcorpus kuma daya musamman zaba, dangane da bukatun a cimma wata manufa musamman:

  1. A mataki na farko shi ne domin ayyana wanda texts samar da tushen ga harka. Ga m dalilai, shi ne akai-akai amfani da aikin jaridar, labarai, online comments. A binciken da aikin ne da yin amfani da wani m iri-iri kunshin iri, amma rubutu ya kamata a zabi bisa ga wasu na kowa ƙasa.
  2. A sakamakon tarin texts hõre pretreatment, akwai gyara kurakurai, idan wani, ta shirya bibliographic da kuma karin-rabe-bayanin irin rubutu.
  3. An shafe duk ba matani bayanai: kuranye da graphics, da hotuna, Tables.
  4. Shin wani kasafi na Alamu, wanda su ne yawanci magana, domin kara aiki.
  5. A karshe, shi za'ayi morphological, syntactical da sauran markings samu jam'i na abubuwa.

A sakamakon duk ma'amaloli sanya ta a syntactic tsarin da rarraba a cikinta jam'i na abubuwa, kowanne daga abin da aka gano a wani bangare na jawabin, nau'in kuma, a wasu lokuta, da na ginin jumla halaye.

Matsalolin a samar da gine-gine

Yana da muhimmanci a fahimci cewa shi ne bai isa ya sa tare da wani sa na kalmomi ko sentences ga jiki. A daya hannun, a tarin rubutun ya zama daidaita, cewa shi ne, wakiltar daban-daban na matani a wasu rabbai. A gefe - abinda ke ciki na yadi ya kamata a spaced a hanya ta musamman.

A farko matsalar da aka warware ta wata yarjejeniya: misali, a cikin tarin hada da 60% na adabi texts, 20% na Documentaries, wani yawan aka bai wa rubuta misali na magana da harshen, hukuncensa, da kimiyya da ayyuka, da dai sauransu m girke-girke adalci jiki a yau ba ya wanzu ...

A tambaya ta biyu, game da abun ciki layout, shirya kalubale. Akwai musamman shirye-shirye da kuma lissafi mai tsauri amfani ga atomatik sa alama na matani, amma ba su ba da cikakken sakamakon, zai iya sa katsalandan da kuma bukatar manual rework. Dama da kalubale a tafiyad da wannan matsala da aka bayyana a cikin daki-daki, a wata takarda V. P. Zaharova na tarin rubuce-rubuce harsuna.

Text markup aka aiwatar a dama matakan, wanda muka lissafa a kasa.

morphological jo

Daga makaranta, mu tuna cewa a cikin harshen Rashanci, akwai sassa daban daban na jawabin, kuma kowane daga cikinsu yana da halaye. Alal misali, fi'ili yana da nau'i-nau'i daga karkata da lokaci a wanda babu suna. a 'yan qasar magana ba tare da jinkirin declines sunaye da conjugate fi'ilai, amma ga alama jikin miliyan 100. Alamu manual aiki zai yi aiki ba. Duk da zama dole gudanar iya aiwatar da kwamfuta, duk da haka, domin wannan shi bukatar a sanar da.

Morphological jo, da kwamfuta dole ne "fahimta" kowace kalma a matsayin wani bangare na jawabin da ciwon wasu nau'in fasali. Tun da Rasha (da wani harshe) aiki a yawan yau da kullum da dokoki, yana yiwuwa ya gina wani atomatik hanya ga morphological analysis, da zuba jari a cikin mota a wani yawan lissafi mai tsauri. Duk da haka, akwai ban da mulki, kazalika da daban-daban complicating dalilai. A sakamakon haka, net kwamfuta bincike na yau ne da nisa daga manufa, kuma ko da 4% kuskure da ake samu a darajar 4 miliyan. Words a jiki na 100 miliyan. Units, bukata manual rework.

Cikakken littafin ya bayyana matsalar Zaharova V. P. "Corpus harsuna".

syntactic annotation

Parsing ko parsing - wata hanya da kayyade dangantakar kalmomi a cikin jumla. Amfani da wani sa na lissafi mai tsauri ne mai yiwuwa a ƙayyade da rubutu na magana, predicate, tarawa, da mahara jũya daga magana. Gano da kalmomi ne babban jerin, da kuma wanda - dogara, za mu iya yadda ya kamata cire bayanai daga rubutu da kuma koyar da inji don en, a mayar da martani ga wani search bukatar kawai bayanai ban sha'awa mu.

Af, na zamani search engines amfani da wannan ba daga takamaiman lambobin maimakon dogon matani a mayar da martani ga dacewa queries kamar "yaya da yawa da adadin kuzari a wani apple" ko "da nisa daga Moscow zuwa St Petersburg." Duk da haka, to fahimta ko da kayan yau da kullum na aiwatar aka bayyana ta da bukatar su tuntubi "Gabatarwa ga Corpus harsuna," ko wasu na asali koyawa.

na ginin jumla markup

A ilimin harsuna na kalmar - shi ne, a cikin sauki sharuddan, da ma'anar. Yadu m tsarin kula da na ginin jumla da bincike na wata kalma ingancin danganta tags, nuna masa na zuwa wani sa na na ginin jumla Categories kuma wanɗannan ƙananan rukunoni. Irin wannan bayanai ne m ga optimizing Algorithms bincika rubutu sautin, atomatik summarization da kuma sauran ayyuka da hanyoyin da ayyukan marubuta harsuna.

Akwai da dama na "tushen" itãciyar, wakiltar wani m kalmar da mai fadi da ilimin harsuna. Kamar yadda wani reshe na bishiyar nodes an kafa, dauke da karin kuma mafi takamaiman lexical abubuwa. Alal misali, kalmar nan "halitta" iya hade da irin matsalolin a matsayin "mutum" da kuma "dabba". Kalma ta farko da za ta ci gaba da reshe daga cikin daban-daban fasahohin, kinship sharuddan, kabila, da kuma na biyu - a kan azuzuwan da kuma iri na dabbobi.

A amfani da bayanai gyara tsarin

Yankunan da amfani da ayyukan marubuta harsuna rufe bambancin filayen aiki. Housings ake amfani da shiri da kuma gyara daga kamus, haifar da sarrafa kansa translation tsarin, annotating, maidowa facts, tabbatas da sautin kuma sauran rubutu aiki.

Bugu da kari, irin albarkatun da ake rayayye amfani a cikin binciken na duniya harsuna da sunadaran da aiki na harshe in general. Samun babban kundin na pre-shirye bayanai facilitates m, kuma m nazarin halin na ci gaba harsuna, da kuma barga samuwar neologisms magana gudun canji halayya lexical raka'a da sauransu.

Tun da aikin tare da irin wannan mai yawa da bayanai na bukatar aiki da kai, a yau akwai kusa hulda tsakanin kwamfuta da ayyukan marubuta harsuna.

Rasha National Corpus

Wannan harka (rage tsawon NKRYA) ya hada da wani yawan subcorpus, da barin yin amfani da wani hanya mai fadi da iri-iri ayyuka.

The kayan a cikin database kasu NKRYA:

  • to wallafe a kafofin watsa labarai '90s da kuma 2000s, duka biyu cikin gida da kuma waje.
  • rikodi magana.
  • aktsentologicheski alama matani (Ina nufin, alamomi na danniya).
  • yare magana.
  • shayari;
  • Materials da syntactic da sauran markings.

The bayanai tsarin ma ya hada da Subcorpus da layi daya fassarorin na ƙwarai daga Rasha zuwa Turanci, Jamusanci, Faransanci da kuma wasu harsuna (da kuma mataimakin versa).

Har ila yau a cikin database akwai wani sashe na tarihi texts, wakiltar rubuta jawabin a Rasha a daban-daban lokaci na ta ci gaba. Akwai kuma wani horo jiki, wanda zai iya zama da amfani ga kasashen waje jama'a a Mastering da Rasha harshe.

Rasha National Corpus qunshi miliyan 400 lexical raka'a, kuma a cikin da yawa hanyoyi gaba da wani gagarumin ɓangare na harsuna na Turai jikinsu.

al'amurra

Gaskiya a cikin ni'imar da ya san wannan Trend ne samuwan alkawarin awon ayyukan marubuta harsuna a Rasha jami'o'i, kazalika da waje. Tare da yin amfani da kuma gudanar da bincike a cikin tsarin na wannan bayanai da kuma search albarkatun entails ci gaban da wasu wurare a cikin filin daga high fasahar, tambaya-amsa tsarin, amma shi ne tattauna a sama.

Kara raya ayyukan marubuta harsuna, an annabta a dukkan matakai, jere daga fasaha da kuma cikin sharuddan aiwatar da sabon lissafi mai tsauri cewa inganta tafiyar matakai na neman da kuma sarrafa bayanai, karfafawa kwakwalwa, mafi RAM, da kuma mabukaci, saboda masu amfani ne kuma da hanyoyin da za a yi amfani da irin wannan hanya a yau da kullum rayuwa da kuma aiki.

a ƙarshe

A tsakiyar karni na karshe a shekara ta 2017 da jũna m nan gaba, inda Spaceships tafiya a cikin sararin samaniya da kuma mutummutumi aikata dukan abin da na mutane. A gaskiya ma, kimiyya yana cike da "farin spots" da kuma yin kokarin kawo amsa tambayoyin 'yan adam da ƙarni damun. Tambayoyi aiki na harshe nan zauna a wuri na girmamawa, da kuma hukuma da kuma mai aiki da na'urar kwamfuta harsuna, zai iya taimaka mana mu amsa su.

Processing na manyan data sets iya gane alamu, a baya m, hango ko hasashen ci gaban harshe ne musamman siffofin zuwa waƙa da samuwar kalmomi a kusan real lokaci.

A kan wani m matakin, da duniya enclosures za a iya gani, misali, kamar yadda wani m kayan aiki don tantance jama'a yanayi - yanar-gizo ne a kullum updated kullum daban-daban texts halitta da real masu amfani: wannan comments kuma sake dubawa, da kuma articles, da kuma wasu siffofin magana.

Bugu da kari, aiki tare da gawarwakin na taimaka wa ci gaban da wannan hardware, cewa suna da hannu a cikin bayanai gyara, mu saba da sabis "Google" ko "yandex", inji translation, lantarki kamus.

Muna iya amincewa tabbatar da cewa ayyukan marubuta harsuna sa kawai matakai na farko, da kuma a nan gaba za su yi yabanya.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ha.birmiss.com. Theme powered by WordPress.