Роль російської мови в комп'ютерній лінгвістиці. Чим займається комп'ютерний лінгвіст? Великі асоціації та конференції

КОМП'ЮТЕРНА ЛИНГВИСТИКА (калька з англійського computational linguistics), один із напрямів прикладної лінгвістики, в якому для дослідження мови і моделювання функціонування мови в тих чи інших умовах, ситуаціях і проблемних сферах розробляються і використовуються комп'ютерні програми, комп'ютерні технології організації та обробки даних. З іншого боку, це область застосування комп'ютерних моделей мови в лінгвістиці та суміжних з нею дисциплінах. як особливе науковий напрямоккомп'ютерна лінгвістика оформилася в європейських дослідженнях в 1960-х роках. Оскільки англійське прикметник computational може перекладатися і як «обчислювальний», в літературі зустрічається також термін «обчислювальна лінгвістика», однак у вітчизняній науці він набуває більш вузьке значення, що наближається до поняття «квантитативная лінгвістика».

Часто до комп'ютерної лінгвістики відносять термін «квантитативная лінгвістика», який характеризує міждисциплінарний напрямок в прикладних дослідженнях, де в якості основного інструменту вивчення мови і мови використовуються кількісні або статистичні методи аналізу. Іноді квантитативная (або кількісна) лінгвістика протиставляється комбінаторної лінгвістиці. В останній домінуючу роль займає «Некількісні» математичний апарат - теорія множин, математична логіка, теорія алгоритмів і т. Д. З теоретичної точки зору використання статистичних методівв мовознавстві дозволяє доповнити структурну модель мови імовірнісним компонентом, т. е. створити теоретичну структурно-вірогідну модель, що володіє значним пояснювальним потенціалом. У прикладній області квантитативная лінгвістика представлена, перш за все, використанням фрагментів цієї моделі, які використовуються для лінгвістичного моніторингу функціонування мови, дешифрування кодованого тексту, авторизації / атрибуції тексту і т. П.

Термін «комп'ютерна лінгвістика» і проблематика цього напрямку часто зв'язуються з моделюванням спілкування, і перш за все - з забезпеченням взаємодії людини з ЕОМ на природній або обмеженому природною мовою(Для цього створюються спеціальні системи обробки природної мови), а також з теорією і практикою інформаційно-пошукових систем (ІПС). Забезпечення спілкування людини з ЕОМ на природній мові іноді позначається терміном «обробка природної мови» (переклад з англійської мовитерміна Natural Language Processing). Цей напрямок комп'ютерної лінгвістики виникло в кінці 1960-х років за кордоном і розвивалося в рамках науково-технологічної дисципліни, іменованої штучним інтелектом (роботи Р. Шенка, М. Лебовіц, Т. Винограду і ін.). За своїм змістом словосполучення «обробка природної мови» має охоплювати всі області, в яких комп'ютери використовуються для обробки мовних даних. На практиці, однак, закріпилася більш вузьке розуміння терміна - розробка методів, технологій і конкретних систем, що забезпечують спілкування людини з ЕОМ на природній або обмеженій природній мові.

До комп'ютерної лінгвістики в певній мірі можуть бути віднесені роботи в області створення гіпертекстових систем, що розглядаються як особливий спосіб організації тексту і навіть як принципово новий вид тексту, протиставлений за багатьма своїми властивостями звичайного тексту, сформованому в гутенберговской традиції друкарства (дивись Гутенберг).

До компетенції комп'ютерної лінгвістики відноситься і автоматичний переклад.

В рамках комп'ютерної лінгвістики виникло і порівняно нове, активно розвивається з 1980-90-х років напрямок - корпусні лінгвістика, де розробляються загальні принципи побудови лінгвістичних корпусів даних (зокрема, корпусів текстів) з використанням сучасних комп'ютерних технологій. Корпуси текстів - це колекції спеціально підібраних текстів книг, журналів, газет і т.д., перенесені на машинні носії і призначені для автоматичної обробки. Один з перших корпусів текстів був створений для американського варіанту англійської мови в Браунівському університеті (так званий Браунський корпус) в 1962-63 під керівництвом У. Френсіса. У Росії з початку 2000-х років в Інституті російської мови імені В. В. Виноградова РАН розробляється Національний корпус російської мови, що складається з представницької вибірки російськомовних текстів обсягом близько 100 мільйонів слововживань. Крім власне конструювання корпусів даних, корпусні лінгвістика займається створенням комп'ютерних інструментів (комп'ютерних програм), призначених для вилучення різноманітної інформації з текстових корпусів. З точки зору користувача, до корпусів текстів пред'являються вимоги показності (репрезентативності), повноти і економічності.

Комп'ютерна лінгвістика активно розвивається і в Росії, і за кордоном. Потік публікацій в цій області дуже великий. Крім тематичних збірок, в США з 1984 щокварталу виходить журнал «Computational Linguistics» ( «Комп'ютерна лінгвістика»). Велику організаційну і наукову роботупроводить Асоціація з комп'ютерної лінгвістики (The Association for Computational Linguistics), яка має регіональні структури по всьому світу (зокрема, європейське відділення). Кожні два роки проходять міжнародні конференції КОЛІНТ (в 2008 конференція проходила в Манчестері). Основні напрямки комп'ютерної лінгвістики обговорюються також на щорічній міжнародній конференції «Діалог», яку організує Російським НДІ штучного інтелекту, філологічним факультетом МДУ, Яндексом і рядом інших організацій. Відповідна проблематика широко представлена ​​також на міжнародних конференціях з питань штучного інтелекту різних рівнів.

Літ .: Звегинцев В. А. Теоретична і прикладна лінгвістика. М., 1968; Піотровський Р. Г., Бектаев К. Б., Піотровська А. А. Математична лінгвістика. М., 1977; Городецький Б. Ю. Актуальні проблеми прикладної лінгвістики // Нове в зарубіжній лінгвістиці. М., 1983. Вип. 12; Кибрик А. Е. Прикладна лінгвістика // Кибрик А. Е. Нариси з загальним і прикладних питань мовознавства. М., 1992; Kennedy G. An introduction to corpus linguistics. L., 1998; Bolshakov I.А., Gelbukh А. Computational linguistics: models, resources, applications. Мех., 2004; Національний корпус російської мови: 2003-2005. М., 2005; Баранов А. Н. Введення в прикладну лінгвістику. 3-е изд. М., 2007; Комп'ютерна лінгвістика та інтелектуальні технології. М., 2008. Вип. 7.

Комп'ютерна лінгвістика(Також: математичнаабо обчислювальна лінгвістика, Англ. computational linguistics) - наукова дисципліна в області математичного і комп'ютерного моделювання інтелектуальних процесів у людини і тварин при створенні систем штучного інтелекту, яке ставить собі за мету використання математичних моделей для опису природних мов.

Комп'ютерна лінгвістика частково перетинається з обробкою природних мов. Однак в останній акцент робиться не на абстрактні моделі, а на прикладні методи опису і обробки мови для комп'ютерних систем.

Полем діяльності комп'ютерних лінгвістів є розробка алгоритмів і прикладних програм для обробки мовної інформації.

витоки

Математична лінгвістика є гілкою науки штучного інтелекту. Її історія почалася в Сполучених Штатах Америки в 1950-х роках. З винаходом транзистора і появою нового покоління комп'ютерів, а також перших мов програмування, почалися експерименти з машинним перекладом, особливо російських наукових журналів. У 1960-х роках подібні дослідження проводилися і в СРСР (наприклад, стаття про переведення з російської на вірменську в сб. «Проблеми кібернетики» за 1964 рік). Однак якість машинного перекладу досі сильно поступається якості перекладу, зробленого людиною.

З 15 по 21 травня 1958 року в I МГПИИЯ відбулася перша Всесоюзна конференція з машинного перекладу. Оргкомітет очолювали В. Ю. Розенцвейг і відповідальний секретар Оргкомітету Г. В. Чернов. Повністю програма конференції опублікована в збірнику «Машинний переклад і прикладна лінгвістика», вип. 1, 1959 г. (він же «Бюлетень Об'єднання з машинного перекладу № 8»). Як згадує В. Ю. Розенцвейг, опублікований збірник тез конференції потрапив в США і справив там велике враження.

У квітні 1959 року в Ленінграді відбулося I Всесоюзна нарада з математичної лінгвістики, скликане Ленінградським університетом і комітетом прикладної лінгвістики. Головним організатором Наради був Н. Д. Андрєєв. У Нараді взяли участь ряд видних математиків, зокрема, С. Л. Соболєв, Л. В. Канторович (згодом - Нобелівський лауреат) І А. А. Марков (останні двоє виступали в дебатах). В. Ю. Розенцвейг виступив в день відкриття Наради з програмною доповіддю «Загальна лінгвістична теорія перекладу і математична лінгвістика».

Напрямки комп'ютерної лінгвістики

  • Обробка природної мови (англ. natural language processing; синтаксичний, морфологічний, семантичний аналізи тексту). Сюди включають також:
  1. Корпусна лінгвістика, створення і використання електронних корпусів текстів
  2. Створення електронних словників, тезаурусів, онтологій. Наприклад, Lingvo. Словники використовують, наприклад, для автоматичного перекладу, перевірки орфографії.
  3. Автоматичний переклад текстів. Серед російських перекладачів популярним є Промт. Серед безкоштовних відомий перекладач Google Translate
  4. Автоматичне витяг фактів з тексту (витяг інформації) (англ. fact extraction, text mining)
  5. Автореферірованіе (англ. automatic text summarization). Ця функція включена, наприклад, в Microsoft Word.
  6. Побудова систем управління знаннями. Див. Експертні системи
  7. Створення питально-відповідних систем (англ. question answering systems).
  • Оптичне розпізнавання символів (англ. OCR). Наприклад, програма FineReader
  • Автоматичне розпізнавання мови (англ. ASR). Є платне і безкоштовне ПЗ
  • Автоматичний синтез мови

Великі асоціації та конференції

Навчальні програми в Росії

Див. також

Напишіть відгук про статтю "Комп'ютерна лінгвістика"

Примітки

посилання

  • (Реферат)
  • - база знань по лінгвістичним ресурсів для російської мови
  • - відкриті вихідні коди деяких утиліт комп'ютерної лінгвістики
  • - онлайн доступ до програм комп'ютерної лінгвістики

Уривок, що характеризує Комп'ютерна лінгвістика

- Візьми, візьми дитину, - промовив П'єр, подаючи дівчинку і владно і поспішно звертаючись до баби. - Ти віддай їм, віддай! - закричав він майже на бабу, саджаючи закричав дівчинку на землю, і знову озирнувся на французів і на вірменське сімейство. Старий уже сидів босий. Маленький француз зняв з нього останній чобіт і поплескував чобітьми один про інший. Старий, схлипуючи, говорив що то, але П'єр тільки мигцем бачив це; вся увага його була звернена на француза в капоті, який в цей час, повільно розгойдуючись, посунувся до молодої жінки і, вийнявши руки з кишень, взявся за її шию.
Красуня вірменка продовжувала сидіти в тому ж нерухомому положенні, з опущеними довгими віями, і ніби не бачила і не відчувала того, що робив з нею солдат.
Поки П'єр пробіг ті кілька кроків, які відділяли його від французів, довгий мародер в капоті вже рвав з шиї вірменки намисто, яке було на ній, і молода жінка, хапаючись руками за шию, кричала пронизливим голосом.
- Laissez cette femme! [Залиште цю жінку!] - шаленим голосом прохрипів П'єр, схоплюючи довгого, сутоловатого солдата за плечі і відкидаючи його. Солдат впав, підвівся і побіг геть. Але товариш його, кинувши чоботи, вийняв тесак і грізно насунувся на П'єра.
- Voyons, pas de betises! [Ну ну! Чи не дури!] - крикнув він.
П'єр був у тому захваті сказу, в якому він нічого не пам'ятав і в якому сили його подесятеряє. Він кинувся на босого француза і, перш ніж той встиг вийняти свій тесак, вже збив його з ніг і молотив по ньому кулаками. Почувся схвальний крик оточувала натовпу, в той же час з за рогу показався кінний роз'їзд французьких уланів. Улани риссю під'їхали до П'єру і французу і оточили їх. П'єр нічого не пам'ятав з того, що було далі. Він пам'ятав, що він бив кого то, його били і що під кінець він відчув, що руки його пов'язані, що натовп французьких солдатів коштує навколо нього і обшукує його плаття.
- Il a un poignard, lieutenant, [Поручик, у нього кинджал,] - були перші слова, які зрозумів П'єр.
- Ah, une arme! [А, зброє!] - сказав офіцер і звернувся до босому солдату, який був узятий з П'єром.
- C "est bon, vous direz tout cela au conseil de guerre, [Добре, добре, на суді все розкажеш,] - сказав офіцер. І слідом за тим повернувся до П'єру: - Parlez vous francais vous? [Кажеш чи по французьки? ]
П'єр озирався навколо себе налівшіміся кров'ю очима і не відповідав. Ймовірно, особа його здалося дуже страшно, тому що офіцер що то пошепки сказав, і ще чотири улана відділилися від команди і стали по обидва боки П'єра.
- Parlez vous francais? - повторив йому питання офіцер, тримаючись далеко від нього. - Faites venir l "interprete. [Покличте перекладача.] - Через рядів виїхав маленький чоловічок в штатському російською плаття. П'єр по шати і говору його відразу впізнав в ньому француза одного з московських магазинів.
- Il n "a pas l" air d "un homme du peuple, [Він не схожий на простолюдина,] - сказав перекладач, оглянувши П'єра.
- Oh, oh! ca m "a bien l" air d "un des incendiaires, - змастив офіцер. - Demandez lui ce qu" il est? [О, о! він дуже схожий на палія. Запитайте його, хто він?] - додав він.
- Ти хто? - запитав перекладач. - Ти повинна відповідати начальство, - сказав він.
- Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [Я не скажу вам, хто я. Я ваш полонений. Виводьте мене,] - раптом по французьки сказав П'єр.
- Ah, Ah! - промовив офіцер, насупившись. - Marchons!
Близько улан зібрався натовп. Ближче всіх до П'єру стояла ряба баба з дівчинкою; коли об'їзд рушив, вона посунулася вперед.
- Куди ж це ведуть тебе, голубчику ти мій? - сказала вона. - Дівчинку то, дівчинку то куди я подіну, коли вона не їхня! - говорила баба.
- Qu "est ce qu" elle veut cette femme? [Чого їй треба?] - запитав офіцер.
П'єр був як п'яний. Захоплене стан його ще посилилося при вигляді дівчинки, яку він врятував.
- Ce qu "elle dit? - промовив він. - Elle m" apporte ma fille que je viens de sauver des flammes, - промовив він. - Adieu! [Чого їй треба? Вона несе дочку мою, яку я врятував з вогню. Прощай!] - і він, сам не знаючи, як вирвалася у нього ця безцільна брехня, рішучим, урочистим кроком пішов між французами.
Роз'їзд французів був один з тих, які були послані за розпорядженням Дюронеля по різних вулицях Москви для припинення мародерства і особливо для упіймання паліїв, які, за загальним, в той день проявився, думку у французів вищих чинів, були причиною пожеж. Об'їхавши кілька вулиць, роз'їзд забрав ще чоловік п'ять підозрілих російських, одного крамаря, двох семінаристів, мужика і дворового людини і кількох мародерів. Але з усіх підозрілих людей підозріліше всіх здавався П'єр. Коли їх всіх привели на нічліг до великого будинку на Зубовском валу, в якому була заснована гауптвахта, то П'єра під строгим караулом помістили окремо.

У Петербурзі в цей час у вищих колах, з великим запалом ніж коли небудь, йшла складна боротьба партій Румянцева, французів, Марії Федорівни, цесаревича і інших, заглушається, як завжди, трубеніем придворних трутнів. Але спокійна, розкішна, заклопотана тільки примарами, відображеннями життя, петербурзька життя йшло по старому; і через ходу цьому житті треба було робити великі зусилля, щоб усвідомлювати небезпеку і те скрутне становище, в якому перебував російський народ. Ті ж були виходи, бали, той же французький театр, ті ж інтереси дворів, ті ж інтереси служби та інтриги. Тільки в самих вищих колах робилися зусилля для того, щоб нагадувати труднощі цього положення. Розповідалося пошепки про те, як протилежно одна одній надійшли, в настільки важких обставинах, обидві імператриці. Імператриця Марія Теодорівна, заклопотана добробутом підвідомчих їй богоугодних і виховних установ, зробила розпорядження про відправку всіх інститутів в Казань, і речі цих закладів вже були укладені. Імператриця ж Єлизавета Олексіївна на питання про те, які йому до вподоби зробити розпорядження, з властивим їй російським патріотизмом зволила відповісти, що про державних установахвона не може робити розпоряджень, так як це стосується государя; про те ж, що особисто залежить від неї, вона зволила сказати, що вона остання виїде з Петербурга.

В Інституті лінгвістики РДГУ з 2012 року здійснюється підготовка магістрів за програмою магістратури Комп'ютерна лінгвістика(напрямок Фундаментальна та прикладна лінгвістика). Ця програма призначена для підготовки професійних лінгвістів, Які володіють як основами мовознавства, так і сучасними методаминауково-дослідної, експертно-аналітичної, інженерної роботи і здатних ефективно брати участь в розробці інноваційних мовних комп'ютерних технологій.

В освітньому процесіберуть участь розробники великих дослідних і комерційних систем в області автоматичної обробки тексту, що забезпечує зв'язок навчання магістрів з мейнстрімом сучасної комп'ютерної лінгвістики. Особлива увага приділяється участі магістрів в російських і міжнародних конференціях.

Серед викладачів автори базових підручників з лінгвістичним спеціальностями, фахівці світового рівня, керівники проектів великих систем автоматичної обробки мови: Я.Г. Тестелец, І.М. Богуславський, В.І. Бєліков, В.І. Подлесская, В.П. Селега, Л.Л. Іомдін, А.С. Старостін, С.А. Шаров, а також співробітники компаній, що є світовими лідерами в області комп'ютерної лінгвістики: IBM (система Watson), Яндекс, ABBYY (системи Lingvo, FineReader, Compreno).

Основою підготовки магістрів за даною програмою є проектний підхід. Залучення магістрантів до науково-дослідної роботи в галузі комп'ютерної лінгвістики відбувається на базі РДГУ та на базі компаній, що займаються розробкою програм в області АОТ (ABBYY, IBM і ін.), Що, безумовно, є великим плюсом як для самих магістрів, так і для їх можливих роботодавців. Зокрема, здійснюється прийом в магістратуру цільових магістрів, навчання яких забезпечується майбутніми роботодавцями.

Вступні іспити: "Формальні моделі та методи сучасної лінгвістики". Точну інформацію про час іспиту можна отримати на сайті відділу магістратури РДГУ.

Керівники магістратури - зав. Навчально-науковий центр комп'ютерної лінгвістики, директор по лінгвістичним дослідженням компанії ABBYY Володимир Павлович Селегаі д.ф.н., професор Віра Ісаківна Подлесская .

Програма вступного іспиту і співбесіди з дисципліни «Формальні моделі та методи сучасної лінгвістики».

Коментарі до програми

  • Будь-яке питання програми може супроводжуватися завданнями, пов'язаними з описами конкретних мовних явищ, що відносяться до розділу питання: побудови структур, опису обмежень, можливим алгоритмам побудови і / або ідентифікації.
  • Питання, відмічені зірочками, є факультативними (в квитках стоять під №3). Володіння відповідним матеріалом є серйозним бонусом для кандидатів, але не обов'язково.
  • Крім теоретичних питань у квитках на іспиті буде запропоновано невеличкий фрагмент спеціального (лінгвістичного) тексту англійською мовою - для перекладу і обговорення. Від вступників потрібна продемонструвати задовільний рівень володіння англомовною науковою термінологією і навичками аналізу наукового тексту. Як приклад тексту, який не повинен викликати у вступника серйозних труднощів, нижче наводиться фрагмент статті https://en.wikipedia.org/wiki/Anaphora_(linguistics):

In linguistics, anaphora (/ ənæfərə /) is the use of an expression whose interpretation depends upon another expression in context (its antecedent or postcedent). In a narrower sense, anaphora is the use of an expression that depends specifically upon an antecedent expression and thus is contrasted with cataphora, which is the use of an expression that depends upon a postcedent expression. The anaphoric (referring) term is called an anaphor. For example, in the sentence Sally arrived, but nobody saw her, the pronoun her is an anaphor, referring back to the antecedent Sally. In the sentence Before her arrival, nobody saw Sally, the pronoun her refers forward to the postcedent Sally, so her is now a cataphor (and an anaphor in the broader, but not the narrower, sense). Usually, an anaphoric expression is a proform or some other kind of deictic (contextually-dependent) expression. Both anaphora and cataphora are species of endophora, referring to something mentioned elsewhere in a dialog or text.

Anaphora is an important concept for different reasons and on different levels: first, anaphora indicates how discourse is constructed and maintained; second, anaphora binds different syntactical elements together at the level of the sentence; third, anaphora presents a challenge to natural language processing in computational linguistics, since the identification of the reference can be difficult; and fourth, anaphora tells some things about how language is understood and processed, which is relevant to fields of linguistics interested in cognitive psychology.

ТЕОРЕТИЧНІ ПИТАННЯ

ЗАГАЛЬНІ ПИТАННЯ МОВОЗНАВСТВА

  • Об'єкт лінгвістики. Мова і мова. Синхронна і диахрония.
  • Рівні мови. Формальні моделі рівнів мови.
  • Синтагматику і парадигматика. Поняття дистрибуції.
  • Підстави міжмовних порівнянь: типологічна, генеалогічна і ареальная лінгвістика.
  • * Математична лінгвістика: об'єкт і методи досліджень

ФОНЕТИКА

  • Предмет фонетики. Артикуляційна і акустична фонетика.
  • Сегментна і супрасегментних фонетика. Просодії і інтонація.
  • Основні поняття фонології. Типологія фонологічних систем і їх фонетичних реалізацій.
  • * Комп'ютерні інструменти і методи фонетичних досліджень
  • * Аналіз і синтез мови.

МОРФОЛОГІЯ

  • Предмет морфології. Морфи, морфеми, аломорфи.
  • Словозміна і словотвір.
  • граматичні значенняі способи їх реалізації. Граматичні категорії та граммеми. Морфологічні та синтаксичні граматичні значення.
  • Поняття словоформи, основи, леми і парадигми.
  • Частини мови; основні підходи до виділення частин мови.
  • * Формальні моделі опису словозміни і словотворення.
  • * Морфологія в задачах автоматичної обробки мови: перевірка орфографії, лематизації, POS-tagging

СИНТАКСИС

  • Предмет синтаксису. Способи вираження синтаксичних відносин.
  • Способи подання синтаксичної структури пропозиції. Переваги та недоліки дерев залежностей і складових.
  • Способи опису лінійного порядку. Непроектівность і розрив складових. Поняття трансформації; трансформації, пов'язані з лінійним порядком.
  • Зв'язок між синтаксисом і семантикою: валентності, моделі управління, актанти і сірконстанти.
  • Діатезу і заставу. Актантная деривация.
  • Комунікативна організація висловлювання. Тема і рема, дане і нове, контрастивної.
  • * Основні сінтаксічеcкіе теорії: МСТ, генератівізм, функціональна граматика, HPSG
  • * Математичні моделі синтаксису: класифікація формальних мов по Хомського, алгоритми розпізнавання та їх складність.

СЕМАНТИКА

  • Предмет семантики. Наївна і наукова мовні картини світу. Гіпотеза Сепіра - Уорфа.
  • Значення в мові та мовленні: сенс і референт. Тип референції (денотатівний статус).
  • Лексична семантика. Способи опису семантики слова.
  • Граматична семантика. Основні категорії на прикладі російської мови.
  • Семантика пропозиції. Пропозіціональний компонент. Дейксис і анафора. Квантори і зв'язки. Модальність.
  • Ієрархія і системність лексичних значень. Полісемія і омонімія. Семантична структура багатозначного слова. Поняття інваріанта і прототипу.
  • Парадигматичні та синтагматичні відносини в лексиці. Лексичні функції.
  • Тлумачення. Мова тлумачень. Московська семантична школа
  • Семантика і логіка. Істінностное значення висловлювання.
  • Теорія мовних актів. Висловлення і його иллокутивная сила. Перформатіви. Класифікація мовних актів.
  • Фразеологія: інвентар і способи опису фразеологічних одиниць.
  • * Моделі і методи формальної семантики.
  • * Моделі семантики в сучасній комп'ютерної лінгвістики.
  • * Дистрибутивная і операциональная семантики.
  • * Основні ідеї граматики конструкцій.

ТИПОЛОГІЯ

  • Традиційні типологічні класифікації мов.
  • Типологія граматичних категорій імені та дієслова.
  • типологія простого пропозиції. Основні типи конструкцій: акузативний, ергатівная, активна.
  • Типологія порядку слів і грінберговскіе кореляції. Ліво- і правоветвящіеся мови.

Лексикографія

  • Лексика як інвентар культури; соціальне варіювання лексики, лексичні узус, норма, кодифікація.
  • Типологія словників (російською матеріалі). Відображення лексики в словниках різних типів.
  • Двомовна лексикографія із залученням російської мови.
  • Дескриптивная і прескриптивна лексикографія. Професійні лінгвістичні словники.
  • Специфіка основних російських тлумачних словників. структура словникової статті. Тлумачення і енциклопедична інформація.
  • Лексика і граматика. Подання про інтегральної моделі мови в Московській семантичної школі.
  • * Методика роботи лексикографа.
  • * Корпусні методи в лексикографії.

ЛИНГВИСТИКА ТЕКСТУ І ДИСКУРС

  • Поняття тексту та дискурсу.
  • Механізми межфразовой зв'язку. Основні різновиди засобів їх мовної реалізації.
  • Пропозиція як одиниця мови і як елемент тексту.
  • Надфразовою єдності, принципи їх формування та виділення, основні властивості.
  • Основні категорії класифікації текстів (жанр, стиль, регістр, предметна областьі т.д)
  • * Методи автоматичної жанрової классфікаціі.

соціолінгвістики

  • Проблема предмета і меж соціолінгвістики, її міждисциплінарний характер. Основні поняття соціології та демографії. Рівні мовної структури і соціолінгвістика. Основні поняття та напрямки соціолінгвістики.
  • Мовні контакти. Білінгвізм і диглоссия. Дівергентние і конвергентні процеси в історії мови.
  • Соціальна диференціація мови. Форми існування мови. Літературна мова: узус-норма-кодифікація. Функціональні сфери мови.
  • Мовна соціалізація. Ієрархічний характер соціальної і мовної ідентичності. Мовна поведінка індивіда і його комунікативний репертуар.
  • Методи соціолінгвістичних досліджень.

КОМП'ЮТЕРНА ЛИНГВИСТИКА

  • Завдання і методи комп'ютерної лінгвістики.
  • Корпусна лінгвістика. Основні характеристики корпусу.
  • Подання знань. Основні ідеї теорії фреймів М. Мінського. Система FrameNet.
  • Тезауруси і онтології. WordNet.
  • Основи статистичного аналізу текстів. Частотні словники. Аналіз колокацій.
  • * Поняття машинного навчання.

ЛІТЕРАТУРА

Навчальна (базовий рівень)

Баранов А.Н.Введення в прикладну лінгвістику. М .: Едіторіал УРРС, 2001..

Баранов А.Н., Добровольський Д.О.Основи фразеології (короткий курс) Навчальний посібник. 2-е видання. Москва: Флінта, 2014.

Бєліков В.А., КРИСІН Л.П.Соціолінгвістика. М., РДГУ, 2001..

Бурлак С.А., Старостін С.А.Порівняльно-історичне мовознавство. М .: Академія. 2005

Вахтин Н.Б., Головко О.В ..Соціолінгвістика і соціологія мови. Спб., 2004.

Князєв С. В., Пожарицька С. К.Сучасна російська літературна мова: Фонетика, графіка, орфографія, орфоепія. 2 изд. М. 2010

Кобозева І.М.Лінгвістична семантика. М .: Едіторіал УРСС. 2004.

Кодзасов С.В., Крівнова О.Ф. Загальна фонетика. М .: РДГУ, 2001..

Кронгауз М.А.Семантика. М .: РДГУ. 2001.

Кронгауз М.А.Семантика: Завдання, завдання, тексти. М .: Академія. 2006 ..

Маслов Ю.С.Ведення до мовознавства. Вид. 6-е, стер. М .: Академія, філ. фак. СПбГУ,

Плунгян В.А.Загальна морфологія: Введення в проблематику. Вид. 2-е. М .: Едіторіал УРСС, 2003.

Тестелец Я.Г.Введення в загальний синтаксис. М., 2001..

Шайкевич А.Я.Введення в лінгвістику. М .: Академія. 2005.

Наукова і довідкова

Апресян Ю.Д.Вибрані праці, том I. Лексична семантика: 2-е изд., Ісп. і доп. М .: Школа "Мови російської культури", 1995.

Апресян Ю.Д.Вибрані праці, том II. Інтегральний опис мови і системна лексикографія. М .: Школа "Мови російської культури", 1995.

Апресян Ю.Д.(Ред.) Новий пояснювальний словник синонімів російської мови. Москва - Відень: "Мови російської культури", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Апресян Ю.Д.(Ред.) Мовна картина світу і системна лексикографія (відп. Ред. Ю. Д. Апресян). М .: "Мови слов'янських культур", 2006, Передмова і гл. 1, с.26 - 74.

Булигіна Т.В., Шмельов А.Д.Мовна концептуалізація світу (на матеріалі російської граматики). М .: Школа "Мови російської культури", 1997.

Вайнрайх У.Мовні контакти. Київ, 1983.

ВежбицкаяСемантичні універсалії і опис мов. М .: Школа "Мови російської культури". 1999.

Гальперін І.Р.Текст як об'єкт лінгвістичного дослідження. 6-е изд. М .: ЛКИ, 2008 ( "Лінгвістичний спадщина XX століття")

Залізняк А.А."Російська іменна словозміна" з додатком вибраних робіт з сучасної російської мови та загального мовознавства. М .: Мови слов'янської культури, 2002.

Залізняк А.А., Падучева Є.В.До типології відносного пропозиції. / Смуток і інформатика, вип. 35. М., 1997, с. 59-107.

Іванов Вяч. Нд ..Лінгвістика третього тисячоліття. Питання до майбутнього. М., 2004. С. 89-100 (11. Мовна ситуація світу і прогноз на найближче майбутнє).

Кибрик А.Є.Нариси з загальним і прикладних питань мовознавства. М .: Изд-во МГУ, 1992.

Кибрик А.Є.Константи і змінні мови. СПб: Алетейя, 2003.

Лабов У.Про механізм мовних змін // Нове в лінгвістиці. Вип.7. М., 1975. С.320-335.

Лайонз Дж.Лінгвістична семантика: Введення. М .: Мови слов'янської культури. 2003.

Лайонс Джон.Мова і лінгвістика. Вступний курс. М: УРСС, 2004

Лакофф Дж.Жінки, вогонь і небезпечні речі: Що категорії мови говорять нам про мисленні. М .: Мови слов'янської культури. 2004.

Лакофф Дж., Джонсон М. Метафори, якими ми живемо. Пер. з англ. Изд.2. М .: УРСС. 2008.

Лінгвістичний енциклопедичний словник / За ред. В.І. Ярцевої. М .: Наукове вид-во «Велика російська енциклопедія», 2002..

Мельчук І.А.Курс загальної морфології. Тт. I-IV. Москва-Відень: "Мови слов'янської культури", Wiener Slavistischer Almanach, Sonderband 38 / 1-38 / 4, 1997-2001.

Мельчук І. А.Досвід теорії лінгвістичних моделей «СЕНС ↔ ТЕКСТ». М .: Школа "Мови російської культури", 1999..

Федорова Л.Л.Смуток. М., 2004.

Філіппов К. А.Лінгвістика тексту: Курс лекцій - 2-е изд., Ісп. і доп. Вид. С.-Петерб. ун-ту, 2007.

Haspelmath, M., et al. (Eds.). World Atlas of Language Structures. Oxford, 2005.

Dryer, M.S. and Haspelmath, M.(Eds.) The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology, 2013. (http://wals.info)

Croft W. Typology and Universals. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.). Language Typology and Syntactic Description. 2nd edition. Cambridge, 2007.

В. І. Бєліков. Про словниках, «що містять норми сучасної російської літературної мови при її використанні як державної мови Російської Федерації». 2010 // Портал Грамота.Ру (http://gramota.ru/biblio/research/slovari-norm)

Комп'ютерна лінгвістика та інтелектуальні технології: За матеріалами щорічної Міжнародної конференції «Діалог». Вип. 1-11. - М .: Изд-во Наука, через у РДГУ, 2002-2012. (Статті з комп'ютерної лінгвістики, http://www.dialog-21.ru).

Національний корпус російської мови: 2006-2008. Нові результати і перспективи. / Відп. ред. В. А. Плунгян. - СПб .: Нестор-Історія 2009.

Нове в зарубіжній лінгвістиці. Вип. XXIV, Комп'ютерна лінгвістика / Упоряд. Б. Ю. Городецький. М .: Прогрес, 1989.

Шимчук Е. Г. Російська лексикографія: Навчальний посібник. М .: Академія 2009.

Національний корпус російської мови: 2003-2005. Збірник статей. М .: Індрік, 2005.

Для контактів:

Навчально-науковий центр комп'ютерної лінгвістики Інституту лінгвістики РДГУ

Зміст статті

КОМП'ЮТЕРНА ЛИНГВИСТИКА,напрямок в прикладної лінгвістики, Орієнтоване на використання комп'ютерних інструментів - програм, комп'ютерних технологій організації та обробки даних - для моделювання функціонування мови в тих чи інших умовах, ситуаціях, проблемних сферах і т.д., а також вся сфера застосування комп'ютерних моделей мови в лінгвістиці та суміжних дисциплінах. Власне, тільки в останньому випадку і йдеться про прикладної лінгвістики в строгому сенсі, оскільки комп'ютерне моделювання мови може розглядатися і як сфера докладання інформатики і теорії програмування до вирішення завдань науки про мову. На практиці, однак, до комп'ютерної лінгвістики відносять практично все, що пов'язано з використанням комп'ютерів в мовознавстві.

Як особливе науковий напрямок комп'ютерна лінгвістика оформилася в 1960-і роки. Російський термін «комп'ютерна лінгвістика» є калькою з англійської computational linguistics. Оскільки прикметник computational по-російськи може перекладатися і як «обчислювальний», в літературі зустрічається також термін «обчислювальна лінгвістика», однак у вітчизняній науці він набуває більш вузьке значення, що наближається до поняття «квантитативной лінгвістики». Потік публікацій в цій області дуже великий. Крім тематичних збірок, в США щоквартально виходить журнал «Комп'ютерна лінгвістика». Велику організаційну і наукову роботу проводить Асоціація з комп'ютерної лінгвістики, яка має регіональні структури (зокрема, європейське відділення). Кожні два роки проходять міжнародні конференції з комп'ютерної лінгвістики - COLING. Відповідна проблематика зазвичай буває широко представлена ​​також на різних конференціях зі штучного інтелекту.

Інструментарій комп'ютерної лінгвістики.

Комп'ютерна лінгвістика як особлива прикладна дисципліна виділяється перш за все по інструменту - тобто по використанню комп'ютерних засобів обробки мовних даних. Оскільки комп'ютерні програми, що моделюють ті чи інші аспекти функціонування мови, можуть використовувати найрізноманітніші засоби програмування, то про загальний понятійному апараті комп'ютерної лінгвістики говорити начебто не доводиться. Однак це не так. Існують загальні принципи комп'ютерного моделювання мислення, які так чи інакше реалізуються в будь-який комп'ютерної моделі. В їх основі лежить теорія знань, спочатку розроблялася в області штучного інтелекту, а в подальшому стала одним з розділів когнітивної науки. Найважливішими понятійним категоріями комп'ютерна лінгвістика є такі структури знань, як «фрейми» (понятійні, або, як прийнято говорити, концептуальні структури для декларативного подання знань про типизированной тематично єдиної ситуації), «сценарії» (концептуальні структури для процедурного представлення знань про стереотипної ситуації або стереотипному поведінці), «плани» (структури знань, здатні фіксувати уявлення про можливі дії, що ведуть до досягнення певної мети). Тісно пов'язане з категорією фрейму поняття «сцена». Категорія сцени переважно використовується в літературі з комп'ютерної лінгвістики як позначення концептуальної структури для декларативного подання актуалізовані в мовному акті і виділених мовними засобами (лексемами, синтаксичними конструкціями, граматичними категоріями і ін.) Ситуацій і їх частин.

Певним чином організований набір структур знань формує «модель світу» когнітивної системи і її комп'ютерної моделі. У системах штучного інтелекту модель світу утворює особливий блок, в який в залежності від обраної архітектури можуть входити загальні знання про світ (у вигляді простих пропозицій типу «взимку холодно» або у вигляді правил продукцій «якщо на вулиці йде дощ, то треба надіти плащ або взяти парасольку »), деякі специфічні факти (« Найвища вершина в світі - Еверест »), а також цінності і їх ієрархії, іноді виділяються в особливий« аксіологічний блок ».

Більшість елементів понять інструментарію комп'ютерної лінгвістики омонімічно: вони одночасно позначають деякі реальні сутності когнітивної системи людини і способи подання цих сутностей, що використовуються при їх теоретичному описі й моделюванні. Іншими словами, елементи понятійного апарату комп'ютерної лінгвістики мають онтологічний і інструментальний аспекти. Наприклад, в онтологічному аспекті поділ декларативних і процедурних знань відповідає різним типам знань, що є у людини - так званим знань ЩО (декларативним; таке, наприклад, знання поштової адреси будь-якого NN), з одного боку, і знань ЯК (процедурним; таке , наприклад, знання, що дозволяє знайти квартиру цього NN, навіть не знаючи її формального адреси) - з іншого. В інструментальному аспекті знання може бути втілено в сукупності дескрипций (описів), в наборі даних, з одного боку, і в алгоритмі, інструкції, яку виконує комп'ютерна або будь-яка інша модель когнітивної системи, з іншого.

Напрямки комп'ютерної лінгвістики.

Сфера КЛ досить різноманітна і включає такі області, як комп'ютерне моделювання спілкування, моделювання структури сюжету, гіпертекстові технології подання тексту, машинний переклад, Комп'ютерна лексикографія. У вузькому сенсі проблематика КЛ часто пов'язується з міждисциплінарним прикладним напрямкомз дещо невдалою назвою«Обробка природної мови» (переклад англійського терміна Natural Language Processing). Воно виникло в кінці 1960-х років і розвивалося в рамках науково-технологічної дисципліни «штучний інтелект». За своєю внутрішньою формою словосполучення «обробка природної мови» охоплює всі області, в яких комп'ютери використовуються для обробки мовних даних. Тим часом в практиці закріпилося більш вузьке розуміння цього терміна - розробка методів, технологій і конкретних систем, що забезпечують спілкування людини з ЕОМ на природній або обмеженій природній мові.

Бурхливий розвиток напряму «обробки природної мови» доводиться на 1970-ті роки, що було пов'язано з несподіваним ростом кількості кінцевих користувачів ЕОМ. Оскільки навчання мовам та технології програмування всіх користувачів неможливо, виникла проблема організації взаємодії з комп'ютерними програмами. Вирішення цієї проблеми комунікації йшло за двома основними шляхами. У першому випадку були спроби адаптації мов програмування і операційних систем до кінцевого користувача. В результаті з'явилися мови високого рівнятипу Visual Basic, а також зручні Операційні системи, Побудовані в концептуальному просторі звичних людині метафор - ПИСЬМОВИЙ СТІЛ, БІБЛІОТЕКА. Другий шлях - розробка систем, які дозволяли б взаємодіяти з ЕОМ в конкретній проблемній області на природній мові або якомусь його обмеженому варіанті.

Архітектура систем обробки природної мови в загальному випадку включає блок аналізу мовного повідомлення, написані, блок інтерпретації повідомлення, блок породження сенсу відповіді і блок синтезу поверхневої структури висловлювання. Особливою частиною системи є діалоговий компонент, в якому зафіксовані стратегії ведення діалогу, умови застосування цих стратегій, способи подолання можливих комунікативних невдач (збоїв в процесі спілкування).

Серед комп'ютерних систем обробки природної мови зазвичай виділяються питально-відповідні системи, діалогові системи вирішення завдань і системи обробки зв'язкових текстів. Спочатку питально-відповідні системи стали розроблятися як реакція на погану якість кодування запитів при пошуку інформації в інформаційно-пошукових системах. Оскільки проблемна область таких систем була сильно обмежена, це кілька спрощувало алгоритми перекладу запитів в уявлення на формальній мові і зворотну процедуру перетворення формального подання до висловлювання на природній мові. З вітчизняних розробок до програм такого типу відноситься система ПОЕТ, створена колективом дослідників під керівництвом Е.В.Попова. Система обробляє запити російською мовою (з невеликими обмеженнями) і синтезує відповідь. Блок-схема програми передбачає проходження всіх етапів аналізу (морфологічного, синтаксичного і семантичного) і відповідних етапів синтезу.

Діалогові системи вирішення завдань, на відміну від систем попереднього типу, грають в комунікації активну роль, оскільки їх завдання полягає в тому, щоб отримати рішення проблеми на основі тих знань, які представлені в ній самій, і тієї інформації, яку можна отримати від користувача. Система містить структури знань, в яких фіксуються типові послідовності дій для вирішення завдань у цій проблемної області, а також відомості про необхідні ресурси. Коли користувач задає питання або ставить певну задачу, активізується відповідний сценарій. Якщо якісь компоненти сценарію пропущені або відсутні якісь ресурси, система виступає ініціатором комунікації. Так працює, наприклад, система SNUKA, вирішальна завдання планування військових операцій.

Системи обробки зв'язкових текстів досить різноманітні за структурою. Їх спільною рисою можна вважати широке використання технологій представлення знань. Функції систем такого роду полягають в розумінні тексту і відповідях на питання про його зміст. Розуміння розглядається не як універсальна категорія, а як процес добування інформації з тексту, який визначається конкретним комунікативним наміром. Іншими словами, текст «прочитується» тільки з установкою на те, що саме потенційний користувач захоче дізнатися про нього. Тим самим і системи обробки зв'язкових текстів виявляються аж ніяк не універсальними, а проблемно-орієнтованими. Типовими прикладами систем обговорюваного типу можуть служити системи RESEARCHER і TAILOR, що утворюють єдиний програмний комплекс, що дозволяє користувачеві отримати інформацію з рефератів патентів, що описують складні фізичні об'єкти.

Найважливішим напрямком комп'ютерної лінгвістики є розробка інформаційно-пошукових систем (ІПС). Останні виникли в кінці 1950-х - початку 1960-х років як відповідь на різке зростання обсягів науково-технічної інформації. За типом інформації, що зберігається і оброблюваної інформації, а також про особливості пошуку ІПС поділяються на дві великі групи - документальні і фактографічні. У документальних ІПС зберігаються тексти документів або їх опису (реферати, бібліографічні картки і т.д.). Фактографічні ІПС мають справу з описом конкретних фактів, причому не обов'язково в текстовій формі. Це можуть бути таблиці, формули та інші види представлення даних. Існують і змішані ІПС, що включають як документи, так і фактографічну інформацію. В даний час фактографічні ІПС будуються на основі технологій баз даних (БД). Для забезпечення інформаційного пошуку в ІПС створюються спеціальні інформаційно-пошукові мови, в основі яких лежать інформаційно-пошукові тезауруси. Інформаційно-пошукова мова - це формальна мова, призначена для опису окремих аспектів плану змісту документів, що зберігаються в ІПС, і запиту. Процедура опису документа на інформаційно-пошуковому мовою називається індексуванням. В результаті індексування кожного документу приписується його формальний опис на інформаційно-пошуковому мовою - пошуковий образ документа. Аналогічним чином індексується і запит, якому приписується пошуковий образ запиту і пошукове припис. Алгоритми інформаційного пошуку засновані на порівнянні пошукового розпорядження з пошуковим чином запиту. Критерій видачі документа на запит може складатися в повному або частковому збігу пошукового образу документа і пошукового розпорядження. У ряді випадків користувач має можливість сам сформулювати критерії видачі. Це визначається його інформаційною потребою. В автоматизованих ІПС частіше використовуються дескрипторного інформаційно-пошукові мови. Тематика документа описується сукупністю дескрипторів. Як дескрипторів виступають слова, терміни, що позначають прості, досить елементарні категорії і поняття проблемної області. У пошуковий образ документа вводиться стільки дескрипторів, скільки різних тем зачіпається в документі. Кількість дескрипторів не обмежується, що дозволяє описати документ в багатовимірної матриці ознак. Часто в дескрипторного інформаційно-пошуковому мовою накладаються обмеження на сполучуваність дескрипторів. В цьому випадку можна говорити про те, що інформаційно-пошукова мова має синтаксисом.

Одна з перших систем, які працювали з дескрипторного мовою, була американська система УНІТЕРМ, створена М.Таубе. Як дескрипторів в цій системі функціонували ключові слова документа - унітерми. Особливість цієї ІПС полягає в тому, що спочатку словник інформаційного мови не задавався, а виникав в процесі індексування документа і запиту. Розвиток сучасних інформаційно-пошукових систем пов'язано з розробкою ІПС бестезаурусного типу. Такі ІПС працюють з користувачем на обмеженій природній мові, а пошук здійснюється за текстами рефератів документів, по їх бібліографічним описам, а часто і по самих документів. Для індексування в ІПС бестезаурусного типу використовуються слова і словосполучення природної мови.

До області комп'ютерної лінгвістики в певній мірі можуть бути віднесені роботи в області створення гіпертекстових систем, що розглядаються як особливий спосіб організації тексту і навіть як принципово новий вид тексту, протиставлений за багатьма своїми властивостями звичайного тексту, сформованому в гутенберговской традиції друкарства. Ідея гіпертексту зв'язується з ім'ям Ванневара Буша - радника президента Ф.Рузвельта по науці. В. Бушем теоретично обгрунтував проект технічної системи «Мемекс», яка дозволяла користувачеві пов'язувати тексти і їх фрагменти по різним типам зв'язків, переважно по асоціативним відносинам. Відсутність комп'ютерної техніки зробило проект, який важко буде, оскільки механічна система виявилась занадто складною для практичного втілення.

Ідея Буша в 1960-і роки отримала друге народження в системі «Ксанаду» Т.Нельсона, яка вже передбачала використання комп'ютерної техніки. «Ксанаду» дозволяв користувачеві прочитувати сукупність введених в систему текстів різними способами, В різній послідовності, програмне забезпечення давало можливість як запам'ятовувати послідовність переглянутих текстів, так і вибирати з них практично будь-який в довільний момент часу. Безліч текстів зі зв'язують їх відносинами (системою переходів) було названо Т.Нельсоном гіпертекстом. Багато дослідників розглядають створення гіпертексту як початок нової інформаційної епохи, котра протиставила ері друкарства. Лінійність листи, зовні відбиває лінійність мови, виявляється фундаментальною категорією, яка обмежує мислення людини і розуміння тексту. Світ сенсу нелинеен, тому стиснення смислової інформації в лінійному мовному відрізку вимагає використання спеціальних «комунікативних упаковок» - членування на тему і РЕМу, поділ плану змісту висловлювання на експліцитні (твердження, пропозиція, фокус) і імпліцитні (пресуппозиция, наслідок, імплікатури дискурсу) шари . Відмова від лінійності тексту і в процесі його уявлення читачеві (тобто при читанні і розумінні) і в процесі синтезу, на думку теоретиків, сприяв би «звільнення» мислення і навіть виникнення його нових форм.

У комп'ютерній системі гіпертекст представлений у вигляді графа, в вузлах якого знаходяться традиційні тексти або їх фрагменти, зображення, таблиці, відеоролики і т.д. Вузли зв'язані різноманітними відносинами, типи яких задаються розробниками програмного забезпечення гіпертексту або самим читачем. Відносини задають потенційні можливості пересування, або навігації по гіпертексту. Відносини можуть бути односпрямованим або двонаправленими. Відповідно, двонаправлені стрілки дозволяють рухатися користувачеві в обидві сторони, а односпрямовані - тільки в одну. Ланцюжок вузлів, через які проходить читач при перегляді компонентів тексту, утворює шлях, або маршрут.

Комп'ютерні реалізації гіпертексту бувають ієрархічними або мережевими. Ієрархічне - деревоподібна - будова гіпертексту істотно обмежує можливості переходу між його компонентами. В такому гіпертексті відносини між компонентами нагадують структуру тезауруса, заснованого на родо-видових зв'язках. Мережевий гіпертекст дозволяє використовувати різні типи відносин між компонентами, не обмежуючись відносинами «рід - вид». За способом існування гіпертексту виділяються статичні і динамічні гіпертексту. Статичний гіпертекст не змінюється в процесі експлуатації; в ньому користувач може фіксувати свої коментарі, однак вони не змінюють суть справи. Для динамічного гіпертексту зміна є нормальною формою існування. Зазвичай динамічні гіпертексту функціонують там, де необхідно постійно аналізувати потік інформації, тобто в інформаційних службах різного роду. Гіпертекстової є, наприклад, Аризонская інформаційна система (AAIS), яка щомісяця поповнюється на 300-500 рефератів в місяць.

Відносини між елементами гіпертексту можуть спочатку фіксуватися творцями, а можуть породжуватися щоразу, коли відбувається звернення користувача до гіпертексту. У першому випадку мова йде про гипертекстах жорсткої структури, а в другому - про гипертекстах м'якої структури. Жорстка структура технологічно цілком зрозуміла. Технологія організації м'якої структури має базуватися на семантичному аналізі близькості документів (або інших джерел інформації) один до одного. Це нетривіальне завдання комп'ютерної лінгвістики. В даний час широко поширене використання технологій м'якої структури на ключових словах. Перехід від одного вузла до іншого в мережі гіпертексту здійснюється в результаті пошуку ключових слів. Оскільки набір ключових слів кожен раз може відрізнятися, щоразу змінюється і структура гіпертексту.

Технологія побудови гіпертекстових систем не робить різниці між текстової та нетекстової інформацією. Тим часом включення візуальної та звукової інформації (відеороликів, картин, фотографій, звукозаписів тощо) вимагає істотної зміни інтерфейсу з користувачем і більш потужної програмної та комп'ютерної підтримки. Такі системи отримали назву гіпермедіа, або мультимедіа. Наочність мультимедійних систем визначила їх широке використання в навчанні, в створенні комп'ютерних варіантів енциклопедій. Існують, наприклад, прекрасно виконані CD-роми з мультимедійними системами по дитячим енциклопедій видавництва «Дорлін Кіндерслі».

В рамках комп'ютерної лексикографії розробляються комп'ютерні технології складання і експлуатації словників. Спеціальні програми - бази даних, комп'ютерні картотеки, програми обробки тексту - дозволяють в автоматичному режимі формувати словникові статті, зберігати словникову інформацію і обробляти її. Безліч різних комп'ютерних лексикографічних програм поділяються на дві великі групи: програми підтримки лексикографічних праць та автоматичні словники різних типів, що включають лексикографічні бази даних. Автоматичний словник - це словник в спеціальному машинному форматі, призначений для використання на ЕОМ користувачем або комп'ютерною програмою обробки тексту. Іншими словами, розрізняються автоматичні словники кінцевого користувача-людини і автоматичні словники для програм обробки тексту. Автоматичні словники, призначені для кінцевого користувача, по інтерфейсу і структурі словникової статті істотно відрізняються від автоматичних словників, включених в системи машинного перекладу, системи автоматичного реферування, інформаційного пошуку і т.д. Найчастіше вони є комп'ютерними версіями добре відомих звичайних словників. На ринку програмного забезпечення є комп'ютерні аналоги тлумачних словників англійської мови (автоматичний Вебстер, автоматичний тлумачний словниканглійської мови видавництва Коллінз, автоматичний варіант Нового великого англо-російського словникапід ред. Ю.Д.Апресян і Е.М.Медніковой), існує і комп'ютерна версія словника Ожегова. Автоматичні словники для програм обробки тексту можна назвати автоматичними словниками в точному сенсі. Вони, як правило, не призначені для звичайного користувача. Особливості їх структури, сфера охоплення словникового матеріалу задаються тими програмами, які з ними взаємодіють.

Комп'ютерне моделювання структури сюжету - ще один перспективний напрям комп'ютерної лінгвістики. Вивчення структури сюжету відноситься до проблематики структурного літературознавства (в широкому сенсі), семіотики та культурології. Наявні комп'ютерні програми моделювання сюжету грунтуються на трьох базових формалізму подання сюжету - морфологічному і синтаксичному напрямках уявлення сюжету, а також на когнітивному підході. Ідеї ​​про морфологічному пристрої структури сюжету сягають відомих робітВ. Я. Проппа ( см.) Про російську чарівній казці. Пропп зауважив, що попри велику кількість персонажів і подій чарівної казки кількість функцій персонажів обмежена, і запропонував апарат для опису цих функцій. Ідеї ​​Проппа лягли в основу комп'ютерної програми TALE, що моделює породження сюжету казки. В основу алгоритму програми TALE покладена послідовність функцій персонажів казки. Фактично функції Проппа задавали безліч типізованих ситуацій, упорядкованих на основі аналізу емпіричного матеріалу. можливості зчеплення різних ситуаційв правилах породження визначалися типовою послідовністю функцій - в тому вигляді, в якому це вдається встановити з текстів казок. У програмі типові послідовності функцій описувалися як типові сценарії зустрічей персонажів.

Теоретичну основу синтаксичного підходу до сюжету тексту склали «сюжетні граматики», або «граматики оповідання» (story grammars). Вони з'явилися в середині 1970-х років в результаті перенесення ідей граматики Н. Хомського на опис макроструктури тексту. Якщо найважливішими складовими синтаксичної структури в породжує граматиці були дієслівні і іменні групи, то в більшості сюжетних граматик в якості базових виділялися експозиція (setting), подія і епізод. В теорії сюжетних граматик широко обговорювалися умови мінімальності, тобто обмеження, що визначали статус послідовності з елементів сюжету як нормальний сюжет. Виявилося, однак, що чисто лінгвістичними методами це зробити неможливо. Багато обмеження носять соціокультурний характер. Сюжетні граматики, істотно розрізняючись набором категорій в дереві породження, допускали вельми обмежений набір правил модифікації оповідної (наративної) структури.

На початку 1980-х років однією з учениць Р.Шенка - В.Ленерт в рамках робіт зі створення комп'ютерного генератора сюжетів був запропонований оригінальний формалізм емоційних сюжетних одиниць (Affective Plot Units), який опинився потужним засобом представлення структури сюжету. При тому, що він був спочатку розроблений для системи штучного інтелекту, цей формалізм використовувався в чисто теоретичних дослідженнях. Сутність підходу Ленерт полягала в тому, що сюжет описувався як послідовна зміна когнітивно-емоційних станів персонажів. Тим самим в центрі уваги формалізму Ленерт стоять не зовнішні компоненти сюжету - експозиція, подія, епізод, мораль, - а його змістовні характеристики. В цьому відношенні формалізм Ленерт частково виявляється поверненням до ідей Проппа.

До компетенції комп'ютерної лінгвістики відноситься і машинний переклад, який переживає в даний час друге народження.

література:

Попов Е.В. Спілкування з ЕОМ на природній мові. М., 1982
Садур В.Г. мовне спілкуванняз електронно-обчислювальними машинами і проблеми їх розвитку. - В кн .: Мовне спілкування: проблеми і перспективи. М., 1983
Баранов А.Н. Категорії штучного інтелекту в лінгвістичної семантикою. Фрейми і сценарії. М., 1987
Кобозева І.М., Лауфер Н.І., Сабурова І.Г. Моделювання спілкування в людино-машинних системах. - Лінгвістичний забезпечення інформаційних систем. М., 1987
Олкер Х.Р. Чарівні казки, трагедії і способи виклад світової історії. - В кн .: Мова і моделювання соціального взаємодії. М., 1987
Городецький Б.Ю. Комп'ютерна лінгвістика: моделювання мовного спілкування
Маккьюін К. Дискурсивні стратегії для синтезу тексту на природній мові. - Нове в зарубіжній лінгвістиці. Вип. XXIV, Комп'ютерна лінгвістика. М., 1989
Попов Е.В., Преображенський А.Б . Особливості реалізації ПМ-систем
Преображенський А.Б. Стан розвитку сучасних ПМ-систем. - Штучний інтелект. Кн. 1, Системи спілкування та експертні системи. М., 1990.
Суботін М.М. Гіпертекст. Нова форма письмової комунікації. - ВІНІТІ, Сер. Інформатика, 1994, т. 18
Баранов А.Н. Введення в прикладну лінгвістику. М., 2000.



Комп'ютерні лінгвісти займаються розробкою алгоритмів розпізнавання тексту і усної мови, синтезом штучної мови, створенням систем семантичного перекладу і самим розвитком штучного інтелекту (в класичному сенсі слова - як заміна людському - він навряд чи коли-небудь з'явиться, але зате виникнуть різні експертні системи, засновані на аналізі даних).

Алгоритми розпізнавання мови будуть все більше використовуватися в побуті - у «розумних будинків» і електронних приладів не буде пультів і кнопок, а замість них буде використовуватися голосовий інтерфейс. Ця технологія відточується, але викликів ще багато: комп'ютера складно розпізнати людську мову, тому що різні люди говорять дуже по-різному. Тому, як правило, системи розпізнавання працюють добре або коли вони натреновані на одного диктора і вже підлаштовані під його особливості вимови, або коли кількість фраз, які може розпізнати система, обмежена (як, наприклад, в голосових командах для телевізора).

У фахівців зі створення програм семантичного перекладу попереду ще багато роботи: на даний момент непогані алгоритми розроблені тільки для перекладу на англійську і з англійської. Тут багато проблем - різні мовипо-різному влаштовані в семантичному плані, це різниться навіть на рівні побудови фраз, і не всі смисли однієї мови можна передати за допомогою семантичного апарату іншого. Крім того, програма повинна розрізняти омоніми, правильно розпізнавати частини мови, вибрати правильне значення багатозначного слова, що підходить до контексту.

Синтез штучної мови (наприклад, для домашніх роботів) - теж копітка робота. Складно зробити так, щоб штучно створена мова звучала природно для людського вуха, адже є мільйони нюансів, на які ми не звертаємо уваги, але без яких все вже не «то» - фальстарти, паузи, затримки і т.д. Мовний потік безперервний і одночасно дискретний: ми говоримо, не роблячи паузи між словами, але нам неважко зрозуміти, де закінчується одне слово і починається інше, а для машини це буде велика проблема.

Найбільше напрямок у комп'ютерній лінгвістиці пов'язане з Big Data. Адже існують величезні корпусу текстів типу новинних стрічок, з яких потрібно виокремлювати певну інформацію - наприклад, виділяти інфоприводи або заточувати RSS під смаки певного користувача. Такі технології є вже cейчас і буде розвиватися далі, тому що обчислювальні потужності стрімко ростуть. лінгвістичний аналізтекстів використовується і при забезпеченні безпеки в інтернеті, пошуку необхідної інформації для спецслужб.

Де вчитися на комп'ютерного лінгвіста? У нас, на жаль, досить сильно розділені спеціальності, пов'язані з класичною лінгвістикою, і програмування, статистика, аналіз даних. А для того, щоб стати цифровим лінгвістом, потрібно розбиратися і в тому, і в іншому. У зарубіжних вузах є програми вищої освіти з комп'ютерної лінгвістики, а у нас поки оптимальний варіант - отримати базову лінгвістичну освіту, а потім освоїти основи IT. Добре, що зараз є багато різних онлайн-курсів, на жаль, в мої студентські роки такого не було. Я вчилася на факультеті прикладної лінгвістики в МЛУ, де у нас були курси по штучному інтелекту і розпізнавання усного мовлення - але все-таки в недостатньому обсязі. Зараз IT-компанії активно намагаються взаємодіяти з інститутами. Ми з колегами з «Лабораторії Касперського» теж намагаємося брати участь в освітньому процесі: читаємо лекції, проводимо студентські конференції, даємо гранти аспірантам. Але поки ініціатива більше виходить від роботодавців, ніж від університетів.

Поділіться з друзями або збережіть для себе:

Завантаження ...