Rola języka rosyjskiego w językoznawstwie komputerowym. Czym zajmuje się lingwista komputerowy? Główne stowarzyszenia i konferencje

lingwistyka komputerowa (tracing paper z anglojęzycznej lingwistyki obliczeniowej), jeden z obszarów lingwistyki stosowanej, w którym opracowywane są programy komputerowe, technologie komputerowe do organizowania i przetwarzania danych, służące do badania języka i modelowania funkcjonowania języka w określonych warunkach, sytuacje i obszary problemowe. Z drugiej strony jest to obszar zastosowań komputerowych modeli językowych w językoznawstwie i dyscyplinach pokrewnych. Jak wyjątkowy kierunek naukowy Językoznawstwo komputerowe ukształtowało się w badaniach europejskich w latach 60. XX wieku. Ponieważ angielski przymiotnik computational może być również tłumaczony jako „computational”, termin „computational linguistics” jest również spotykany w literaturze, ale w nauce krajowej nabiera węższego znaczenia, zbliżając się do pojęcia „ilościowego lingwistyki”.

Często termin „lingwistyka ilościowa” odnosi się do lingwistyki komputerowej, która charakteryzuje interdyscyplinarny kierunek badań stosowanych, w którym jako główne narzędzie uczenia się języka i mowy stosuje się ilościowe lub statystyczne metody analizy. Czasami lingwistykę ilościową (lub ilościową) przeciwstawia się lingwistyce kombinatorycznej. W tym ostatnim dominującą rolę odgrywa „nieilościowy” aparat matematyczny – teoria mnogości, logika matematyczna, teoria algorytmów itp. Z teoretycznego punktu widzenia zastosowanie metody statystyczne w językoznawstwie umożliwia uzupełnienie strukturalnego modelu języka o komponent probabilistyczny, czyli stworzenie teoretycznego modelu strukturalno-probabilistycznego o dużym potencjale wyjaśniającym. W stosowanej dziedzinie lingwistykę ilościową reprezentuje przede wszystkim wykorzystanie fragmentów tego modelu do językowego monitorowania funkcjonowania języka, deszyfrowania zaszyfrowanego tekstu, autoryzacji/atrybucji tekstu itp.

Termin „lingwistyka komputerowa” i problemy tego kierunku są często związane z modelowaniem komunikacji, a przede wszystkim – z zapewnieniem interakcji człowieka z komputerem w sposób naturalny lub ograniczony. język naturalny(w tym celu tworzone są specjalne systemy przetwarzania języka naturalnego), a także z teorią i praktyką systemów wyszukiwania informacji (ISS). Zapewnienie komunikacji między osobą a komputerem w języku naturalnym jest czasami określane terminem „przetwarzanie języka naturalnego” (przetłumaczone z języka angielskiego termin przetwarzanie języka naturalnego). Ten kierunek lingwistyki komputerowej pojawił się pod koniec lat 60. za granicą i rozwijał się w ramach dyscypliny naukowo-technicznej zwanej sztuczną inteligencją (prace R. Schenka, M. Lebowitza, T. Vinograda itp.). W swoim znaczeniu wyrażenie „przetwarzanie języka naturalnego” powinno obejmować wszystkie obszary, w których komputery są wykorzystywane do przetwarzania danych językowych. W praktyce jednak utrwaliło się węższe rozumienie tego terminu - rozwój metod, technologii i specyficznych systemów zapewniających komunikację między człowiekiem a komputerem w języku naturalnym lub ograniczonym języku naturalnym.

Do pewnego stopnia językoznawstwo komputerowe może obejmować prace w dziedzinie tworzenia systemów hipertekstowych, uważanych za szczególny sposób organizowania tekstu, a nawet jako całkowicie nowy typ tekstu, przeciwstawny pod wieloma swoimi właściwościami zwykłemu tekstowi powstałemu w Gutenbergu. tradycja typografii (patrz Gutenberg).

Tłumaczenie automatyczne również wchodzi w zakres kompetencji językoznawstwa komputerowego.

W ramach językoznawstwa komputerowego wyłonił się również stosunkowo nowy kierunek, rozwijający się aktywnie od lat 80. i 90. - językoznawstwo korpusowe, w którym za pomocą nowoczesnego komputera opracowywane są ogólne zasady konstruowania językowych korpusów danych (w szczególności korpusów tekstowych). technologie. Korpusy tekstowe to zbiory specjalnie wyselekcjonowanych tekstów z książek, czasopism, gazet itp., przeniesione na nośniki maszynowe i przeznaczone do automatycznej obróbki. Jeden z pierwszych korpusów tekstów dla amerykańskiego angielskiego powstał na Brown University (tzw. Brown Corpus) w latach 1962-63 pod kierunkiem W. Francisa. W Rosji od początku XXI wieku Instytut Języka Rosyjskiego im. Winogradowa Rosyjskiej Akademii Nauk rozwija Narodowy Korpus Języka Rosyjskiego, który składa się z reprezentatywnej próbki tekstów rosyjskojęzycznych o objętości około 100 milionów tokeny. Oprócz samego projektowania korpusów danych, lingwistyka korpusowa zajmuje się tworzeniem narzędzi komputerowych (programów komputerowych) przeznaczonych do wydobywania różnych informacji z korpusów tekstowych. Z punktu widzenia użytkownika na korpusy tekstów nałożone są wymagania dotyczące reprezentatywności (reprezentatywności), kompletności i oszczędności.

Językoznawstwo komputerowe aktywnie rozwija się zarówno w Rosji, jak i za granicą. Napływ publikacji w tym obszarze jest bardzo duży. Oprócz zbiorów tematycznych w Stanach Zjednoczonych od 1984 r. ukazuje się kwartalnik „Computational Linguistics”. Świetna organizacja i Praca naukowa jest prowadzony przez The Association for Computational Linguistics, które posiada struktury regionalne na całym świecie (w szczególności oddział europejski). Co dwa lata odbywają się międzynarodowe konferencje COLINT (w 2008 roku konferencja odbyła się w Manchesterze). Główne kierunki lingwistyki komputerowej omawiane są również na corocznej międzynarodowej konferencji „Dialog”, organizowanej przez Rosyjski Instytut Badawczy Sztucznej Inteligencji, Wydział Filologiczny Moskiewskiego Uniwersytetu Państwowego, Yandex i szereg innych organizacji. Istotne zagadnienia są również szeroko reprezentowane na międzynarodowych konferencjach poświęconych sztucznej inteligencji na różnych poziomach.

Lit.: Zvegintsev V.A. Lingwistyka teoretyczna i stosowana. M., 1968; Piotrovsky R.G., Bektaev K.B., Piotrovskaya A.A. Lingwistyka matematyczna. M., 1977; Gorodetskiy B. Yu Aktualne problemy lingwistyki stosowanej // Nowość w lingwistyce obcej. M., 1983. Wydanie. 12; Kibrik A.E. Językoznawstwo stosowane // Kibrik A.E. Eseje dotyczące ogólnych i stosowanych problemów językoznawstwa. M., 1992; Kennedy G. Wprowadzenie do językoznawstwa korpusowego. L., 1998; Bolshakov I.A., Gelbukh A. Językoznawstwo komputerowe: modele, zasoby, zastosowania. Futro, 2004; Narodowy korpus języka rosyjskiego: 2003-2005. M., 2005; Baranov A.N. Wprowadzenie do lingwistyki stosowanej. 3. wyd. M., 2007; Językoznawstwo komputerowe i inteligentne technologie. M., 2008. Wydanie. 7.

Językoznawstwo komputerowe(także: matematyczny lub lingwistyka komputerowa inż. lingwistyka komputerowa) to kierunek naukowy w zakresie matematycznego i komputerowego modelowania procesów intelektualnych u ludzi i zwierząt w tworzeniu systemów sztucznej inteligencji, którego celem jest wykorzystanie modeli matematycznych do opisu języków naturalnych.

Językoznawstwo komputerowe częściowo pokrywa się z przetwarzaniem języka naturalnego. Jednak w tych ostatnich nacisk kładzie się nie na abstrakcyjne modele, ale na stosowane metody opisywania i przetwarzania języka dla systemów komputerowych.

Dziedziną działalności lingwistów komputerowych jest opracowywanie algorytmów i programów stosowanych do przetwarzania informacji językowej.

Początki

Językoznawstwo matematyczne jest gałęzią nauki o sztucznej inteligencji. Jego historia rozpoczęła się w Stanach Zjednoczonych w latach 50. XX wieku. Wraz z wynalezieniem tranzystora i pojawieniem się nowej generacji komputerów, a także pierwszych języków programowania, rozpoczęto eksperymenty z tłumaczeniem maszynowym, zwłaszcza rosyjskich czasopism naukowych. W latach 60. podobne badania prowadzono w ZSRR (np. artykuł o tłumaczeniu z rosyjskiego na ormiański w zbiorze „Problemy Cybernetyki” z 1964 r.). Jednak jakość tłumaczenia maszynowego jest nadal znacznie gorsza od jakości tłumaczenia wykonywanego przez człowieka.

Od 15 do 21 maja 1958 r. w 1. Moskiewskim Państwowym Instytucie Pedagogicznym odbyła się pierwsza ogólnounijna konferencja na temat tłumaczenia maszynowego. Komitetem organizacyjnym kierowali V. Yu Rosenzweig i sekretarz wykonawczy komitetu organizacyjnego G. V. Chernov. Pełny program konferencji publikowany jest w zbiorze „Tłumaczenie maszynowe i lingwistyka stosowana”, tom. 1, 1959 (aka „Biuletyn Stowarzyszenia Tłumaczeń Maszynowych nr 8”). Jak wspomina V. Yu Rosenzweig, opublikowany zbiór streszczeń konferencji trafił do USA i tam zrobił ogromne wrażenie.

W kwietniu 1959 r. w Leningradzie odbyła się Pierwsza Ogólnounijna Konferencja Lingwistyki Matematycznej, zwołana przez Uniwersytet Leningradzki i Komitet Lingwistyki Stosowanej. Głównym organizatorem Spotkania był ND Andreev. W Zjeździe wzięło udział wielu wybitnych matematyków, w szczególności S.L.Sobolev, L.V. Kantorovich (później - laureat Nagrody Nobla) i A.A. Markov (dwóch ostatnich brało udział w debacie). W dniu otwarcia Zgromadzenia V. Yu Rosenzweig wygłosił przemówienie programowe „Ogólna lingwistyczna teoria przekładu i lingwistyka matematyczna”.

Kierunki językoznawstwa komputerowego

Przetwarzanie języka naturalnego przetwarzanie języka naturalnego; analiza składniowa, morfologiczna, semantyczna tekstu). Obejmuje to również:

Językoznawstwo korpusowe, tworzenie i wykorzystanie elektronicznych korpusów tekstowych
Tworzenie słowników elektronicznych, tezaurusów, ontologii. Na przykład Lingvo. Słowniki są używane na przykład do automatycznego tłumaczenia, sprawdzania pisowni.
Automatyczne tłumaczenie tekstów. Promt jest popularny wśród rosyjskich tłumaczy. Tłumacz Google Translate jest dobrze znany wśród darmowych.
Automatyczne wyodrębnianie faktów z tekstu (wyodrębnianie informacji) wyodrębnianie faktów, eksploracja tekstu)
Autoreferencja (ang. automatyczne podsumowanie tekstu). Ta funkcja jest zawarta na przykład w programie Microsoft Word.
Budowanie systemów zarządzania wiedzą. Zobacz systemy eksperckie
Tworzenie systemów pytań i odpowiedzi (ang. systemy odpowiedzi na pytania).

Optyczne rozpoznawanie znaków (eng. OCR). Na przykład FineReader
Automatyczne rozpoznawanie mowy (ang. ASR). Istnieje płatne i bezpłatne oprogramowanie
Automatyczna synteza mowy

Główne stowarzyszenia i konferencje

Programy studiów w Rosji

Zobacz też

Napisz recenzję artykułu „Lingwistyka komputerowa”

Notatki (edytuj)

Spinki do mankietów

(Praca pisemna)
- baza wiedzy o zasobach językowych dla języka rosyjskiego
- open source niektórych narzędzi lingwistyki obliczeniowej
- dostęp online do programów lingwistyki obliczeniowej

Fragment charakteryzujący Lingwistykę Komputerową

„Weź, weź dziecko”, powiedział Pierre, podając dziewczynę i zwracając się do kobiety władczo i pospiesznie. - Oddaj im, oddaj! - krzyknął prawie na kobietę, kładąc wrzeszczącą dziewczynę na ziemi i ponownie spojrzał na francuską i ormiańską rodzinę. Starzec siedział już boso. Mały Francuz zdjął ostatni but i oklepał się butami. Starzec, szlochając, coś powiedział, ale Pierre tylko to zauważył; całą jego uwagę przykuł Francuz w czepku, który w tym czasie, kołysząc się powoli, podszedł do młodej kobiety i wyjmując ręce z kieszeni, chwycił ją za szyję.
Piękna Ormianka nadal siedziała w tej samej nieruchomej pozycji, z opuszczonymi długimi rzęsami i jakby nie widziała ani nie czuła, co robi jej żołnierz.
Podczas gdy Pierre biegł kilka kroków, które dzieliły go od Francuzów, długi maruder w czepku już zdzierał naszyjnik, który nosiła z szyi Ormianki, a młoda kobieta, trzymając się za szyję rękami, krzyczała przeszywającym głosem .
- Laissez cette femme! [Zostaw tę kobietę!] – zaskrzeczał Pierre wściekłym głosem, chwytając długiego, zgarbionego żołnierza za ramiona i odrzucając go. Żołnierz upadł, wstał i uciekł. Ale jego towarzysz, rzucając butami, wyjął tasak i groźnie ruszył na Pierre'a.
- Voyons, pas de betises! [No cóż! Nie bądź głupi!] Krzyknął.
Pierre był w tym uniesieniu wściekłości, w którym nic nie pamiętał i w którym jego siła wzrosła dziesięciokrotnie. Rzucił się na bosego Francuza i zanim zdążył wyjąć swój tasak, już go powalił i walnął pięściami. Rozległ się aprobujący krzyk otaczającego tłumu, w tym samym czasie zza rogu wyłonił się konny patrol francuskich ułanów. Ułani podbiegli do Pierre'a i Francuza i otoczyli ich. Pierre nie pamiętał nic z tego, co wydarzyło się później. Przypomniał sobie, że kogoś bił, był bity i że w końcu poczuł, że ma związane ręce, że wokół niego stoi tłum francuskich żołnierzy, którzy szukają jego sukienki.
- Il a un poignard, poruczniku, [Porucznik ma sztylet] - były pierwszymi słowami, które zrozumiał Pierre.
- Ach, broń! [Ach, broń!] – powiedział oficer i zwrócił się do bosego żołnierza, którego zabrano z Pierrem.
„C” est bon, vous direz tout cela au conseil de guerre, [Dobra, dobrze, wszystko powiesz na rozprawie] – powiedział oficer, a potem zwrócił się do Pierre'a: – Parlez vous francais vous? mówisz po francusku?]
Pierre rozejrzał się wokół siebie przekrwionymi oczami i nie odpowiedział. Prawdopodobnie jego twarz wydawała się bardzo przerażająca, bo oficer powiedział coś szeptem, a czterech kolejnych ułanów oddzieliło się od drużyny i stanęło po obu stronach Pierre'a.
- Parlez vous francais? Oficer powtórzył mu pytanie, trzymając się od niego z daleka. - Faites venir l "tłumacz. [Wezwij tłumacza.] - Zza rzędów wyjechał mały człowiek w cywilnym rosyjskim stroju. Po jego ubiorze i przemowie Pierre natychmiast rozpoznał w nim Francuza w jednym z moskiewskich sklepów.
- Il n "a pas l" air d "un homme du peuple, [Nie wygląda na pospolitego człowieka] - powiedział tłumacz, rozglądając się wokół Pierre'a.
- Och, och! ca m "a bien l" air d "un des incendiaires, - oficer naoliwiony. - Demandez lui ce qu" il est? [Och! wygląda jak podpalacz. Zapytaj go, kim on jest?] Dodał.
- Kim jesteś? - spytał tłumacz. „Szefowie powinni być za to odpowiedzialni” – powiedział.
- Je ne vous dirai pas qui je suis. Je suis votre więzień. Emmenez moi, [nie powiem ci, kim jestem. Jestem twoim więźniem. Zabierz mnie stąd] - powiedział nagle Pierre po francusku.
- Ach, Ach! - powiedział marszcząc brwi. - Marchoni!
Wokół ułanów zgromadził się tłum. Najbliżej Pierre'a była ospowata kobieta z dziewczyną; kiedy zaczął się objazd, ruszyła do przodu.
- Dokąd cię to prowadzi, drogi kolego? - powiedziała. - W takim razie dziewczyno, dziewczyno to dokąd ja idę, jeśli nie jest ich! - powiedziała kobieta.
- Qu "est ce qu" elle veut cette femme? [Czego ona chce?] Zapytał oficer.
Pierre był pijany. Jego entuzjazm jeszcze się spotęgował na widok uratowanej przez niego dziewczyny.
„Ce qu” elle dit? „Powiedział”. Elle m „apporte ma fille que je viens de sauver des flammes” – powiedział. - Adieu! [Co ona chce? Niesie moją córkę, którą uratowałem od ognia. Żegnaj!] - a on, nie wiedząc, jak uciekło mu to bezcelowe kłamstwo, szedł zdecydowanym, uroczystym krokiem między Francuzami.
Odejście Francuzów było jednym z tych, którzy z rozkazu Duronela zostali wysłani różnymi ulicami Moskwy w celu tłumienia grabieży, a w szczególności łapania podpalaczy, którzy według powszechnej opinii, która pojawiła się tego dnia wśród Francuzów wysokiego szczebla szeregi były przyczyną pożarów. Po przejściu kilku ulic patrol zabrał jeszcze pięciu podejrzanych Rosjan, jednego sklepikarza, dwóch seminarzystów, chłopa i podwórze oraz kilku szabrowników. Ale ze wszystkich podejrzliwych ludzi, Pierre wydawał się najbardziej podejrzliwy ze wszystkich. Kiedy wszyscy zostali przywiezieni na nocleg w dużym domu na Zubovsky Val, w którym ustanowiono wartownię, Pierre'a osobno umieszczono pod ścisłą strażą.

W Petersburgu w tym czasie, w najwyższych kręgach, z większym niż kiedykolwiek zapałem toczyła się złożona walka między partiami Rumiancewa, Francuzów, Marii Fiodorowny, carewicza i innych, zagłuszonych, jak zawsze, przez trąbienie. dronów sądowych. Ale spokojne, luksusowe, zajęte tylko duchami, refleksjami życia, życie petersburskie toczyło się jak dawniej; i ze względu na przebieg tego życia konieczne było podjęcie wielkich wysiłków, aby uświadomić sobie niebezpieczeństwo i trudną sytuację, w jakiej znalazł się naród rosyjski. Były te same wyjścia, bale, ten sam teatr francuski, te same interesy podwórek, te same interesy służby i intrygi. Tylko w najwyższych kręgach starano się przypominać trudność obecnej sytuacji. Opowiedziano szeptem o tym, jak obie cesarzowe zachowywały się naprzeciw siebie w tak trudnych okolicznościach. Cesarzowa Maria Fiodorowna, zaniepokojona dobrem podległych jej instytucji charytatywnych i oświatowych, wydała rozkaz wysłania wszystkich instytucji do Kazania, a rzeczy tych instytucji były już spakowane. Cesarzowa Elżbieta Aleksiejewna, zapytana o rozkazy, które chce wydać, z charakterystycznym dla niej rosyjskim patriotyzmem, raczyła odpowiedzieć, że o instytucje rządowe nie może wydawać rozkazów, ponieważ dotyczy to suwerena; o tym samym, co osobiście od niej zależy, raczyła powiedzieć, że opuści Petersburg jako ostatnia.

Od 2012 roku Instytut Lingwistyki Rosyjskiego Państwowego Uniwersytetu Humanistycznego przygotowuje magisterskich do programu magisterskiego Językoznawstwo komputerowe(kierunek Językoznawstwo podstawowe i stosowane). Ten program ma na celu przygotowanie profesjonalne językoznawcy biegła zarówno w podstawach językoznawstwa, jak i nowoczesne metody prac badawczych, ekspercko-analitycznych, inżynierskich i potrafiących skutecznie uczestniczyć w rozwoju innowacyjnych językowych technologii komputerowych.

V proces edukacyjny zaangażowani są twórcy dużych systemów badawczych i komercyjnych w dziedzinie automatycznego przetwarzania tekstu, co zapewnia powiązanie między kształceniem magisterskim a głównym nurtem współczesnej lingwistyki komputerowej. Szczególną uwagę zwraca się na udział mistrzów w konferencjach rosyjskich i międzynarodowych.

Wśród nauczycieli są autorzy podstawowych podręczników o specjalnościach językoznawczych, światowej klasy specjaliści, kierownicy projektów dużych systemów do automatycznego przetwarzania języka: Ya.G. Testelets, I.M. Bogusławski, V.I. Belikov i V.I. Podleskaja, wiceprezes Selegey, L.L. Iomdin, A.S. Starosta S.A. Sharov, a także pracownicy firm będących światowymi liderami w dziedzinie lingwistyki komputerowej: IBM (system Watson), Yandex, ABBYY (systemy Lingvo, FineReader, Compreno).

Podstawą przygotowania mistrzów w tym programie jest podejście projektowe. Przyciąganie studentów do pracy badawczej w zakresie językoznawstwa komputerowego odbywa się na podstawie Rosyjskiego Państwowego Uniwersytetu Humanistycznego oraz na podstawie firm zajmujących się opracowywaniem programów z zakresu AOT (ABBYY, IBM itp. ), co oczywiście jest dużym plusem zarówno dla samych mistrzów, jak i dla ich potencjalnych pracodawców. W szczególności do magistratu przyjmowani są docelowi mistrzowie, których szkolenie zapewniają przyszli pracodawcy.

Testy wstępne: „Formalne modele i metody” współczesna lingwistyka Dokładne informacje o czasie egzaminu można uzyskać na stronie internetowej wydziału magistratu Rosyjskiego Państwowego Uniwersytetu Humanistycznego.

Szef magistratu - kierownik. Centrum Dydaktyczno-Naukowe Lingwistyki Komputerowej, Dyrektor Badań Językowych w ABBYY Władimir Pawłowicz Selegej i doktor filozofii, profesor Vera Isaakovna Podlesskaya .

Program egzaminu wstępnego i rozmów kwalifikacyjnych w dyscyplinie „Formalne modele i metody językoznawstwa nowoczesnego”.

Komentarze do programu

Każdemu pytaniu programu mogą towarzyszyć zadania związane z opisami konkretnych zjawisk językowych związanych z sekcją pytania: budowa konstrukcji, opis ograniczeń, możliwe algorytmy budowy i/lub identyfikacji.
Pytania oznaczone gwiazdkami są opcjonalne (bilety numerowane są 3). Posiadanie odpowiedniego materiału jest dla kandydatów znaczną premią, ale nie jest wymagane.
Oprócz pytań teoretycznych w biletach na egzamin będzie dostępny mały fragment tekstu specjalnego (językowego) w języku angielskim - do tłumaczenia i dyskusji. Wnioskodawcy muszą wykazać się zadowalającym poziomem znajomości anglojęzycznej terminologii naukowej oraz umiejętnościami w zakresie naukowej analizy tekstu. Jako przykład tekstu, który nie powinien powodować poważnych trudności dla wnioskodawcy, poniżej znajduje się fragment artykułu https://en.wikipedia.org/wiki/Anaphora_(lingwistyka):

W językoznawstwie anafora (/ əˈnæfərə /) to użycie wyrażenia, którego interpretacja zależy od innego wyrażenia w kontekście (jego poprzednika lub postcedent). W węższym sensie, anafora to użycie wyrażenia, które zależy konkretnie od wyrażenia poprzedzającego, a zatem jest przeciwstawione do katafory, czyli użycia wyrażenia zależnego od wyrażenia poprzedzającego. Termin anaforyczny (odnoszący się) nazywany jest anaforą. Na przykład w zdaniu Sally przybyła, ale nikt jej nie widział, zaimek her jest anaforą odnoszącą się do poprzednika Sally. W zdaniu Przed jej przybyciem nikt nie widział Sally, zaimek her odnosi się do późniejszej Sally, więc jest teraz kataforą (i anaforą w szerszym, ale nie węższym sensie). Zazwyczaj wyrażenie anaforyczne jest proformą lub innym rodzajem wyrażenia deiktycznego (zależnego od kontekstu). Zarówno anafora, jak i katafora to gatunki endofory, odnoszące się do czegoś wspomnianego w innym miejscu w dialogu lub tekście.

Anafora jest ważnym pojęciem z różnych powodów i na różnych poziomach: po pierwsze, anafora wskazuje, w jaki sposób dyskurs jest konstruowany i utrzymywany; po drugie, anafora łączy ze sobą różne elementy składniowe na poziomie zdania; po trzecie, anafora stanowi wyzwanie dla przetwarzania języka naturalnego w lingwistyce komputerowej, ponieważ identyfikacja odniesienia może być trudna; i po czwarte, anafora mówi kilka rzeczy o tym, jak język jest rozumiany i przetwarzany, co jest istotne dla dziedzin językoznawstwa zainteresowanych psychologią poznawczą.

PYTANIA TEORETYCZNE

OGÓLNE ZAGADNIENIA JĘZYKOWE

Przedmiot językoznawstwa. Język i mowa. Synchronia i diachronia.
Poziomy językowe. Formalne modele poziomów językowych.
Syntagmatyka i paradygmatyka. Koncepcja dystrybucji.
Podstawy porównań międzyjęzykowych: lingwistyka typologiczna, genealogiczna i obszarowa.
* Lingwistyka matematyczna: metody przedmiotowe i badawcze

FONETYKA

Przedmiot fonetyki. Fonetyka artykulacyjna i akustyczna.
Fonetyka segmentowa i suprasegmentalna. Prozodia i intonacja.
Podstawowe pojęcia fonologii. Typologia systemów fonologicznych i ich realizacje fonetyczne.
* Narzędzia komputerowe i metody badań fonetycznych
* Analiza i synteza mowy.

MORFOLOGIA

Przedmiot morfologii. Morfy, morfemy, allomorfy.
Fleksja i słowotwórstwo.
Znaczenie gramatyczne i sposoby ich realizacji. Kategorie gramatyczne i grammy. Morfologiczne i składniowe znaczenia gramatyczne.
Koncepcje form słownych, podstaw, lematów i paradygmatów.
Części mowy; podstawowe podejścia do doboru części mowy.
* Modele formalne do opisu fleksji i słowotwórstwa.
* Morfologia w zadaniach automatycznego przetwarzania języka: sprawdzanie pisowni, lematyzacja, tagowanie POS

SKŁADNIA

Przedmiot składni. Sposoby wyrażania relacji składniowych.
Sposoby reprezentowania składniowej struktury zdania. Zalety i wady drzew zależnych i składowych.
Metody opisu ładu liniowego. Brak rzutowania i pękanie komponentów. koncepcja transformacji; przekształcenia związane z porządkiem liniowym.
Związek między składnią a semantyką: walencje, modele kontrolne, aktanty i sirconstans.
Skaza i zastaw. Pochodzenie aktantu.
Komunikatywna organizacja wypowiedzi. Temat i rema, dane i nowe, kontrast.
* Podstawowe teorie składniowe: MCT, generatywizm, gramatyka funkcjonalna, HPSG
* Matematyczne modele składni: klasyfikacja języków formalnych według Chomsky'ego, algorytmy rozpoznawania i ich złożoność.

SEMANTYKA

Przedmiot semantyki. Naiwny i naukowy językowy obraz świata. Hipoteza Sapira-Whorfa.
Znaczenie w języku i mowie: znaczenie i desygnat. Typ odniesienia (status opisowy).
Semantyka leksykalna. Sposoby opisu semantyki słowa.
Semantyka gramatyczna. Główne kategorie na przykładzie języka rosyjskiego.
Semantyka zdań. Składnik zdaniowy. Deixis i Anafora. Kwantyfikatory i wiązki. Modalność.
Hierarchia i spójność znaczeń leksykalnych. Polisemia i homonimia. Struktura semantyczna wyrazu polisemantycznego. Pojęcia niezmiennika i prototypu.
Relacje paradygmatyczne i syntagmatyczne w słownictwie. Funkcje leksykalne.
Interpretacja. Język interpretacji. Moskiewska Szkoła Semantyczna
Semantyka i logika. Prawdziwe znaczenie wypowiedzi.
Teoria aktów mowy. Wypowiedź i jej moc illokucyjna. Performatywy. Klasyfikacja aktów mowy.
Frazeologia: inwentarz i metody opisu jednostek frazeologicznych.
* Modele i metody semantyki formalnej.
* Modele semantyki we współczesnym językoznawstwie komputerowym.
* Dystrybucja i semantyka operacyjna.
* Podstawowe idee konstrukcji gramatycznych.

TYPOLOGIA

Tradycyjne klasyfikacje typologiczne języków.
Typologia kategorii gramatycznych imienia i czasownika.
Typologia proste zdanie... Główne typy struktur to: biernik, ergatyw, aktywny.
Typologia szyków wyrazów i korelacje Greenberga. Języki rozgałęzione lewe i prawe.

LEKSYKOGRAFIA

Słownictwo jako inwentarz kultury; społeczne zróżnicowanie słownictwa, użycie leksykalne, norma, kodyfikacja.
Typologia słowników (w języku rosyjskim). Refleksja słownictwa w słownikach różnego typu.
Leksykografia dwujęzyczna z udziałem języka rosyjskiego.
Leksykografia opisowa i normatywna. Profesjonalne słowniki językowe.
Specyfika głównych rosyjskich słowników objaśniających. Struktura wpis słownictwa... Interpretacja i informacje encyklopedyczne.
Słownictwo i gramatyka. Koncepcja integralnego modelu języka w Moskiewskiej Szkole Semantycznej.
* Metodologia pracy leksykografa.
* Metody korpusowe w leksykografii.

JĘZYKÓWKA TEKSTU I DYSKURSU

Pojęcie tekstu i dyskursu.
Mechanizmy komunikacji międzyfrazowej. Główne rodzaje środków ich implementacji językowej.
Zdanie jako jednostka językowa i jako element tekstu.
Jedność superfrazowa, zasady ich tworzenia i doboru, podstawowe właściwości.
Główne kategorie klasyfikacji tekstów (gatunek, styl, rejestr, Tematyka itp)
* Metody automatycznej klasyfikacji gatunku.

SOCJOLINGWISTYKA

Problem podmiotu i granic socjolingwistyki, jej interdyscyplinarność. Podstawowe pojęcia socjologii i demografii. Poziomy struktury języka i socjolingwistyki. Podstawowe pojęcia i kierunki socjolingwistyki.
Kontakty językowe. Dwujęzyczność i dyglosja. Procesy rozbieżne i zbieżne w historii języka.
Społeczne zróżnicowanie języka. Formy istnienia języka. Język literacki: usus-norm-kodyfikacja. Sfery funkcjonalne języka.
Socjalizacja językowa. Hierarchiczny charakter tożsamości społecznej i językowej. Zachowania językowe jednostki i jej repertuar komunikacyjny.
Socjolingwistyczne metody badawcze.

JĘZYKO KOMPUTEROWE

Zadania i metody językoznawstwa komputerowego.
Językoznawstwo korpusowe. Główne cechy sprawy.
Reprezentacja wiedzy. Główne idee teorii ram M. Minsky'ego. System FrameNet.
Tezaurusy i ontologie. WordNet.
Podstawy analizy statystycznej tekstów. Słowniki częstotliwości. Analiza kolokacji.
* Pojęcie uczenia maszynowego.

LITERATURA

Edukacyjny (poziom podstawowy)

Baranow A.N. Wprowadzenie do lingwistyki stosowanej. M .: Redakcja URRS, 2001.

Baranov A.N., Dobrovolskiy D.O. Podstawy frazeologii (krótki kurs) Instruktaż... Wydanie II. Moskwa: Flinta, 2014.

Belikov V.A., Krysin L.P. Socjolingwistyka. M., RGGU, 2001.

Burlak S.A., Starosta S.A. Porównawcze językoznawstwo historyczne. M.: Akademia. 2005

Vakhtin N.B., Golovko E.V. Socjolingwistyka i socjologia języka. SPb., 2004.

Knyazev S.V., Pożaritskaya S.K. Współczesny rosyjski język literacki: fonetyka, grafika, ortografia, ortografia. 2. wyd. M., 2010

Kobozeva I.M. Semantyka językowa. M.: Redakcja URSS. 2004.

Kodzasov S.V., Krivnova OF Fonetyka ogólna... M.: RGGU, 2001.

mgr Krongauz Semantyka. M.: RGGU. 2001.

mgr Krongauz Semantyka: Zadania, zadania, teksty. M.: Akademia. 2006 ..

Masłow Yu.S. Wprowadzenie do językoznawstwa. Wyd. 6., wymazane. M.: Akademia, fil. twarz. SPbSU,

Plungyan V.A. Morfologia ogólna: Wprowadzenie do problematyki. Wyd. 2. miejsce. M .: Redakcja URSS, 2003.

Testelets Ya.G. Wprowadzenie do składni ogólnej. M., 2001.

Shaikevich A.Ya. Wprowadzenie do językoznawstwa. M.: Akademia. 2005.

Naukowe i referencyjne

Apresyan Yu.D. Wybrane prace, tom I. Semantyka leksykalna: wyd. II, Isp. i dodaj. M .: Szkoła „Języki kultury rosyjskiej”, 1995.

Apresyan Yu.D. Wybrane prace, tom II. Całościowy opis języka i leksykografii systemowej. M .: Szkoła „Języki kultury rosyjskiej”, 1995.

Apresyan Yu.D.(red.) Nowy słownik objaśniający synonimów języka rosyjskiego. Moskwa – Wiedeń: „Języki kultury rosyjskiej”, Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresyan Yu.D.(red.) Językowy obraz świata i leksykografia systemowa (redaktor naczelny Yu. D. Apresyan). M.: „Języki kultur słowiańskich”, 2006, Przedmowa i Ch. 1, s. 26-74.

Bulygina TV, Shmelev AD Językowa konceptualizacja świata (na podstawie gramatyki rosyjskiej). M .: Szkoła „Języki kultury rosyjskiej”, 1997.

Weinreich U. Kontakty językowe. Kijów, 1983.

Wieżbitskaja A. Uniwersalia semantyczne i opis języków. M.: Szkoła „Języki kultury rosyjskiej”. 1999.

Galperyna I.R. Tekst jako przedmiot badań językoznawczych. 6 wyd. M .: LKI, 2008 ("Dziedzictwo językowe XX wieku")

AA Zaliznyak„Rosyjska fleksja nominalna” z dodatkiem wybranych prac dotyczących współczesnego języka rosyjskiego i językoznawstwa ogólnego. M .: Języki kultury słowiańskiej, 2002.

AA Zaliznyak, E.V. Paducheva W kierunku typologii zdań względnych. / Semiotyka i informatyka, t. 35. M., 1997, s. 59-107.

Iwanow Wiacz. Słońce. Językoznawstwo trzeciego tysiąclecia. Pytania na przyszłość. M., 2004. S. 89-100 (11. Sytuacja językowa świata i prognoza na najbliższą przyszłość).

Kibrik A.E. Eseje dotyczące ogólnych i stosowanych problemów językoznawstwa. M .: Wydawnictwo Moskiewskiego Uniwersytetu Państwowego, 1992.

Kibrik A.E. Stałe i zmienne językowe. SPb: Aleteya, 2003.

Łabow U. O mechanizmie zmian językowych // Nowość w językoznawstwie. Wydanie 7. M., 1975. S. 320-335.

Lwy J. Semantyka językowa: wprowadzenie. M.: Języki kultury słowiańskiej. 2003.

Lyonsa Jana. Język i językoznawstwo. Kurs wprowadzający. M: URSS, 2004

Lakoff J. Kobiety, ogień i niebezpieczne rzeczy: jakie kategorie języka mówią nam o myśleniu. M.: Języki kultury słowiańskiej. 2004.

Lakoff J., Johnson M... Metafory, według których żyjemy. Za. z angielskiego Wydanie 2. M.: URSS. 2008.

Językowy słownik encyklopedyczny / wyd. W I. Jarcewa. M .: Wydawnictwo naukowe „Wielka rosyjska encyklopedia”, 2002.

Melchuk I.A. Ogólny kurs morfologii. TT. I-IV. Moskwa-Wiedeń: „Języki kultury słowiańskiej”, Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

I. A. Melchuk Doświadczenia teorii modeli językowych „ZNACZENIE TEKST”. Moskwa: Szkoła „Języki kultury rosyjskiej”, 1999.

Fedorova L.L. Semiotyka. M., 2004.

Filippov K.A. Językoznawstwo tekstu: Przebieg wykładów - wyd. II, Isp. i dodaj. Wyd. Petersburg. Uniwersytet, 2007.

Haspelmath, M. i inni... (wyd.). Światowy Atlas Struktur Językowych. Oksford, 2005.

Suszarka, MS i Haspelmath, M.(red.) Światowy Atlas Struktur Językowych Online. Lipsk: Instytut Antropologii Ewolucyjnej im. Maxa Plancka, 2013. (http://wals.info)

Croft W. Typologia i uniwersalia. Cambridge: Cambridge University Press, 2003. Shopen, T. (red.)... Typologia języka i opis składniowy. Wydanie II. Cambridge, 2007.

W.I.Belikow. O słownikach „zawierających normy współczesnego rosyjskiego języka literackiego używanego jako język państwowy” Federacja Rosyjska”. 2010 // Portal Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

Językoznawstwo komputerowe i inteligentne technologie: Na podstawie materiałów z corocznej Międzynarodowej Konferencji „Dialog”. Wydanie 1-11. - M.: Wydawnictwo Nauka, z Rosyjskiego Państwowego Uniwersytetu Humanistycznego, 2002-2012. (Artykuły o lingwistyce komputerowej, http://www.dialog-21.ru).

Narodowy korpus języka rosyjskiego: 2006-2008. Nowe wyniki i perspektywy. / Odp. wyd. V.A. Plungyan. - SPb.: Nestor-Historia, 2009.

Nowość w językoznawstwie zagranicznym. Wydanie XXIV, Lingwistyka komputerowa / Comp. B. Yu Gorodecki. Moskwa: Postęp, 1989.

Shimchuk E. G. Rosyjska leksykografia: podręcznik. M.: Akademia, 2009.

Narodowy korpus języka rosyjskiego: 2003-2005. Przegląd artykułów. M.: Indrik, 2005.

Kontakty:

Centrum Dydaktyczno-Naukowe Lingwistyki Komputerowej, Instytut Lingwistyki, Rosyjski Państwowy Uniwersytet Humanistyczny

Treść artykułu

JĘZYKO KOMPUTEROWE, kierunek do lingwistyka stosowana, skoncentrowany na wykorzystaniu narzędzi komputerowych - programów, technologii komputerowych do organizowania i przetwarzania danych - do modelowania funkcjonowania języka w określonych warunkach, sytuacjach, obszarach problemowych itp., a także całego zakresu zastosowania komputerowych modeli językowych w językoznawstwie i dyscyplinach pokrewnych. Właściwie tylko w tym drugim przypadku mówimy o lingwistyce stosowanej sensu stricto, gdyż komputerowe modelowanie języka można rozpatrywać również jako sferę zastosowania informatyki i teorii programowania do rozwiązywania problemów nauki o języku. . W praktyce jednak prawie wszystko, co wiąże się z wykorzystaniem komputerów w językoznawstwie, określa się mianem językoznawstwa komputerowego.

Językoznawstwo komputerowe ukształtowało się jako szczególny kierunek naukowy w latach 60. XX wieku. Rosyjski termin „computational linguistics” jest kontynuacją angielskiego lingwistyki obliczeniowej. Ponieważ przymiotnik obliczeniowy w języku rosyjskim można również przetłumaczyć jako „obliczeniowy”, termin „lingwistyka obliczeniowa” jest również spotykany w literaturze, ale w nauce rosyjskiej nabiera węższego znaczenia, zbliżając się do pojęcia „lingwistyki ilościowej”. Napływ publikacji w tym obszarze jest bardzo duży. Oprócz zbiorów tematycznych w USA ukazuje się kwartalnie czasopismo „Computational Linguistics”. Dużą pracę organizacyjną i naukową prowadzi Stowarzyszenie Lingwistyki Komputerowej, które posiada struktury regionalne (w szczególności oddział europejski). Międzynarodowe konferencje lingwistyki komputerowej - COLING odbywają się co dwa lata. Zagadnienia te są zwykle szeroko prezentowane także na różnych konferencjach poświęconych sztucznej inteligencji.

Zestaw narzędzi do lingwistyki komputerowej.

Językoznawstwo komputerowe jako specjalna dyscyplina stosowana wyróżnia się przede wszystkim instrumentem, tj. w sprawie wykorzystania narzędzi komputerowych do przetwarzania danych językowych. Ponieważ programy komputerowe symulujące pewne aspekty funkcjonowania języka mogą korzystać z różnych narzędzi programistycznych, wydaje się, że nie ma potrzeby mówić o ogólnym aparacie pojęciowym językoznawstwa komputerowego. Jednak tak nie jest. Istnieją ogólne zasady komputerowego modelowania myślenia, które są w jakiś sposób zaimplementowane w każdym modelu komputerowym. Opierają się na teorii wiedzy, która pierwotnie została rozwinięta w dziedzinie sztucznej inteligencji, a później stała się jedną z gałęzi kognitywistyki. Najważniejszymi kategoriami pojęciowymi językoznawstwa komputerowego są takie struktury wiedzy, jak „ramy” (struktury pojęciowe lub, jak mówią, struktury pojęciowe dla deklaratywnej reprezentacji wiedzy o typizowanej, ujednoliconej tematycznie sytuacji), „scenariusze” (struktury pojęciowe dla reprezentacja wiedzy o stereotypowej sytuacji lub stereotypowym zachowaniu), „plany” (struktury wiedzy, które utrwalają wyobrażenia o możliwych działaniach prowadzących do osiągnięcia określonego celu). Ściśle związane z kategorią kadru jest pojęcie „sceny”. Kategoria sceny jest używana głównie w literaturze z zakresu językoznawstwa komputerowego jako oznaczenie struktury pojęciowej dla deklaratywnego przedstawienia sytuacji i ich części aktualizowanych w akcie mowy i podkreślanych środkami językowymi (leksemami, konstrukcjami składniowymi, kategoriami gramatycznymi itp.). .

Zbiór struktur wiedzy, zorganizowanych w określony sposób, tworzy „model świata” systemu poznawczego i jego komputerowy model. W systemach sztucznej inteligencji model świata tworzy specjalny blok, który w zależności od wybranej architektury może zawierać ogólną wiedzę o świecie (w postaci prostych propozycji typu „zimno zimno” lub w postaci reguł produkcji” jeśli na dworze pada deszcz, to trzeba założyć płaszcz przeciwdeszczowy lub wziąć parasol "), kilka konkretnych faktów ("Najwyższy szczyt świata - Everest"), a także wartości i ich hierarchie, czasem wyróżnione w specjalnym „bloku aksjologicznym”.

Większość elementów pojęć zestawu narzędzi językoznawstwa komputerowego ma charakter homonimiczny: wyznaczają jednocześnie pewne realne byty ludzkiego systemu poznawczego oraz sposoby ich reprezentacji wykorzystywane w ich opisie teoretycznym i modelowaniu. Innymi słowy, elementy aparatu pojęciowego językoznawstwa komputerowego mają aspekt ontologiczny i instrumentalny. Np. w aspekcie ontologicznym oddzielenie wiedzy deklaratywnej od proceduralnej odpowiada różnym rodzajom wiedzy, jaką posiada dana osoba – tzw. wiedzy CO (deklaratywnej; taka jest np. znajomość adresu pocztowego NN ), z jednej strony, a wiedza JAK (proceduralna; taka jest np. wiedza, która pozwala znaleźć mieszkanie tego NN, nawet bez znajomości jego formalnego adresu) – z drugiej. W aspekcie instrumentalnym wiedza może być zawarta w zestawie opisów (opisów), z jednej strony w zbiorze danych, a z drugiej w algorytmie, instrukcji wykonywanej przez komputer lub inny model systemu poznawczego. .

Kierunki językoznawstwa komputerowego.

Sfera CL jest bardzo zróżnicowana i obejmuje takie obszary jak komputerowe modelowanie komunikacji, modelowanie struktury fabuły, hipertekstowe technologie prezentacji tekstu, Tłumaczenie maszynowe, leksykografia komputerowa. W wąskim sensie kwestie CL często kojarzą się z interdyscyplinarnością zastosowany kierunek z kilkoma niefortunne imię Przetwarzanie języka naturalnego (tłumaczenie Termin angielski Przetwarzanie języka naturalnego). Powstała pod koniec lat 60. i rozwijała się w ramach dyscypliny naukowo-technicznej „sztuczna inteligencja”. W swojej wewnętrznej postaci przetwarzanie języka naturalnego obejmuje wszystkie obszary, w których komputery są wykorzystywane do przetwarzania danych językowych. Tymczasem w praktyce utrwaliło się węższe rozumienie tego terminu - rozwój metod, technologii i specyficznych systemów zapewniających komunikację między człowiekiem a komputerem w języku naturalnym lub ograniczonym języku naturalnym.

Szybki rozwój kierunku „przetwarzania języka naturalnego” nastąpił w latach 70., co wiązało się z nieoczekiwanym wykładniczym wzrostem liczby użytkowników końcowych komputerów. Ponieważ nauczanie języków i technologii programowania dla wszystkich użytkowników jest niemożliwe, pojawił się problem z organizowaniem interakcji z programami komputerowymi. Rozwiązanie tego problemu komunikacyjnego poszło dwiema głównymi drogami. W pierwszym przypadku podjęto próby dostosowania języków programowania i systemów operacyjnych do użytkownika końcowego. W rezultacie pojawiły się języki wysoki poziom wpisz Visual Basic, a także wygodne OS, zbudowany w konceptualnej przestrzeni znanych człowiekowi metafor - STÓŁ DO PISANIA, BIBLIOTEKA. Drugi sposób to tworzenie systemów, które umożliwiłyby interakcję z komputerami w określonym obszarze problemowym w języku naturalnym lub w jego ograniczonej wersji.

Architektura systemów przetwarzania języka naturalnego w ogólnym przypadku obejmuje blok do analizy komunikatu głosowego użytkownika, blok interpretacji komunikatu, blok generowania sensu odpowiedzi oraz blok do syntezy struktury powierzchniowej wypowiedzi. Specjalną częścią systemu jest komponent dialogowy, w którym zapisywane są strategie prowadzenia dialogu, warunki stosowania tych strategii, sposoby przezwyciężania ewentualnych niepowodzeń komunikacyjnych (niepowodzenia w procesie komunikacyjnym).

Wśród komputerowych systemów przetwarzania języka naturalnego zwykle wyróżnia się systemy pytań-odpowiedzi, systemy dialogowe do rozwiązywania problemów oraz systemy przetwarzania tekstów koherentnych. Początkowo systemy pytań i odpowiedzi zaczęły być rozwijane jako reakcja na słabą jakość żądań kodowania podczas wyszukiwania informacji w systemach wyszukiwania informacji. Ponieważ obszar problemowy takich systemów był bardzo ograniczony, uprościło to nieco algorytmy tłumaczenia zapytań na reprezentację w języku formalnym oraz odwrotną procedurę przekształcania reprezentacji formalnej na zdania w języku naturalnym. Wśród krajowych rozwiązań tego typu program obejmuje system POET, stworzony przez zespół badaczy pod kierownictwem E.V. Popova. System przetwarza żądania w języku rosyjskim (z kilkoma ograniczeniami) i syntetyzuje odpowiedź. Schemat blokowy programu zakłada przejście wszystkich etapów analizy (morfologicznej, syntaktycznej i semantycznej) oraz odpowiadających im etapów syntezy.

Dialogowe systemy rozwiązywania problemów, w przeciwieństwie do systemów poprzedniego typu, odgrywają aktywną rolę w komunikacji, ponieważ ich zadaniem jest uzyskanie rozwiązania problemu w oparciu o wiedzę w nim prezentowaną oraz informacje, które można uzyskać od użytkownika. System zawiera struktury wiedzy, które rejestrują typowe sekwencje działań w celu rozwiązania problemów w danym obszarze problemowym, a także informacje o wymaganych zasobach. Gdy użytkownik zadaje pytanie lub stawia określone zadanie, aktywowany jest odpowiedni skrypt. Jeśli brakuje niektórych składników skryptu lub niektórych zasobów, system inicjuje komunikację. Tak działa np. system SNUKA, który rozwiązuje problemy planowania operacji wojskowych.

Systemy przetwarzania połączonych tekstów mają dość zróżnicowaną strukturę. Ich wspólną cechą jest szerokie zastosowanie technologii reprezentacji wiedzy. Funkcje tego typu systemów to rozumienie tekstu i odpowiadanie na pytania dotyczące jego treści. Rozumienie jest postrzegane nie jako kategoria uniwersalna, ale jako proces wydobywania informacji z tekstu, zdeterminowany konkretną intencją komunikacyjną. Innymi słowy, tekst jest „czytany” tylko z takim ustawieniem, jakie potencjalny użytkownik chce o nim wiedzieć. Tym samym systemy przetwarzania tekstów powiązanych okazują się bynajmniej nie uniwersalne, ale zorientowane na problem. Typowymi przykładami systemów omawianego typu są systemy RESEARCHER i TAILOR, które tworzą jeden pakiet oprogramowania, który umożliwia użytkownikowi pozyskiwanie informacji z abstraktów patentów opisujących złożone obiekty fizyczne.

Najważniejszym obszarem językoznawstwa komputerowego jest rozwój systemów wyszukiwania informacji (ISS). Te ostatnie pojawiły się na przełomie lat pięćdziesiątych i sześćdziesiątych w odpowiedzi na gwałtowny wzrost ilości informacji naukowej i technicznej. Ze względu na rodzaj przechowywanych i przetwarzanych informacji, a także charakterystykę wyszukiwania, IRS dzieli się na dwie duże grupy - dokumentową i faktograficzną. Dokumentalny ISS przechowuje teksty dokumentów lub ich opisy (streszczenia, karty bibliograficzne itp.). IRS faktograficzne zajmują się opisem konkretnych faktów, niekoniecznie w formie tekstowej. Mogą to być tabele, formuły i inne rodzaje prezentacji danych. Istnieją również mieszane IRS, które obejmują zarówno dokumenty, jak i informacje faktyczne. Obecnie faktyczne IRS budowane są w oparciu o technologie bazodanowe (DB). Aby zapewnić wyszukiwanie informacji w ISS, tworzone są specjalne języki wyszukiwania informacji, które opierają się na tezaurusach wyszukiwania informacji. Język wyszukiwania informacji to język formalny przeznaczony do opisywania poszczególnych aspektów planu treści dokumentów przechowywanych w ISS oraz zapytania. Procedura opisywania dokumentu w języku wyszukiwania informacji nazywana jest indeksowaniem. W wyniku indeksowania każdemu dokumentowi przypisywany jest jego opis formalny w języku wyszukiwania informacji - wyszukiwany obraz dokumentu. Zapytanie jest indeksowane w ten sam sposób, do którego przyporządkowany jest obraz wyszukiwania zapytania i zlecenie wyszukiwania. Algorytmy wyszukiwania informacji opierają się na porównaniu polecenia wyszukiwania z obrazem wyszukiwania zapytania. Kryterium wydania dokumentu na wniosek może polegać na pełnej lub częściowej zbieżności obrazu wyszukiwania dokumentu i recepty. W niektórych przypadkach użytkownik ma możliwość samodzielnego sformułowania kryteriów wystawienia. To zależy od niego potrzeba informacji... Deskryptorowe języki wyszukiwania informacji są częściej używane w systemach automatycznego wyszukiwania informacji. Temat dokumentu jest opisany za pomocą zestawu deskryptorów. Deskryptory to słowa, terminy oznaczające proste, dość elementarne kategorie i pojęcia z obszaru problemowego. W wyszukiwanym obrazie dokumentu wprowadzono tyle deskryptorów, ile jest różnych tematów omówionych w dokumencie. Liczba deskryptorów nie jest ograniczona, co pozwala opisać dokument w wielowymiarowej macierzy cech. Często w języku wyszukiwania informacji deskryptorów nakłada się ograniczenia na zgodność deskryptorów. W tym przypadku możemy powiedzieć, że język wyszukiwania informacji ma składnię.

Jednym z pierwszych systemów współpracujących z językiem deskryptorów był amerykański system UNITERM, stworzony przez M. Taubego. Jako deskryptory w tym systemie funkcjonowały słowa kluczowe dokumentu - unithermy. Specyfika tego ISS polega na tym, że początkowo słownik języka informacyjnego nie był określony, ale powstał w procesie indeksowania dokumentu i zapytania. Rozwój nowoczesnych systemów wyszukiwania informacji wiąże się z rozwojem ISS bez saurusów. Takie IRS pracują z użytkownikiem w ograniczonym języku naturalnym, a wyszukiwanie odbywa się w tekstach streszczeń dokumentów, w ich opisach bibliograficznych, a często w samych dokumentach. Do indeksowania w ISS typu saurus-free używane są słowa i frazy języka naturalnego.

Dziedzinie językoznawstwa komputerowego w pewnym stopniu można przypisać pracę w dziedzinie tworzenia systemów hipertekstowych, uważanych za szczególny sposób organizowania tekstu, a nawet za zupełnie nowy typ tekstu, przeciwstawiany w wielu jego właściwościach zwykły tekst ukształtowany w tradycji typografii Gutenberga. Idea hipertekstu wiąże się z nazwiskiem Vannevara Busha – doradcy prezydenta Roosevelta ds. nauki. V. Bush uzasadnił teoretycznie projekt systemu technicznego „Memex”, który pozwalał na łączenie tekstów i ich fragmentów za pomocą różnego rodzaju linków, głównie za pomocą relacji skojarzeniowych. Brak technologii komputerowej utrudniał realizację projektu, ponieważ system mechaniczny okazał się zbyt skomplikowany do praktycznej realizacji.

W latach 60. pomysł Busha odrodził się w systemie Xanadu przez T. Nelsona, który zakładał już zastosowanie technologii komputerowej. „Xanadu” pozwalał użytkownikowi na odczytanie zestawu tekstów wprowadzonych do systemu różne sposoby, w innej kolejności, oprogramowanie umożliwiało zarówno zapamiętanie kolejności przeglądanych tekstów, jak i wybranie z nich niemal dowolnego w dowolnym momencie. Nelson zestaw tekstów z łączącymi je relacjami (system przejść) nazwał hipertekstem. Wielu badaczy postrzega tworzenie hipertekstu jako początek nowej ery informacji, w przeciwieństwie do ery typografii. Linearność pisma, która zewnętrznie odzwierciedla linearność mowy, okazuje się fundamentalną kategorią, która ogranicza ludzkie myślenie i rozumienie tekstu. Świat znaczeń jest nieliniowy, dlatego kompresja informacji semantycznych w linearnym segmencie mowy wymaga zastosowania specjalnego „opakowania komunikacyjnego” – podziału na temat i wypukłość, dzielącego plan treści wypowiedzi na explicit (wypowiedź, propozycja, fokus). ) i implicytne (założenie, konsekwencja, implikacja dyskursu) warstwy ... Odrzucenie linearności tekstu zarówno w procesie jego prezentacji czytelnikowi (tj. podczas czytania i rozumienia), jak i w procesie syntezy, zdaniem teoretyków, przyczyniłoby się do „wyzwolenia” myślenia, a nawet powstania nowe jego formy.

W systemie komputerowym hipertekst prezentowany jest w postaci grafu, w węzłach których znajdują się tradycyjne teksty lub ich fragmenty, obrazy, tabele, filmy itp. Węzły są połączone różnymi relacjami, których rodzaje są definiowane przez twórców oprogramowania hipertekstowego lub samego czytelnika. Relacje definiują potencjał ruchu lub nawigacji hipertekstowej. Relacje mogą być jednokierunkowe lub dwukierunkowe. Odpowiednio, strzałki dwukierunkowe pozwalają użytkownikowi poruszać się w obu kierunkach, a strzałki jednokierunkowe tylko w jednym kierunku. Łańcuch węzłów, przez który przechodzi czytelnik podczas przeglądania komponentów tekstu, tworzy ścieżkę lub trasę.

Komputerowe implementacje hipertekstu są hierarchiczne lub sieciowe. Hierarchiczna - drzewiasta - struktura hipertekstu znacznie ogranicza możliwości przechodzenia między jego składowymi. W takim hipertekście relacje między komponentami przypominają strukturę tezaurusa opartego na relacjach rodzajowych. Hipertekst sieciowy umożliwia korzystanie z różnych typów relacji między składnikami, nie ograniczając się do relacji rodzaj-gatunek. W zależności od sposobu istnienia hipertekstu rozróżnia się hipertekst statyczny i dynamiczny. Hipertekst statyczny nie zmienia się podczas pracy; w nim użytkownik może zapisywać swoje uwagi, ale nie zmieniają one istoty sprawy. Dla dynamicznego hipertekstu zmiana jest normalną formą istnienia. Zazwyczaj dynamiczne hiperteksty funkcjonują tam, gdzie konieczna jest ciągła analiza przepływu informacji, tj. w różnego rodzaju serwisach informacyjnych. Hypertext to na przykład Arizona Information System (AAIS), który jest aktualizowany co miesiąc o 300-500 abstraktów miesięcznie.

Relacje między elementami hipertekstu mogą być wstępnie ustalone przez twórców lub generowane za każdym razem, gdy użytkownik zwraca się do hipertekstu. W pierwszym przypadku mówimy o hipertekstach o strukturze sztywnej, w drugim o hipertekstach o strukturze miękkiej. Sztywna konstrukcja jest technologicznie całkiem zrozumiała. Technologia organizowania struktury miękkiej powinna opierać się na semantycznej analizie bliskości dokumentów (lub innych źródeł informacji) względem siebie. To nietrywialne zadanie w językoznawstwie komputerowym. W dzisiejszych czasach zastosowanie technologii miękkich struktur na słowa kluczowe jest szeroko rozpowszechnione. Przejście z jednego węzła do drugiego w sieci hipertekstowej odbywa się w wyniku wyszukiwania słów kluczowych. Ponieważ zestaw słów kluczowych może być za każdym razem inny, za każdym razem zmienia się również struktura hipertekstu.

Technologia budowy systemów hipertekstowych nie rozróżnia informacji tekstowych i nietekstowych. Tymczasem włączenie informacji wizualnych i dźwiękowych (wideo, zdjęcia, zdjęcia, nagrania dźwiękowe itp.) wymaga znacznej zmiany interfejsu użytkownika oraz wydajniejszego wsparcia oprogramowania i komputera. Takie systemy nazywane są hipermediami lub multimediami. Widoczność systemów multimedialnych przesądziła o ich powszechnym zastosowaniu w nauczaniu, przy tworzeniu komputerowych wersji encyklopedii. Są na przykład doskonale wykonane płyty CD-romy z systemami multimedialnymi oparte na encyklopediach dla dzieci wydawnictwa Dorlin Kindersley.

W ramach leksykografii komputerowej rozwijane są technologie komputerowe do tworzenia i obsługi słowników. Specjalne programy - bazy danych, komputerowe szafki na akta, programy do edycji tekstu - pozwalają na automatyczne generowanie haseł słownikowych, przechowywanie informacji słownikowych i ich przetwarzanie. Wiele różnych komputerowych programów leksykograficznych dzieli się na dwie duże grupy: programy do obsługi prac leksykograficznych oraz automatyczne słowniki różnego typu, w tym bazy danych leksykograficznych. Słownik automatyczny to słownik w specjalnym formacie maszynowym przeznaczony do użytku na komputerze przez użytkownika lub program komputerowy do edycji tekstu. Innymi słowy, dokonuje się rozróżnienia między automatycznymi słownikami użytkownika końcowego i automatycznymi słownikami dla programów do przetwarzania tekstu. Słowniki automatyczne przeznaczone dla użytkownika końcowego znacznie różnią się interfejsem i strukturą hasła słownikowego od słowników automatycznych wchodzących w skład systemów tłumaczenia maszynowego, systemów automatycznego podsumowania, wyszukiwania informacji itp. Najczęściej są to komputerowe wersje znanych konwencjonalnych słowników. Na rynku oprogramowania istnieją komputerowe odpowiedniki angielskich słowników objaśniających (automatyczny Webster, automatyczny). słownik wyjaśniający Collins English, automatyczna wersja New Great Słownik angielsko-rosyjski wyd. Y.D. Apresyan i E.M. Mednikova), istnieje również komputerowa wersja słownika Ożegova. Słowniki automatyczne dla programów do przetwarzania tekstu można nazwać słownikami automatycznymi w ścisłym tego słowa znaczeniu. Zazwyczaj nie są przeznaczone dla przeciętnego użytkownika. Specyfikę ich struktury, zakres materiału słownego określają programy, które z nimi współdziałają.

Modelowanie komputerowe struktury działek to kolejny obiecujący kierunek w językoznawstwie komputerowym. Badanie struktury fabuły nawiązuje do problematyki strukturalnej krytyki literackiej (w szerokim tego słowa znaczeniu), semiotyki i kulturoznawstwa. Dostępne programy komputerowe do modelowania fabuły oparte są na trzech podstawowych formalizmach prezentacji fabuły - morfologicznych i syntaktycznych kierunkach prezentacji fabuły oraz na Podejście kognitywne... Pomysły dotyczące budowy morfologicznej struktury fabuły sięgają: znane prace V.Ya.Proppa ( cm.) o rosyjskiej bajce. Propp zauważył, że przy mnogości postaci i wydarzeń w bajce liczba funkcji postaci jest ograniczona i zaproponował aparat do opisu tych funkcji. Pomysły Proppa stały się podstawą programu komputerowego TALE, który symuluje tworzenie bajkowej fabuły. Algorytm programu TALE opiera się na sekwencji funkcji postaci z bajek. W rzeczywistości funkcje Proppa wyznaczają wiele typowanych sytuacji, uporządkowanych na podstawie analizy materiału empirycznego. Możliwości sprzęgła różne sytuacje w regułach generacji wyznaczała typowa sekwencja funkcji – w takiej formie, w jakiej można ją ustalić z tekstów baśni. W programie typowe sekwencje funkcji zostały opisane jako typowe scenariusze spotkań postaci.

Teoretyczną podstawę syntaktycznego podejścia do fabuły tekstu tworzyły „gramatyki fabuły” lub „gramatyki opowiadania”. Pojawiły się one w połowie lat 70. w wyniku przeniesienia idei gramatyki generatywnej N. Chomsky'ego na opis makrostruktury tekstu. Jeśli najważniejszymi składnikami struktury składniowej w gramatyce generatywnej były frazy czasownikowe i rzeczownikowe, to w większości gramatyk fabułowych jako podstawowe wyróżniano ustawienie, zdarzenie i epizod. W teorii gramatyk fabułowych szeroko omawiano warunki minimalności, czyli ograniczenia, które determinowały status sekwencji elementów fabuły jako normalnego fabuły. Okazało się jednak, że nie da się tego zrobić metodami czysto językowymi. Wiele ograniczeń ma charakter społeczno-kulturowy. Gramatyki plotowe, różniące się znacząco zestawem kategorii w drzewie generacji, pozwoliły na bardzo ograniczony zestaw reguł modyfikacji struktury narracyjnej (narracyjnej).

Na początku lat 80. jeden z uczniów R. Schenka, V. Lehnert, w ramach prac nad stworzeniem komputerowego generatora fabuły, zaproponował pierwotny formalizm emocjonalnych jednostek fabuły (Affective Plot Units), co okazało się być potężnym środkiem do reprezentowania struktury fabuły. Pomimo tego, że pierwotnie został opracowany dla systemu sztucznej inteligencji, ten formalizm został wykorzystany w czysto studia teoretyczne... Istotą podejścia Lehnerta było opisanie fabuły jako sekwencyjnej zmiany stanów poznawczo-emocjonalnych bohaterów. Tym samym w centrum formalizmu Lehnerta nie są zewnętrzne składniki fabuły – ekspozycja, wydarzenie, epizod, moralność – ale jej cechy treściowe. Pod tym względem formalizm Lehnerta jest po części powrotem do idei Proppa.

Kompetencje językoznawstwa komputerowego obejmują również tłumaczenie maszynowe, które obecnie przeżywa odrodzenie.

Literatura:

Popow E.V. Komunikacja z komputerem w języku naturalnym... M., 1982
Sadur V.G. Komunikacja werbalna z komputerami elektronicznymi i problemami ich rozwoju... - W książce: Komunikacja głosowa: problemy i perspektywy. M., 1983
Baranow A.N. Kategorie sztucznej inteligencji w semantyce lingwistycznej. Ramki i skrypty... M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modelowanie komunikacji w systemach człowiek-maszyna... - Wsparcie językowe systemów informatycznych. M., 1987
Olker HR Bajki, tragedie i sposoby przedstawiania historii świata... - W książce: Język i modelowanie interakcji społecznych. M., 1987
Gorodetsky B.Yu. Lingwistyka komputerowa: modelowanie komunikacji językowej
McQueen K. Dyskursywne strategie syntezy tekstu w języku naturalnym... - Nowość w językoznawstwie zagranicznym. Wydanie XXIV, Lingwistyka komputerowa. M., 1989
Popov E.V., Preobrazhensky A.B . Cechy implementacji systemów NL
Preobrazhensky A.B. Stan rozwoju nowoczesnych systemów NL... - Sztuczna inteligencja. Książka. 1, Systemy komunikacji i systemy ekspertowe. M., 1990
M.M. Subbotin Hipertekst. Nowa forma komunikacji pisemnej... - VINITI, Ser. Informatyka, 1994, t. 18
Baranow A.N. Wprowadzenie do lingwistyki stosowanej... M., 2000

Językoznawcy komputerowi zajmują się opracowywaniem algorytmów rozpoznawania tekstu i mowy brzmiącej, syntezą sztucznej mowy, tworzeniem systemów tłumaczenia semantycznego oraz rozwojem samej sztucznej inteligencji (w klasycznym znaczeniu tego słowa – jako zamiennika dla człowieka). - raczej się nie pojawi, ale różne systemy eksperckie oparte na analizie danych).

Algorytmy rozpoznawania mowy będą coraz częściej wykorzystywane w życiu codziennym – „inteligentne domy” i urządzenia elektroniczne nie będą miały pilotów i przycisków, a będą korzystać z interfejsu głosowego. Ta technologia jest udoskonalana, ale wciąż jest wiele wyzwań: komputerowi trudno jest rozpoznać ludzką mowę, ponieważ różni ludzie mówią bardzo różnie. Dlatego z reguły systemy rozpoznawania dobrze sprawdzają się albo wtedy, gdy są przeszkolone dla jednego mówcy i są już dostosowane do jego wymowy, albo gdy liczba fraz, które system może rozpoznać, jest ograniczona (jak np. w komendach głosowych dla TELEWIZJA).

Specjaliści od tworzenia programów do tłumaczenia semantycznego wciąż mają przed sobą dużo pracy: w tej chwili opracowano dobre algorytmy tylko do tłumaczenia na i z języka angielskiego. Jest wiele problemów - inne języki są różnie ułożone w planie semantycznym, różni się nawet na poziomie konstrukcji fraz, a nie wszystkie znaczenia jednego języka można przekazać za pomocą aparatu semantycznego innego. Ponadto program musi rozróżniać homonimy, poprawnie rozpoznawać części mowy i dobierać właściwe znaczenie słowa wieloznacznego, pasującego do kontekstu.

Synteza sztucznej mowy (na przykład dla robotów domowych) to także żmudna praca. Trudno sprawić, by sztucznie wytworzona mowa brzmiała naturalnie dla ludzkiego ucha, ponieważ istnieją miliony niuansów, na które nie zwracamy uwagi, ale bez których wszystko nie jest „w porządku” - falstarty, pauzy, łapanie itp. Przepływ mowy jest ciągły i jednocześnie dyskretny: mówimy bez przerwy między słowami, ale nie jest nam trudno zrozumieć, gdzie kończy się jedno słowo, a zaczyna drugie, a dla maszyny będzie to duży problem.

Największy kierunek w lingwistyce komputerowej jest związany z Big Data. W końcu istnieją ogromne korpusy tekstów, takich jak news feedy, z których trzeba wyizolować pewne informacje - na przykład wyróżnić news feedy lub dostosować RSS do gustów danego użytkownika. Takie technologie już istnieją i będą się dalej rozwijać, bo moc obliczeniowa rośnie w szybkim tempie. Analiza językowa teksty służą również do zapewnienia bezpieczeństwa w Internecie, do wyszukiwania niezbędnych informacji dla służb specjalnych.

Gdzie studiować, aby zostać lingwistą komputerowym? Niestety mamy dość mocno wyodrębnione specjalności związane z językoznawstwem klasycznym oraz programowaniem, statystyką, analizą danych. Aby zostać lingwistą cyfrowym, musisz zrozumieć obie te rzeczy. Uczelnie zagraniczne prowadzą studia wyższe w zakresie językoznawstwa komputerowego, ale nadal mamy najlepszą opcję - zdobyć podstawowe wykształcenie językowe, a następnie opanować podstawy informatyki. Dobrze, że teraz istnieje wiele różnych kursów online, niestety w latach studenckich tak nie było. Studiowałem na Wydziale Lingwistyki Stosowanej Moskiewskiego Państwowego Uniwersytetu Lingwistycznego, gdzie prowadziliśmy kursy dotyczące sztucznej inteligencji i rozpoznawania mowy – ale wciąż w niewystarczającej ilości. Teraz firmy IT aktywnie próbują współdziałać z instytucjami. Moi koledzy z Kaspersky Lab i ja również staramy się uczestniczyć w procesie edukacyjnym: czytamy wykłady, organizujemy konferencje studenckie i przyznajemy stypendia doktorantom. Ale jak dotąd inicjatywa pochodzi bardziej od pracodawców niż od uczelni.