El papel de la lengua rusa en la lingüística computacional. ¿Qué hace un lingüista informático? Grandes asociaciones y congresos

LINGÜÍSTICA INFORMÁTICA (papel de calco de la lingüística computacional inglesa), una de las áreas de la lingüística aplicada, en la que para el estudio de la lengua y modelar el funcionamiento de la lengua en determinadas condiciones, situaciones y áreas problemáticas, se desarrollan y utilizan programas informáticos, tecnologías informáticas para organizar y procesar datos. Por otro lado, esta es el área de aplicación de los modelos de lenguaje informático en lingüística y disciplinas afines. Que especial dirección científica La lingüística computacional tomó forma en los estudios europeos en la década de 1960. Dado que el adjetivo inglés computacional también se puede traducir como "computacional", el término "lingüística computacional" también se encuentra en la literatura, pero en la ciencia doméstica adquiere un significado más estrecho, acercándose al concepto de "lingüística cuantitativa".

A menudo, el término "lingüística cuantitativa" se refiere a la lingüística computacional, que caracteriza una dirección interdisciplinaria en la investigación aplicada, donde los métodos de análisis cuantitativos o estadísticos se utilizan como la principal herramienta para aprender el lenguaje y el habla. A veces, la lingüística cuantitativa (o cuantitativa) se contrasta con la lingüística combinatoria. En este último, el papel dominante lo desempeña el aparato matemático "no cuantitativo": teoría de conjuntos, lógica matemática, teoría de algoritmos, etc. Desde un punto de vista teórico, el uso de métodos de estadística en lingüística permite complementar el modelo estructural del lenguaje con un componente probabilístico, es decir, crear un modelo teórico estructural-probabilístico con importante potencial explicativo. En el campo aplicado, la lingüística cuantitativa está representada, en primer lugar, por el uso de fragmentos de este modelo utilizados para el seguimiento lingüístico del funcionamiento de la lengua, descifrado del texto codificado, autorización / atribución del texto, etc.

El término "lingüística computacional" y los problemas de esta dirección a menudo se asocian con el modelado de la comunicación y, sobre todo, con la provisión de interacción humana con una computadora de forma natural o limitada. lenguaje natural(para ello se están creando sistemas especiales de procesamiento del lenguaje natural), así como con la teoría y práctica de los sistemas de recuperación de información (ISS). Asegurar la comunicación entre una persona y una computadora en un lenguaje natural a veces se denota con el término "procesamiento del lenguaje natural" (traducido de de lengua inglesa término Procesamiento del lenguaje natural). Esta dirección de la lingüística computacional surgió a finales de la década de 1960 en el extranjero y se desarrolló en el marco de la disciplina científica y tecnológica denominada inteligencia artificial (trabajos de R. Schenk, M. Lebowitz, T. Vinograd, etc.). En su significado, la frase "procesamiento del lenguaje natural" debería abarcar todas las áreas en las que se utilizan las computadoras para procesar los datos del lenguaje. En la práctica, sin embargo, se ha afianzado una comprensión más estrecha del término: el desarrollo de métodos, tecnologías y sistemas específicos que garantizan la comunicación entre una persona y una computadora en un lenguaje natural o limitado.

Hasta cierto punto, la lingüística computacional puede incluir el trabajo en el campo de la creación de sistemas de hipertexto, considerado como una forma especial de organizar el texto e incluso como un tipo de texto fundamentalmente nuevo, opuesto en muchas de sus propiedades a un texto ordinario formado en el Gutenberg. tradición de la tipografía (ver Gutenberg).

La traducción automática también es competencia de la lingüística computacional.

En el marco de la lingüística computacional, también ha surgido una dirección relativamente nueva, que se ha desarrollado activamente desde las décadas de 1980 y 1990: la lingüística de corpus, donde los principios generales para la construcción de corpus de datos lingüísticos (en particular, corpus de texto) se desarrollan utilizando computadoras modernas. tecnologías. Los corpus de texto son colecciones de textos especialmente seleccionados de libros, revistas, periódicos, etc., transferidos a medios de máquina y destinados a procesamiento automático. Uno de los primeros corpus de textos fue creado para inglés americano en la Universidad de Brown (el llamado Brown Corpus) en 1962-63 bajo la dirección de W. Francis. En Rusia, desde principios de la década de 2000, el Instituto Vinogradov del Idioma Ruso de la Academia de Ciencias de Rusia ha estado desarrollando el Corpus Nacional del Idioma Ruso, que consiste en una muestra representativa de textos en idioma ruso con un volumen de aproximadamente 100 millones de fichas. . Además del diseño real de los corpus de datos, la lingüística de corpus se dedica a la creación de herramientas informáticas (programas informáticos) diseñadas para extraer una variedad de información de los corpus de texto. Desde el punto de vista del usuario, los requisitos de representatividad (representatividad), exhaustividad y economía se imponen a los corpus textuales.

La lingüística computacional se está desarrollando activamente tanto en Rusia como en el extranjero. El flujo de publicaciones en esta área es muy grande. Además de las colecciones temáticas, desde 1984 se publica trimestralmente en EE.UU. la revista "Computational Linguistics". Gran organización y trabajo científico está dirigido por la Asociación de Lingüística Computacional, que tiene estructuras regionales en todo el mundo (en particular, la rama europea). Cada dos años se celebran conferencias internacionales COLINT (en 2008 la conferencia se celebró en Manchester). Las principales direcciones de la lingüística computacional también se discuten en la conferencia internacional anual "Diálogo", organizada por el Instituto Ruso de Investigación de Inteligencia Artificial, la Facultad de Filología de la Universidad Estatal de Moscú, Yandex y varias otras organizaciones. Los temas relevantes también se presentan ampliamente en conferencias internacionales sobre inteligencia artificial en varios niveles.

Lit .: Zvegintsev V.A. Lingüística teórica y aplicada. M., 1968; Piotrovsky R.G., Bektaev K.B., Piotrovskaya A.A. Lingüística matemática. M., 1977; Gorodetsky B. Yu. Problemas actuales de la lingüística aplicada // Novedades en lingüística extranjera. M., 1983. Edición. 12; Kibrik A.E. Lingüística aplicada // Kibrik A.E. Ensayos sobre problemas generales y aplicados de la lingüística. M., 1992; Kennedy G. Introducción a la lingüística de corpus. L., 1998; Bolshakov I.A., Gelbukh A. Lingüística computacional: modelos, recursos, aplicaciones. Fur., 2004; Corpus nacional de la lengua rusa: 2003-2005. M., 2005; Baranov A.N. Introducción a la lingüística aplicada. 3ª ed. M., 2007; Lingüística computacional y tecnologías inteligentes. M., 2008. Edición. 7.

Lingüística informática(además: matemático o Ligüística computacional, ing. Ligüística computacional) es una dirección científica en el campo del modelado matemático e informático de procesos intelectuales en humanos y animales en la creación de sistemas de inteligencia artificial, que tiene como objetivo utilizar modelos matemáticos para describir lenguajes naturales.

La lingüística computacional se superpone parcialmente con el procesamiento del lenguaje natural. Sin embargo, en este último, el énfasis no está en los modelos abstractos, sino en los métodos aplicados de describir y procesar el lenguaje para los sistemas informáticos.

El campo de actividad de los informáticos es el desarrollo de algoritmos y programas aplicados para procesar información lingüística.

Orígenes

La lingüística matemática es una rama de la ciencia de la inteligencia artificial. Su historia comenzó en los Estados Unidos de América en la década de 1950. Con la invención del transistor y la aparición de una nueva generación de computadoras, así como los primeros lenguajes de programación, comenzaron los experimentos con la traducción automática, especialmente las revistas científicas rusas. En la década de 1960, se llevaron a cabo estudios similares en la URSS (por ejemplo, un artículo sobre la traducción del ruso al armenio en la colección "Problemas de la cibernética" de 1964). Sin embargo, la calidad de la traducción automática sigue siendo muy inferior a la calidad de la traducción humana.

Del 15 al 21 de mayo de 1958, se celebró la primera conferencia de toda la Unión sobre traducción automática en el 1er Instituto Pedagógico Estatal de Moscú. El comité organizador estuvo encabezado por V. Yu Rosenzweig y el secretario ejecutivo del comité organizador G. V. Chernov. El programa completo de la conferencia se publica en la colección "Traducción automática y lingüística aplicada", vol. 1, 1959 (también conocido como "Boletín No. 8 de la Asociación de Traducción Automática"). Como recuerda V. Yu. Rosenzweig, la colección publicada de resúmenes de la conferencia terminó en los Estados Unidos y causó una gran impresión allí.

En abril de 1959, se celebró en Leningrado la Primera Conferencia de toda la Unión sobre Lingüística Matemática, convocada por la Universidad de Leningrado y el Comité de Lingüística Aplicada. El principal organizador del Encuentro fue ND Andreev. En el Encuentro participaron varios matemáticos destacados, en particular, S.L.Sobolev, L.V. Kantorovich (más tarde - Premio Nobel) y A.A. Markov (los dos últimos participaron en el debate). V. Yu. Rosenzweig pronunció el discurso de apertura "Teoría lingüística general de la traducción y lingüística matemática" el día de apertura del Encuentro.

Direcciones de la lingüística computacional

Procesamiento natural del lenguaje procesamiento natural del lenguaje; análisis sintáctico, morfológico, semántico del texto). Esto también incluye:

Lingüística de corpus, creación y uso de corpus de textos electrónicos
Creación de diccionarios electrónicos, tesauros, ontologías. Por ejemplo, Lingvo. Los diccionarios se utilizan, por ejemplo, para traducción automática, revisión ortográfica.
Traducción automática de textos. Promt es popular entre los traductores de ruso. Entre los gratuitos se encuentra el traductor de Google Translate.
Extracción automática de hechos del texto (extracción de información) (ing. extracción de hechos, minería de texto)
Autoreferencia (ing. resumen de texto automático). Esta función está incluida, por ejemplo, en Microsoft Word.
Construyendo sistemas de gestión del conocimiento. Ver sistemas expertos
Creación de sistemas de preguntas y respuestas (ing. sistemas de respuesta a preguntas).

Reconocimiento óptico de caracteres (ing. LOC). Por ejemplo, FineReader
Reconocimiento automático de voz (ing. ASR). Hay software de pago y gratuito.
Síntesis de voz automática

Grandes asociaciones y congresos

Programas de estudio en Rusia

ver también

Escribe una reseña sobre el artículo "Lingüística computacional"

Notas (editar)

Enlaces

(ensayo)
- base de conocimientos sobre recursos lingüísticos para el idioma ruso
- código abierto de algunas utilidades de lingüística computacional
- acceso en línea a programas de lingüística computacional

Un extracto que caracteriza la Lingüística Computacional

—Llévate, llévate a la niña —dijo Pierre, entregándole a la niña y dirigiéndose a la mujer de manera imperiosa y apresurada. - ¡Devuélveles, devuélvemelo! - gritó casi a la mujer, poniendo a la niña que gritaba en el suelo, y volvió a mirar a la familia francesa y armenia. El anciano ya estaba sentado descalzo. El pequeño francés se quitó la última bota y se golpeó entre sí. El anciano, sollozando, dijo algo, pero Pierre sólo lo vislumbró; toda su atención se centró en el francés del capó, que en ese momento, balanceándose lentamente, se acercó a la joven y, sacando las manos de los bolsillos, la agarró por el cuello.
La bella armenia seguía sentada en la misma posición inmóvil, con sus largas pestañas bajadas, y como si no viera ni sintiera lo que el soldado le estaba haciendo.
Mientras Pierre corría los pocos pasos que lo separaban del francés, el largo merodeador del gorro ya arrancaba el collar que llevaba del cuello de la armenia, y la joven, agarrándose el cuello con las manos, gritaba con voz desgarradora. .
- ¡Laissez cette femme! [¡Deja a esta mujer!] - gruñó Pierre con voz furiosa, agarrando al soldado largo y encorvado por los hombros y tirándolo. El soldado cayó, se levantó y se escapó. Pero su camarada, arrojando sus botas, sacó un cuchillo y avanzó amenazadoramente hacia Pierre.
- ¡Voyons, pas de betises! [¡Oh bien! ¡No seas tonto!] Gritó.
Pierre estaba en ese arrebato de rabia en el que no recordaba nada y en el que su fuerza se multiplicó por diez. Se arrojó sobre el francés descalzo, y antes de que pudiera sacar su cuchillo, ya lo había derribado y golpeado con los puños. Se escuchó un grito de aprobación de la multitud circundante, al mismo tiempo que una patrulla a caballo de lanceros franceses apareció a la vuelta de la esquina. Los lanceros se acercaron trotando a Pierre y al francés y los rodearon. Pierre no recordaba nada de lo que sucedió a continuación. Recordó que estaba golpeando a alguien, lo golpearon y que al final sintió que tenía las manos atadas, que una multitud de soldados franceses lo rodeaban y registraban su vestido.
- Il a un poignard, teniente, [El teniente, tiene una daga,] - fueron las primeras palabras que entendió Pierre.
- ¡Ah, une arme! [¡Ah, armas!] - dijo el oficial y se volvió hacia el soldado descalzo que se había llevado con Pierre.
- C "est bon, vous direz tout cela au conseil de guerre, [Está bien, está bien, lo contarás todo en el juicio]", dijo el oficial. Y luego se volvió hacia Pierre: - ¿Parlez vous francais vous? hablar francés?]
Pierre miró a su alrededor con los ojos inyectados en sangre y no respondió. Probablemente, su rostro parecía muy aterrador, porque el oficial dijo algo en un susurro, y cuatro lanceros más se separaron del equipo y se pararon a ambos lados de Pierre.
- ¿Parlez vous francais? El oficial le repitió la pregunta, manteniéndose alejado de él. - Faites venir l "interprete. [Llamar a un intérprete.] - Un hombrecillo vestido de civil ruso salió de detrás de las filas. Por su vestimenta y su discurso, Pierre inmediatamente lo reconoció como francés en una de las tiendas de Moscú.
- Il n "a pas l" air d "un homme du peuple, [No parece un plebeyo] - dijo el traductor, mirando alrededor de Pierre.
- ¡Oh, oh! ca m "a bien l" air d "un des incendiaires, - el oficial aceitado. - Demandez lui ce qu" il est? [¡Oh, oh! se parece mucho a un pirómano. Pregúntele quién es él.] Añadió.
- ¿Quién eres tú? Preguntó el traductor. “Los patrones deben ser responsables”, dijo.
- Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [no te diré quién soy. Soy tu prisionera. Llévame,] - dijo de repente Pierre en francés.
- ¡Ah ah! - dijo el oficial, frunciendo el ceño. - ¡Marchons!
Una multitud se reunió alrededor de los lanceros. Lo más cercano a Pierre era una mujer picada con una niña; cuando comenzó el desvío, avanzó.
- ¿A dónde te lleva esto, querido muchacho? - ella dijo. - Chica entonces, chica entonces ¿dónde la pondré, si no es de ellos? - dijo la mujer.
- ¿Qu "est ce qu" elle veut cette femme? [¿Qué quiere ella?] Preguntó el oficial.
Pierre estaba borracho. Su entusiasmo se intensificó aún más al ver a la chica que había salvado.
"Ce qu" elle dit? ", Dijo." Elle m "apporte ma fille que je viens de sauver des flammes", dijo. - ¡Adiós! [¿Qué quiere ella? Lleva a mi hija, a la que salvé del fuego. ¡Adiós!] - y él, sin saber cómo se le había escapado esta mentira sin rumbo, caminó con paso decisivo y solemne entre los franceses.
La salida de los franceses fue una de las que fueron enviadas por orden de Duronel por varias calles de Moscú para reprimir los saqueos y, en particular, para atrapar a los pirómanos, que, según la opinión general, aparecieron ese día entre los altos franceses. -funcionarios de rango, fueron la causa de los incendios. Habiendo recorrido varias calles, la patrulla detuvo a cinco rusos sospechosos más, un comerciante, dos seminaristas, un campesino y un patio, y varios saqueadores. Pero de todas las personas sospechosas, Pierre parecía la más sospechosa de todas. Cuando todos fueron llevados a un alojamiento para pasar la noche en una casa grande en Zubovsky Val, en la que se estableció una caseta de vigilancia, Pierre fue puesto por separado bajo estricta vigilancia.

En San Petersburgo en ese momento, en los círculos más altos, con mayor ardor que nunca, hubo una lucha compleja entre los partidos de Rumyantsev, los franceses, Maria Feodorovna, el Tsarevich y otros, ahogada, como siempre, por el trompeta de zumbidos de la corte. Pero tranquila, lujosa, preocupada sólo por fantasmas, reflejos de la vida, la vida de Petersburgo continuó como antes; y debido al curso de esta vida, hubo que hacer grandes esfuerzos para darse cuenta del peligro y la difícil situación en la que se encontraba el pueblo ruso. Había las mismas salidas, los mismos bailes, el mismo teatro francés, los mismos intereses de los patios, los mismos intereses de servicio e intriga. Sólo en los círculos más altos se hicieron esfuerzos para parecerse a la dificultad de la situación actual. Se contó en un susurro cómo ambas emperatrices actuaron frente a frente, en circunstancias tan difíciles. La emperatriz Maria Feodorovna, preocupada por el bienestar de las instituciones caritativas y educativas bajo su jurisdicción, ordenó enviar todas las instituciones a Kazán, y las cosas de estas instituciones ya estaban empacadas. La emperatriz Elizaveta Alekseevna, cuando se le preguntó qué órdenes le agradaba dar, con su característico patriotismo ruso, se dignó responder eso sobre agencias gubernamentales no puede dar órdenes, ya que esto concierne al soberano; Sobre lo mismo que personalmente depende de ella, se dignó decir que sería la última en salir de Petersburgo.

Desde 2012, el Instituto de Lingüística de la Universidad Estatal Rusa de Humanidades ha estado preparando maestrías para el programa de maestría. Ligüística computacional(dirección Lingüística fundamental y aplicada). Este programa está diseñado para preparar profesionales lingüistas competente tanto en los conceptos básicos de lingüística como en métodos modernos trabajo de investigación, experto-analítico, de ingeniería y capaz de participar eficazmente en el desarrollo de tecnologías informáticas lingüísticas innovadoras.

V proceso educativo Están involucrados desarrolladores de grandes sistemas de investigación y comerciales en el campo del procesamiento automático de texto, lo que proporciona un vínculo entre la formación de maestría y la corriente principal de la lingüística computacional moderna. Se presta especial atención a la participación de maestros en conferencias rusas e internacionales.

Entre los profesores se encuentran autores de libros de texto básicos sobre especialidades lingüísticas, especialistas de talla mundial, gestores de proyectos de grandes sistemas para el procesamiento automático del lenguaje: Ya.G. Testelets, I.M. Boguslavsky, V.I. Belikov, V.I. Podlesskaya, V.P. Selegey, L.L. Iomdin, A.S. Starostin, S.A. Sharov, así como empleados de empresas líderes mundiales en el campo de la lingüística computacional: IBM (sistema Watson), Yandex, ABBYY (Lingvo, FineReader, Compreno Systems).

La base para la preparación de maestrías en este programa es un enfoque basado en proyectos. La atracción de los estudiantes universitarios al trabajo de investigación en el campo de la lingüística computacional se produce sobre la base de la Universidad Estatal Rusa de Humanidades y sobre la base de empresas dedicadas al desarrollo de programas en el campo de AOT (ABBYY, IBM, etc. ), lo que, por supuesto, es una gran ventaja tanto para los propios maestros como para sus posibles empleadores. En particular, los maestros de destino son admitidos en la magistratura, cuya formación es proporcionada por futuros empleadores.

Pruebas de ingreso: "Modelos y métodos formales lingüística moderna". Se puede obtener información precisa sobre el momento del examen en el sitio web del departamento de magistratura de la Universidad Estatal de Humanidades de Rusia.

Jefe de la magistratura - jefe. Centro educativo y científico de lingüística computacional, director de investigación lingüística de ABBYY Vladimir Pavlovich Selegey y Doctor en Filosofía, Profesor Vera Isaakovna Podlesskaya .

El programa de la prueba de acceso y entrevistas en la disciplina "Modelos y métodos formales de la lingüística moderna".

Comentarios sobre el programa

Cualquier pregunta del programa puede ir acompañada de tareas relacionadas con las descripciones de fenómenos lingüísticos específicos relacionados con el apartado de la pregunta: la construcción de estructuras, la descripción de restricciones, posibles algoritmos de construcción y / o identificación.
Las preguntas marcadas con asteriscos son opcionales (los boletos están numerados como 3). La posesión de material relevante es una ventaja significativa para los candidatos, pero no es un requisito.
Además de las preguntas teóricas, las entradas para el examen ofrecerán un pequeño fragmento de un texto especial (lingüístico) en inglés para su traducción y discusión. Los solicitantes deben demostrar un nivel satisfactorio de competencia en la terminología científica del idioma inglés y habilidades en el análisis de textos científicos. Como ejemplo de texto que no debería causar serias dificultades para un solicitante, a continuación se muestra un extracto del artículo https://en.wikipedia.org/wiki/Anaphora_(linguistics):

En lingüística, anáfora (/ əˈnæfərə /) es el uso de una expresión cuya interpretación depende de otra expresión en contexto (su antecedente o postcedente). En un sentido más estricto, anáfora es el uso de una expresión que depende específicamente de una expresión antecedente y, por lo tanto, se contrasta con cataphora, que es el uso de una expresión que depende de una expresión posterior. El término anafórico (de referencia) se llama anáfora. Por ejemplo, en la oración llegó Sally, pero nadie la vio, el pronombre ella es una anáfora, refiriéndose a la Sally antecedente. En la oración Antes de su llegada, nadie vio a Sally, el pronombre ella se refiere a la Sally posterior a la precedente, por lo que ahora es una catáfora (y una anáfora en el sentido más amplio, pero no en el más estricto). Por lo general, una expresión anafórica es una expresión proforma o algún otro tipo de expresión deíctica (dependiente del contexto). Tanto la anáfora como la cataphora son especies de endophora, que se refieren a algo mencionado en otra parte de un diálogo o texto.

La anáfora es un concepto importante por diferentes razones y en diferentes niveles: primero, la anáfora indica cómo se construye y se mantiene el discurso; segundo, la anáfora une diferentes elementos sintácticos al nivel de la oración; tercero, la anáfora presenta un desafío para el procesamiento del lenguaje natural en lingüística computacional, ya que la identificación de la referencia puede ser difícil; y cuarto, la anáfora dice algunas cosas sobre cómo se entiende y procesa el lenguaje, lo cual es relevante para los campos de la lingüística interesados en la psicología cognitiva.

PREGUNTAS TEÓRICAS

CUESTIONES GENERALES DE IDIOMA

El objeto de la lingüística. Lenguaje y habla. Sincronía y diacronía.
Niveles de idioma. Modelos formales de niveles lingüísticos.
Sintagmática y paradigmática. Concepto de distribución.
Fundamentos de las comparaciones interlingüísticas: lingüística tipológica, genealógica y territorial.
* Lingüística matemática: objetos y métodos de investigación

FONÉTICA

El tema de la fonética. Articulación y fonética acústica.
Fonética segmentada y suprasegmental. Prosodia y entonación.
Conceptos básicos de fonología. Tipología de sistemas fonológicos y sus realizaciones fonéticas.
* Herramientas informáticas y métodos de investigación fonética.
* Análisis y síntesis del habla.

MORFOLOGÍA

Tema de morfología. Morfos, morfemas, alomorfos.
Inflexión y formación de palabras.
Significados gramaticales y formas de implementarlos. Categorías gramaticales y gramamas. Significados gramaticales morfológicos y sintácticos.
Conceptos de formas, bases, lemas y paradigmas de las palabras.
Partes de la oración; enfoques básicos para la selección de partes del discurso.
* Modelos formales para describir la inflexión y la formación de palabras.
* Morfología en tareas de procesamiento automático del lenguaje: revisión ortográfica, lematización, etiquetado POS

SINTAXIS

Asunto de la sintaxis. Modos de expresar relaciones sintácticas.
Formas de representar la estructura sintáctica de una oración. Ventajas y desventajas de la dependencia y los árboles constituyentes.
Métodos para describir el orden lineal. No proyectividad y rotura de componentes. Concepto de transformación; transformaciones asociadas con el orden lineal.
La relación entre sintaxis y semántica: valencias, modelos de control, actantes y sirconstants.
Diátesis y prenda. Derivación de actante.
Organización comunicativa del enunciado. Tema y rhema, dado y nuevo, contraste.
* Teorías sintácticas básicas: MCT, generativismo, gramática funcional, HPSG
* Modelos matemáticos de sintaxis: clasificación de lenguajes formales según Chomsky, algoritmos de reconocimiento y su complejidad.

SEMÁNTICA

Tema de semántica. Imagen lingüística ingenua y científica del mundo. Hipótesis de Sapir-Whorf.
Significado en lenguaje y habla: significado y referente. Tipo de referencia (estado denotativo).
Semántica léxica. Formas de describir la semántica de una palabra.
Semántica gramatical. Las principales categorías en el ejemplo del idioma ruso.
Semántica de oraciones. Componente proposicional. Deixis y Anaphora. Cuantificadores y paquetes. Modalidad.
Jerarquía y coherencia de los significados léxicos. Polisemia y homonimia. Estructura semántica de una palabra polisemántica. Los conceptos de invariante y prototipo.
Relaciones paradigmáticas y sintagmáticas en el vocabulario. Funciones léxicas.
Interpretación. Lenguaje de interpretaciones. Escuela Semántica de Moscú
Semántica y Lógica. El valor de verdad de la declaración.
La teoría de los actos de habla. El enunciado y su poder ilocucionario. Performativos. Clasificación de actos de habla.
Fraseología: inventario y métodos de descripción de unidades fraseológicas.
* Modelos y métodos de semántica formal.
* Modelos de semántica en lingüística computacional moderna.
* Semántica distributiva y operativa.
* Ideas básicas de construcciones gramaticales.

TIPOLOGÍA

Clasificaciones tipológicas tradicionales de lenguas.
Tipología de categorías gramaticales de un nombre y un verbo.
Tipología oración simple... Los principales tipos de estructuras son: acusativo, ergativo, activo.
Tipología de orden de palabras y correlaciones de Greenberg. Idiomas de ramificación izquierda y derecha.

LEXICOGRAFÍA

El vocabulario como inventario de la cultura; variación social del vocabulario, uso léxico, norma, codificación.
Tipología de diccionarios (en ruso). Reflexión de vocabulario en diccionarios de varios tipos.
Lexicografía bilingüe con la implicación de la lengua rusa.
Lexicografía descriptiva y prescriptiva. Diccionarios lingüísticos profesionales.
Especificidad de los principales diccionarios explicativos rusos. Estructura entrada de vocabulario... Interpretación e información enciclopédica.
Vocabulario y gramática. La idea del modelo integral del lenguaje en la Escuela Semántica de Moscú.
* Metodología del trabajo del lexicógrafo.
* Métodos de corpus en lexicografía.

LINGÜÍSTICA DE TEXTO Y DISCURSO

El concepto de texto y discurso.
Interfrasea los mecanismos de comunicación. Los principales tipos de medios de su implementación lingüística.
Una oración como unidad de lenguaje y como elemento de texto.
Unidad superfrasal, principios de su formación y selección, propiedades básicas.
Las principales categorías de clasificación de textos (género, estilo, registro, área temática etc)
* Métodos para la clasificación automática de géneros.

SOCIOLINGÜÍSTICA

El problema del sujeto y los límites de la sociolingüística, su carácter interdisciplinario. Conceptos básicos de sociología y demografía. Niveles de estructura lingüística y sociolingüística. Conceptos básicos y direcciones de la sociolingüística.
Contactos de idiomas. Bilingüismo y diglosia. Procesos divergentes y convergentes en la historia del lenguaje.
Diferenciación social del lenguaje. Formas de existencia del lenguaje. Lenguaje literario: usus-norm-codification. Esferas funcionales del lenguaje.
Socialización lingüística. La naturaleza jerárquica de la identidad social y lingüística. Comportamiento lingüístico del individuo y su repertorio comunicativo.
Métodos de investigación sociolingüística.

LINGÜÍSTICA INFORMÁTICA

Tareas y métodos de la lingüística computacional.
Lenguaje del cuerpo. Las principales características del caso.
Representación del conocimiento. Las principales ideas de la teoría de los marcos de M. Minsky. Sistema FrameNet.
Tesauros y ontologías. WordNet.
Fundamentos del análisis estadístico de textos. Diccionarios de frecuencia. Análisis de colocación.
* El concepto de aprendizaje automático.

LITERATURA

Educativo (nivel básico)

Baranov A.N. Introducción a la Lingüística Aplicada. M .: Editorial URRS, 2001.

Baranov A.N., Dobrovolsky D.O. Fundamentos de fraseología (curso corto) Tutorial... 2ª edición. Moscú: Flinta, 2014.

Belikov V.A., Krysin L.P. Sociolingüística. M., RGGU, 2001.

Burlak S.A., Starostin S.A. Lingüística histórico-comparativa. M.: Academia. 2005

Vakhtin N.B., Golovko E.V. Sociolingüística y sociología del lenguaje. SPb., 2004.

Knyazev S.V., Pozharitskaya S.K. Lengua literaria rusa moderna: fonética, gráficos, ortografía, ortografía. 2ª ed. M., 2010

Kobozeva I.M. Semántica lingüística. M .: Editorial URSS. 2004.

Kodzasov S.V., Krivnova O.F. Fonética general... M .: RGGU, 2001.

Krongauz M.A. Semántica. M.: RGGU. 2001.

Krongauz M.A. Semántica: Tareas, tareas, textos. M.: Academia. 2006 ..

Maslov Yu.S. Introducción a la lingüística. Ed. 6to, borrado. M.: Academia, fil. fac. SPbSU,

Plungyan V.A. Morfología general: una introducción a la problemática. Ed. 2do. Moscú: Editorial URSS, 2003.

Testelets Ya.G. Introducción a la sintaxis general. M., 2001.

Shaykevich A.Ya. Introducción a la lingüística. M.: Academia. 2005.

Científico y de referencia

Apresyan Yu.D. Obras seleccionadas, tomo I. Semántica léxica: 2ª ed., Isp. y añadir. M.: Escuela "Idiomas de la cultura rusa", 1995.

Apresyan Yu.D. Obras seleccionadas, Volumen II. Descripción integral del lenguaje y lexicografía sistémica. M.: Escuela "Idiomas de la cultura rusa", 1995.

Apresyan Yu.D.(ed.) Nuevo diccionario explicativo de sinónimos de la lengua rusa. Moscú - Viena: "Idiomas de la cultura rusa", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresyan Yu.D.(ed.) Imagen lingüística del mundo y lexicografía sistémica (editor en jefe Yu. D. Apresyan). M.: "Lenguas de las culturas eslavas", 2006, Prefacio y Cap. 1, págs. 26 - 74.

Bulygina T.V., Shmelev A.D. Conceptualización lingüística del mundo (basada en el material de la gramática rusa). M.: Escuela "Idiomas de la cultura rusa", 1997.

Weinreich U. Contactos de idiomas. Kiev, 1983.

Vezhbitskaya A. Universales semánticos y descripción de lenguajes. M.: Escuela "Idiomas de la cultura rusa". 1999.

Galperin I.R. El texto como objeto de investigación lingüística. 6ª ed. M.: LKI, 2008 ("Herencia lingüística del siglo XX")

A.A. Zaliznyak“Inflexión nominal rusa” con un apéndice de obras seleccionadas sobre el idioma ruso moderno y la lingüística general. Moscú: Lenguas de la cultura eslava, 2002.

A.A. Zaliznyak, E.V. Paducheva Hacia una tipología de sentencias relativas. / Semiótica e informática, vol. 35. M., 1997, pág. 59-107.

Ivanov Viach. Sol. Lingüística del tercer milenio. Preguntas para el futuro. M., 2004. S. 89-100 (11. La situación lingüística del mundo y previsiones para un futuro próximo).

Kibrik A.E. Ensayos sobre problemas generales y aplicados de la lingüística. M.: Editorial de la Universidad Estatal de Moscú, 1992.

Kibrik A.E. Constantes y variables de lenguaje. SPb: Aleteya, 2003.

Labov U. Sobre el mecanismo de los cambios lingüísticos // Novedades en lingüística. Número 7. M., 1975 S. 320-335.

Leones J. Semántica lingüística: una introducción. M.: Lenguas de la cultura eslava. 2003.

Lyons John. Lengua y lingüística. Curso de introducción. M: URSS, 2004

Lakoff J. Mujeres, fuego y cosas peligrosas: qué categorías de lenguaje nos dicen sobre el pensamiento. M.: Lenguas de la cultura eslava. 2004.

Lakoff J., Johnson M... Las metáforas por las que vivimos. Por. De inglés Edición 2. M.: URSS. 2008.

Diccionario Enciclopédico Lingüístico / Ed. Y EN. Yartseva. M.: Editorial científica "Great Russian Encyclopedia", 2002.

Melchuk I.A. Curso de morfología general. TT. I-IV. Moscú-Viena: "Lenguas de la cultura eslava", Wiener Slavistischer Almanach, Sonderband 38 / 1-38 / 4, 1997-2001.

Melchuk I.A. Experiencia de la teoría de modelos lingüísticos "SIGNIFICADO ↔ TEXTO". M.: Escuela "Idiomas de la cultura rusa", 1999.

Fedorova L.L. Semiótica. M., 2004.

Filippov K.A. Lingüística del texto: Curso de conferencias - 2ª ed., Isp. y añadir. Ed. San Petersburgo. Universidad, 2007.

Haspelmath, M. y col.... (eds.). Atlas mundial de estructuras lingüísticas. Oxford, 2005.

Secadora, M.S. y Haspelmath, M.(eds.) El Atlas mundial de estructuras lingüísticas en línea. Leipzig: Instituto Max Planck de Antropología Evolutiva, 2013. (http://wals.info)

Croft W. Tipología y universales. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.)... Tipología lingüística y descripción sintáctica. 2ª edición. Cambridge, 2007.

V.I.Belikov. Acerca de los diccionarios “que contienen las normas de la lengua literaria rusa moderna cuando se utilizan como lengua estatal Federación Rusa". 2010 // Portal Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

Lingüística computacional y tecnologías inteligentes: Basado en los materiales de la Conferencia Internacional anual "Diálogo". Asunto 1-11. - M.: Editorial Nauka, de la Universidad Estatal de Humanidades de Rusia, 2002-2012. (Artículos sobre lingüística computacional, http://www.dialog-21.ru).

Corpus nacional de la lengua rusa: 2006-2008. Nuevos resultados y perspectivas. / Resp. ed. V.A. Plungyan. - SPb.: Nestor-History, 2009.

Nuevo en lingüística extranjera. Asunto XXIV, Lingüística computacional / Comp. B. Yu. Gorodetsky. Moscú: Progreso, 1989.

Shimchuk E. G. Lexicografía rusa: libro de texto. M.: Academia, 2009.

Corpus nacional de la lengua rusa: 2003-2005. Recopilación de artículos. M .: Indrik, 2005.

Para contactos:

Centro Educativo y Científico de Lingüística Computacional, Instituto de Lingüística, Universidad Estatal de Humanidades de Rusia

El contenido del artículo

LINGÜÍSTICA INFORMÁTICA, dirección a la lingüística aplicada, centrado en el uso de herramientas informáticas - programas, tecnologías informáticas para la organización y procesamiento de datos - para simular el funcionamiento de un lenguaje en determinadas condiciones, situaciones, áreas problemáticas, etc., así como todo el alcance de los modelos de lenguaje informático en lingüística y disciplinas afines. En realidad, sólo en el último caso estamos hablando de lingüística aplicada en sentido estricto, ya que el modelado informático de un lenguaje también puede considerarse como un ámbito de aplicación de la informática y la teoría de la programación a la resolución de problemas de la ciencia del lenguaje. . En la práctica, sin embargo, casi todo lo relacionado con el uso de ordenadores en lingüística se denomina lingüística computacional.

La lingüística computacional tomó forma como una dirección científica especial en la década de 1960. El término ruso "lingüística computacional" es un seguimiento de la lingüística computacional inglesa. Dado que el adjetivo computacional en ruso también se puede traducir como "computacional", el término "lingüística computacional" también se encuentra en la literatura, pero en la ciencia rusa adquiere un significado más limitado, acercándose al concepto de "lingüística cuantitativa". El flujo de publicaciones en esta área es muy grande. Además de las colecciones temáticas, la revista "Computational Linguistics" se publica trimestralmente en los EE. UU. Una gran parte del trabajo organizativo y científico lo lleva a cabo la Asociación de Lingüística Computacional, que tiene estructuras regionales (en particular, la rama europea). Los congresos internacionales sobre lingüística computacional - COLING se llevan a cabo cada dos años. Los temas relevantes también suelen presentarse ampliamente en diversas conferencias sobre inteligencia artificial.

Kit de herramientas de lingüística computacional.

La lingüística computacional como disciplina aplicada especial se distingue principalmente por su instrumento, es decir, sobre el uso de herramientas informáticas para procesar datos lingüísticos. Dado que los programas de computadora que simulan ciertos aspectos del funcionamiento de un lenguaje pueden utilizar una variedad de herramientas de programación, parece que no hay necesidad de hablar sobre el aparato conceptual general de la lingüística computacional. Sin embargo, no lo es. Existen principios generales del modelado informático del pensamiento, que de alguna manera se implementan en cualquier modelo informático. Se basan en la teoría del conocimiento, que se desarrolló originalmente en el campo de la inteligencia artificial, y luego se convirtió en una de las ramas de la ciencia cognitiva. Las categorías conceptuales más importantes de la lingüística computacional son estructuras de conocimiento tales como "marcos" (estructuras conceptuales o, como dicen, conceptuales para la representación declarativa del conocimiento sobre una situación unificada temáticamente tipificada), "escenarios" (estructuras conceptuales para la representación procedimental del conocimiento sobre una situación estereotipada o comportamiento estereotipado), "planes" (estructuras de conocimiento que fijan ideas sobre posibles acciones conducentes al logro de un determinado objetivo). Estrechamente relacionado con la categoría de fotogramas está el concepto de "escena". La categoría de escena se utiliza principalmente en la literatura sobre lingüística computacional como una designación de la estructura conceptual para la representación declarativa de situaciones y sus partes actualizadas en un acto de habla y resaltadas por medios del lenguaje (lexemas, construcciones sintácticas, categorías gramaticales, etc.) .

Un conjunto de estructuras de conocimiento, organizado de cierta manera, forma el "modelo del mundo" del sistema cognitivo y su modelo informático. En los sistemas de inteligencia artificial, el modelo del mundo forma un bloque especial, que, dependiendo de la arquitectura elegida, puede incluir conocimientos generales sobre el mundo (en forma de proposiciones simples como "frío en invierno" o en forma de reglas de producción " si está lloviendo afuera, entonces debe usar un impermeable o llevar un paraguas "), algunos hechos específicos (" El pico más alto del mundo: el Everest "), así como los valores y sus jerarquías, a veces separados en un especial "bloque axiológico".

La mayoría de los elementos de los conceptos de la caja de herramientas de la lingüística computacional son homónimos: denotan simultáneamente algunas entidades reales del sistema cognitivo humano y las formas de representar estas entidades utilizadas en su descripción y modelado teóricos. En otras palabras, los elementos del aparato conceptual de la lingüística computacional tienen aspectos ontológicos e instrumentales. Por ejemplo, en el aspecto ontológico, la separación del conocimiento declarativo y procedimental corresponde a los diferentes tipos de conocimiento que tiene una persona - el llamado conocimiento del QUÉ (declarativo; tal es, por ejemplo, el conocimiento de la dirección postal de cualquier NN ), por un lado, y el conocimiento del CÓMO (procedimental; tal es, por ejemplo, el conocimiento que le permite encontrar el apartamento de esta NN, incluso sin conocer su dirección formal) - por el otro. En el aspecto instrumental, el conocimiento se puede plasmar en un conjunto de descripciones (descripciones), en un conjunto de datos, por un lado, y en un algoritmo, una instrucción que realiza una computadora o algún otro modelo de un sistema cognitivo, por el otro. .

Direcciones de la lingüística computacional.

La esfera de CL es muy diversa e incluye áreas como el modelado informático de la comunicación, el modelado de la estructura de una trama, las tecnologías de hipertexto de presentación de texto, Traducción automática, lexicografía informática. En un sentido estricto, los problemas de CL a menudo se asocian con interdisciplinarios dirección aplicada con unos pocos nombre desafortunado Procesamiento del lenguaje natural (traducción Término en inglés Procesamiento natural del lenguaje). Surgió a finales de la década de 1960 y se desarrolló en el marco de la disciplina científica y tecnológica "inteligencia artificial". En su forma intrínseca, el procesamiento del lenguaje natural abarca todas las áreas en las que se utilizan las computadoras para procesar los datos del lenguaje. Mientras tanto, una comprensión más estrecha de este término se ha consolidado en la práctica: el desarrollo de métodos, tecnologías y sistemas específicos que garantizan la comunicación entre una persona y una computadora en un lenguaje natural o natural limitado.

El rápido desarrollo de la dirección del "procesamiento del lenguaje natural" cae en la década de 1970, que se asoció con un crecimiento exponencial inesperado en el número de usuarios finales de computadoras. Dado que la enseñanza de lenguajes y tecnologías de programación para todos los usuarios es imposible, surgió el problema de organizar la interacción con los programas de computadora. La solución a este problema de comunicación fue por dos caminos principales. En el primer caso, se intentó adaptar lenguajes de programación y sistemas operativos al usuario final. Como resultado, aparecieron idiomas nivel alto tipo Visual Basic, así como conveniente SO, construido en el espacio conceptual de metáforas familiares para el hombre - ESCRITORIO, BIBLIOTECA. La segunda vía es el desarrollo de sistemas que permitan interactuar con computadoras en un área problemática específica en lenguaje natural o en alguna versión limitada del mismo.

La arquitectura de los sistemas de procesamiento del lenguaje natural generalmente incluye una unidad para analizar el mensaje de voz de un usuario, una unidad para interpretar un mensaje, una unidad para generar el significado de una respuesta y una unidad para sintetizar la estructura superficial de una expresión. Una parte especial del sistema es el componente de diálogo, en el cual se fijan las estrategias para la realización de un diálogo, las condiciones para aplicar estas estrategias, formas de superar posibles fallas de comunicación (fallas en el proceso de comunicación).

Entre los sistemas informáticos para el procesamiento del lenguaje natural, se suelen distinguir los sistemas de preguntas y respuestas, los sistemas de diálogo para la resolución de problemas y los sistemas para procesar textos coherentes. Inicialmente, los sistemas de preguntas y respuestas comenzaron a desarrollarse como reacción a la mala calidad de las solicitudes de codificación cuando se buscaba información en los sistemas de recuperación de información. Dado que el área de problemas de tales sistemas era muy limitada, esto simplificó un poco los algoritmos para traducir consultas en una representación en un lenguaje formal y el procedimiento inverso para transformar una representación formal en declaraciones en un lenguaje natural. Entre los desarrollos nacionales, este tipo de programa incluye el sistema POET, creado por un equipo de investigadores bajo el liderazgo de E.V. Popov. El sistema procesa las solicitudes en ruso (con pocas restricciones) y sintetiza la respuesta. El diagrama de bloques del programa asume el paso de todas las etapas de análisis (morfológica, sintáctica y semántica) y las correspondientes etapas de síntesis.

Los sistemas de resolución de problemas de diálogo, a diferencia de los sistemas del tipo anterior, juegan un papel activo en la comunicación, ya que su tarea es obtener una solución a un problema en base al conocimiento que se presenta en él y la información que se puede obtener del usuario. El sistema contiene estructuras de conocimiento que registran secuencias típicas de acciones para resolver problemas en un área determinada del problema, así como información sobre los recursos necesarios. Cuando el usuario hace una pregunta o plantea una tarea específica, se activa el script correspondiente. Si faltan algunos componentes del script o faltan algunos recursos, el sistema inicia la comunicación. Así funciona, por ejemplo, el sistema SNUKA, que resuelve los problemas de planificación de operaciones militares.

Los sistemas para procesar textos conectados tienen una estructura bastante diversa. Su característica común es el uso generalizado de tecnologías de representación del conocimiento. Las funciones de los sistemas de este tipo son comprender el texto y responder preguntas sobre su contenido. La comprensión no se ve como una categoría universal, sino como un proceso de extracción de información de un texto, determinado por una intención comunicativa específica. En otras palabras, el texto se "lee" solo con la configuración que el usuario potencial desea conocer. Por tanto, los sistemas para procesar textos conectados no resultan en modo alguno universales, sino orientados a problemas. Ejemplos típicos de sistemas del tipo en discusión son los sistemas RESEARCHER y TAILOR, que forman un único paquete de software que permite al usuario obtener información de resúmenes de patentes que describen objetos físicos complejos.

El área más importante de la lingüística computacional es el desarrollo de sistemas de recuperación de información (ISS). Este último surgió a fines de la década de 1950 y principios de la de 1960 como respuesta a un fuerte aumento en el volumen de información científica y técnica. Por el tipo de información almacenada y procesada, así como por las características de la búsqueda, el IRS se divide en dos grandes grupos: documental y fáctico. La ISS documental almacena los textos de los documentos o sus descripciones (resúmenes, fichas bibliográficas, etc.). El Servicio de Impuestos Internos Factográfico se ocupa de la descripción de hechos específicos, y no necesariamente en forma de texto. Pueden ser tablas, fórmulas y otros tipos de presentación de datos. También hay IRS mixtos, que incluyen tanto documentos como información fáctica. Actualmente, el IRS fáctico se construye sobre la base de tecnologías de bases de datos (DB). Para proporcionar recuperación de información en la ISS, se crean lenguajes especiales de recuperación de información, que se basan en tesauros de recuperación de información. Un lenguaje de recuperación de información es un lenguaje formal diseñado para describir aspectos individuales del plan de contenido de los documentos almacenados en una ISS y una consulta. El procedimiento para describir un documento en un lenguaje de recuperación de información se llama indexación. Como resultado de la indexación, a cada documento se le asigna su descripción formal en el lenguaje de recuperación de información, la imagen de recuperación del documento. La consulta se indexa de la misma forma, a lo que se atribuye la imagen de búsqueda de la consulta y la prescripción de búsqueda. Los algoritmos de recuperación de información se basan en comparar la prescripción de búsqueda con la imagen de búsqueda de la consulta. El criterio para emitir un documento a una solicitud puede consistir en la coincidencia total o parcial de la imagen de búsqueda del documento y la prescripción de búsqueda. En algunos casos, el usuario tiene la oportunidad de formular él mismo los criterios de emisión. Está determinado por él necesidad de información... Los lenguajes de recuperación de información de descriptores se utilizan con más frecuencia en los sistemas automatizados de recuperación de información. El tema de un documento se describe mediante un conjunto de descriptores. Los descriptores son palabras, términos que denotan categorías y conceptos simples y bastante elementales del área del problema. Se ingresan tantos descriptores en la imagen de búsqueda del documento como varios temas se tratan en el documento. El número de descriptores no está limitado, lo que le permite describir el documento en una matriz multidimensional de características. A menudo, en un lenguaje de recuperación de información de descriptores, se imponen restricciones a la compatibilidad de los descriptores. En este caso, podemos decir que el lenguaje de recuperación de información tiene una sintaxis.

Uno de los primeros sistemas que trabajó con un lenguaje descriptor fue el sistema americano UNITERM, creado por M. Taube. Como descriptores en este sistema funcionaban las palabras clave del documento: unitherms. La peculiaridad de esta ISS es que inicialmente no se especificó el diccionario del lenguaje de la información, sino que surgió en el proceso de indexación del documento y la consulta. El desarrollo de sistemas modernos de recuperación de información está asociado con el desarrollo de una ISS sin saurios. Dichos IRS trabajan con el usuario en un lenguaje natural limitado y la búsqueda se realiza en los textos de los resúmenes de los documentos, en sus descripciones bibliográficas y, a menudo, en los propios documentos. Para la indexación en la ISS del tipo sin saurus, se utilizan palabras y frases de un lenguaje natural.

Al campo de la lingüística computacional, en cierta medida, se le puede atribuir el trabajo en el campo de la creación de sistemas de hipertexto, considerado como una forma especial de organizar el texto e incluso como un tipo de texto fundamentalmente nuevo, opuesto en muchas de sus propiedades a un texto ordinario formado en la tradición tipográfica de Gutenberg. La idea de hipertexto está asociada con el nombre de Vannevar Bush, asesor científico del presidente Roosevelt. V. Bush fundamentó teóricamente el proyecto del sistema técnico "Memex", que permitía al usuario enlazar textos y sus fragmentos mediante varios tipos de enlaces, principalmente mediante relaciones asociativas. La falta de tecnología informática hizo que el proyecto fuera difícil de implementar, ya que el sistema mecánico resultó ser demasiado complejo para su implementación práctica.

La idea de Bush en los años sesenta recibió un renacimiento en el sistema Xanadu por parte de T. Nelson, que ya asumía el uso de la tecnología informática. "Xanadu" permitió al usuario leer un conjunto de textos ingresados en el sistema diferentes caminos, en una secuencia diferente, el software hizo posible tanto memorizar la secuencia de los textos escaneados como seleccionar entre ellos casi cualquiera en un momento arbitrario en el tiempo. Nelson llamó hipertexto a un conjunto de textos con relaciones que los conectan (un sistema de transiciones). Muchos investigadores ven la creación de hipertexto como el comienzo de una nueva era de la información, opuesta a la era de la tipografía. La linealidad de la escritura, que refleja exteriormente la linealidad del habla, resulta ser una categoría fundamental que limita el pensamiento humano y la comprensión del texto. El mundo del significado no es lineal, por lo tanto, la compresión de información semántica en un segmento de habla lineal requiere el uso de "paquetes comunicativos" especiales: división en tema y golpe, dividiendo el plan de contenido de una expresión en explícito (declaración, proposición, enfoque ) e implícitas (presuposición, consecuencia, implicación del discurso) capas ... El rechazo de la linealidad del texto tanto en el proceso de su presentación al lector (es decir, durante la lectura y comprensión) como en el proceso de síntesis, según los teóricos, contribuiría a la "liberación" del pensamiento e incluso al surgimiento de sus nuevas formas.

En un sistema informático, el hipertexto se presenta en forma de gráfico, en cuyos nodos se encuentran los textos tradicionales o sus fragmentos, imágenes, tablas, videos, etc. Los nodos están conectados por una variedad de relaciones, los tipos de los cuales son definidos por los desarrolladores de software de hipertexto o el lector mismo. Las relaciones definen el potencial de movimiento o navegación de hipertexto. Las relaciones pueden ser unidireccionales o bidireccionales. En consecuencia, las flechas bidireccionales permiten que el usuario se mueva en ambas direcciones y las flechas unidireccionales solo en una dirección. La cadena de nodos a través de los cuales pasa el lector al ver los componentes del texto forma un camino o ruta.

Las implementaciones informáticas del hipertexto son jerárquicas o en red. La estructura jerárquica (en forma de árbol) del hipertexto limita significativamente las posibilidades de transición entre sus componentes. En tal hipertexto, las relaciones entre componentes se asemejan a la estructura de un tesauro basado en relaciones genéricas. El hipertexto de red le permite utilizar diferentes tipos de relaciones entre componentes, sin limitarse a la relación "género-especie". Según la forma de existencia del hipertexto, se distingue el hipertexto estático y dinámico. El hipertexto estático no cambia durante el funcionamiento; en él el usuario puede grabar sus comentarios, pero no cambian la esencia del asunto. Para el hipertexto dinámico, el cambio es una forma normal de existencia. Normalmente, el hipertexto dinámico funciona donde es necesario analizar constantemente el flujo de información, es decir, en servicios de información de diversa índole. El hipertexto es, por ejemplo, el Sistema de Información de Arizona (AAIS), que se actualiza mensualmente entre 300 y 500 resúmenes por mes.

Las relaciones entre los elementos del hipertexto pueden ser inicialmente fijadas por los creadores, o pueden generarse cada vez que el usuario recurre al hipertexto. En el primer caso, hablamos de hipertextos de estructura rígida, y en el segundo, de hipertextos de estructura blanda. La estructura rígida es tecnológicamente bastante comprensible. La tecnología para organizar una estructura blanda debe basarse en un análisis semántico de la proximidad de los documentos (u otras fuentes de información) entre sí. Ésta es una tarea no trivial en lingüística computacional. Hoy en día, el uso de tecnologías de estructura blanda en palabras clave está muy extendido. La transición de un nodo a otro en la red de hipertexto se realiza como resultado de una búsqueda de palabras clave. Dado que el conjunto de palabras clave puede ser diferente cada vez, la estructura del hipertexto también cambia cada vez.

La tecnología de construcción de sistemas de hipertexto no distingue entre información textual y no textual. Mientras tanto, la inclusión de información visual y de audio (videos, pinturas, fotografías, grabaciones de sonido, etc.) requiere un cambio significativo en la interfaz de usuario y un software y soporte informático más poderoso. Estos sistemas se denominan hipermedia o multimedia. La visibilidad de los sistemas multimedia predeterminó su uso generalizado en la enseñanza, en la creación de versiones informáticas de enciclopedias. Hay, por ejemplo, CD-ROM perfectamente ejecutados con sistemas multimedia basados en enciclopedias infantiles de la editorial Dorlin Kindersley.

En el marco de la lexicografía por computadora, se están desarrollando tecnologías informáticas para la compilación y operación de diccionarios. Los programas especiales (bases de datos, archivadores de computadora, programas de procesamiento de texto) le permiten formar automáticamente entradas de diccionario, almacenar información de diccionario y procesarla. Muchos programas lexicográficos informáticos diferentes se dividen en dos grandes grupos: programas de apoyo a trabajos lexicográficos y diccionarios automáticos de varios tipos, incluidas las bases de datos lexicográficas. Un diccionario automático es un diccionario en un formato de máquina especial destinado a ser utilizado en una computadora por un usuario o por un programa informático de procesamiento de textos. En otras palabras, se hace una distinción entre los diccionarios automáticos del usuario final humano y los diccionarios automáticos para programas de procesamiento de texto. Los diccionarios automáticos destinados al usuario final difieren significativamente en términos de interfaz y estructura de la entrada del diccionario de los diccionarios automáticos incluidos en los sistemas de traducción automática, sistemas de resumen automático, recuperación de información, etc. La mayoría de las veces son versiones para computadora de diccionarios convencionales bien conocidos. En el mercado del software, existen análogos informáticos de los diccionarios explicativos en inglés (Webster automático, diccionario explicativo Collins English, una versión automática del New Great Diccionario inglés-ruso ed. Y.D. Apresyan y E.M. Mednikova), también hay una versión para computadora del diccionario de Ozhegov. Los diccionarios automáticos para programas de procesamiento de texto pueden denominarse diccionarios automáticos en un sentido preciso. Por lo general, no están destinados al usuario medio. Las peculiaridades de su estructura, el alcance del material de vocabulario están determinadas por los programas que interactúan con ellos.

El modelado informático de la estructura de la trama es otra dirección prometedora en la lingüística computacional. El estudio de la estructura de la trama se refiere a los problemas de la crítica literaria estructural (en sentido amplio), la semiótica y los estudios culturales. Los programas de computadora disponibles para el modelado de parcelas se basan en tres formalismos básicos de presentación de parcelas: direcciones morfológicas y sintácticas de presentación de parcelas, así como en enfoque cognitivo... Las ideas sobre la estructura morfológica de la estructura de la trama se remontan a trabajos famosos V.Ya.Proppa ( cm.) sobre un cuento de hadas ruso. Propp notó que con la abundancia de personajes y eventos en un cuento de hadas, el número de funciones de los personajes es limitado, y propuso un aparato para describir estas funciones. Las ideas de Propp formaron la base del programa informático TALE, que simula la creación de una trama de cuento de hadas. El algoritmo del programa TALE se basa en la secuencia de funciones de los personajes de cuento de hadas. De hecho, las funciones de Propp establecen muchas situaciones tipificadas, ordenadas en base al análisis de material empírico. Capacidades de embrague Diferentes situaciones en las reglas de generación estaban determinadas por una secuencia típica de funciones, en la forma en que se puede establecer a partir de los textos de los cuentos de hadas. En el programa, las secuencias típicas de funciones se describieron como escenarios típicos de encuentros con personajes.

La base teórica del enfoque sintáctico de la trama del texto estaba formada por "gramáticas de la trama" o "gramáticas de la historia". Aparecieron a mediados de la década de 1970 como resultado de la transferencia de las ideas de gramática generativa de N. Chomsky a la descripción de la macroestructura del texto. Si los componentes más importantes de la estructura sintáctica en la gramática generativa eran verbos y frases nominales, entonces en la mayoría de las gramáticas de la trama, el escenario, el evento y el episodio se destacaron como básicos. En la teoría de las gramáticas de la trama, se discutieron ampliamente las condiciones de minimidad, es decir, las restricciones que determinaban el estado de una secuencia de elementos de la trama como una trama normal. Sin embargo, resultó que era imposible hacer esto utilizando métodos puramente lingüísticos. Muchas restricciones son de naturaleza sociocultural. Las gramáticas de la trama, que difieren significativamente en el conjunto de categorías en el árbol generacional, permitieron un conjunto muy limitado de reglas para modificar la estructura narrativa (narrativa).

A principios de la década de 1980, uno de los estudiantes de R. Schenk, V. Lehnert, como parte del trabajo sobre la creación de un generador de tramas por computadora, propuso el formalismo original de las unidades de trama emocional (Unidades de trama afectiva), que resultó ser una poderosos medios de representar la estructura de la trama. Si bien se desarrolló originalmente para un sistema de inteligencia artificial, este formalismo se utilizó de forma puramente estudios teóricos... La esencia del enfoque de Lehnert fue que la trama se describió como un cambio secuencial en los estados cognitivo-emocionales de los personajes. Por lo tanto, el enfoque del formalismo de Lehnert no son los componentes externos de la trama - la exposición, el evento, el episodio, la moralidad - sino sus características de contenido. En este sentido, el formalismo de Lehnert es en parte un retorno a las ideas de Propp.

La competencia de la lingüística computacional también incluye la traducción automática, que actualmente está experimentando un renacimiento.

Literatura:

Popov E.V. Comunicación con una computadora en lenguaje natural... M., 1982
Sadur V.G. Comunicación de voz con computadoras electrónicas y problemas de su desarrollo... - En el libro: Comunicación oral: problemas y perspectivas. M., 1983
Baranov A.N. Categorías de inteligencia artificial en semántica lingüística. Marcos y guiones... M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modelado de la comunicación en sistemas hombre-máquina... - Soporte lingüístico de sistemas de información. M., 1987
Olker H.R. Cuentos de hadas, tragedias y formas de presentar la historia mundial... - En el libro: Lenguaje y modelado de la interacción social. M., 1987
Gorodetsky B.Yu. Lingüística computacional: modelado de la comunicación del lenguaje
McKewin K. Estrategias discursivas para la síntesis de textos en lenguaje natural... - Novedad en lingüística extranjera. Asunto XXIV, Lingüística Computacional. M., 1989
Popov E.V., Preobrazhensky A.B . Características de la implementación de sistemas NL.
Preobrazhensky A.B. El estado de desarrollo de los sistemas modernos de NL... - Inteligencia artificial. Libro. 1, Sistemas de comunicación y sistemas expertos. M., 1990
M.M. Subbotin Hipertexto. Una nueva forma de comunicación escrita... - VINITI, Ser. Informática, 1994, vol. 18
Baranov A.N. Introducción a la lingüística aplicada... M., 2000

Los lingüistas informáticos se dedican al desarrollo de algoritmos para el reconocimiento de texto y voz sonora, la síntesis de voz artificial, la creación de sistemas de traducción semántica y el desarrollo de la inteligencia artificial en sí (en el sentido clásico de la palabra, como reemplazo de la palabra humana). - Es poco probable que aparezca alguna vez, pero varios sistemas expertos basados en análisis de datos).

Los algoritmos de reconocimiento de voz se utilizarán cada vez más en la vida cotidiana: las "casas inteligentes" y los dispositivos electrónicos no tendrán controles remotos ni botones, sino que utilizarán una interfaz de voz. Esta tecnología se está perfeccionando, pero todavía existen muchos desafíos: es difícil para una computadora reconocer el habla humana porque diferentes personas hablan de manera muy diferente. Por lo tanto, como regla general, los sistemas de reconocimiento funcionan bien cuando están entrenados para un hablante y ya están ajustados a sus características de pronunciación, o cuando el número de frases que el sistema puede reconocer es limitado (como, por ejemplo, en los comandos de voz para la televisión).

Los especialistas en la creación de programas de traducción semántica todavía tienen mucho trabajo por delante: por el momento, se han desarrollado buenos algoritmos solo para la traducción hacia y desde el inglés. Hay muchos problemas - idiomas diferentes se organizan de diferentes maneras en el plan semántico, difiere incluso en el nivel de construcción de frases, y no todos los significados de una lengua pueden transmitirse utilizando el aparato semántico de otra. Además, el programa debe distinguir entre homónimos, reconocer correctamente las partes del discurso y elegir el significado correcto de una palabra polisemántica que se adapte al contexto.

La síntesis del habla artificial (por ejemplo, para robots domésticos) también es un trabajo minucioso. Es difícil hacer que el habla creada artificialmente suene natural para el oído humano, porque hay millones de matices a los que no prestamos atención, pero sin los cuales no todo está "bien": comienzos en falso, pausas, atascos, etc. El flujo del habla es continuo y al mismo tiempo discreto: hablamos sin pausa entre palabras, pero no nos es difícil entender dónde termina una palabra y comienza otra, y para una máquina esto será un gran problema.

La dirección más importante en lingüística computacional está relacionada con Big Data. Después de todo, existen enormes corpus de textos, como los feeds de noticias, de los que es necesario aislar cierta información, por ejemplo, resaltar feeds de noticias o perfeccionar RSS según los gustos de un determinado usuario. Estas tecnologías ya existen y seguirán desarrollándose, porque la potencia informática está creciendo rápidamente. Análisis lingüístico Los textos también se utilizan para garantizar la seguridad en Internet, para buscar la información necesaria para servicios especiales.

¿Dónde estudiar para convertirse en lingüista informático? Desafortunadamente, tenemos especialidades muy separadas relacionadas con la lingüística clásica y la programación, la estadística y el análisis de datos. Y para convertirse en un lingüista digital, debe comprender ambos. Las universidades extranjeras tienen programas de educación superior en lingüística computacional, pero todavía tenemos la mejor opción: obtener una educación lingüística básica y luego dominar los conceptos básicos de TI. Es bueno que ahora haya muchos cursos en línea diferentes, desafortunadamente, en mis años de estudiante, esto no fue así. Estudié en la Facultad de Lingüística Aplicada de la Universidad Lingüística Estatal de Moscú, donde impartíamos cursos sobre inteligencia artificial y reconocimiento de voz, pero todavía en un volumen insuficiente. Ahora, las empresas de TI están intentando interactuar activamente con las instituciones. Mis colegas de Kaspersky Lab y yo también intentamos participar en el proceso educativo: leemos conferencias, organizamos conferencias de estudiantes y otorgamos becas a estudiantes graduados. Pero hasta ahora, la iniciativa proviene más de empleadores que de universidades.