Дерево зависимостей дерево составляющих

Дерево составляющих

Следует подчеркнуть, что деревья зависимостей дают возможность рассматривать направленные связи, но только между отдельными словами, системы составляющих характеризуют синтаксическую структуру предложения иначе — с их помощью словосочетания (или синтагмы) описываются в явном виде, но игнорируется ориентация связей (т.е. не различаются «хозяин» и «слуга»).

Синтагма — совокупность нескольких слов, объединённых по принципу семантико-грамматической сочетаемости, единица синтагматики. Объём конкретной синтагмы определяется не только реальным употреблением слов в связке, но и самой возможностью объединения предметов, признаков и процессов окружающей действительности. Минимальной длиной синтагмы следует считать простые словосочетания.

В основе модели дерева оставляющих лежит представление об устройстве предложения как о последовательном попарном синтагматическом сцеплении составляющих от минимальных — отдельных слов, до максимальной — предложения, составляющими которого в случае полного личного предложения являются группа подлежащего и группа сказуемого.

Представление синтаксической структуры в терминах дерева составляющих хорошо согласуется с традиционным «разбором» предложения, при котором подлежащее, сказуемое и их элементы описываются категориальными характеристиками – именами частей речи или групп. Например, фраза Бедный Джон убежал прочь будет представлена так , как показано на рисунке 9.5.

Отличительной особенностью модели дерева составляющих является то, что она задает порядок (степень близости между словами) во множестве слов, которые в предыдущей модели подчинялись бы одному и тому же узлу.

Здесь S — символ предложения, А – прилагательное, N – существительное, V глагол, Аdv – наречие, NР – именная группа, VР — глагольная группа.

Дерево составляющих передает также соответствие между синтагматикой и линейной упорядоченностью слов в предложении. Нарушение прямого соответствия выражается в форме прерывных (или разрывных) составляющих, которые особенно распространены в языках со свободным порядком слов. Как и в графе зависимостей, в дереве составляющих могут использоваться условные узлы и связи.

Пусть х — произвольная непустая цепочка. Множество С отрезков це­почки х называется системой составляющих этой цепочки, если оно удовлетворяет двум условиям:

1) множество С содержит отрезок, состоящий из всех точек цепочки х, и все одноточечные отрезки x;

2) любые два отрезка из С либо не пересекаются, либо один из них содержится в другом.

Элементы С называются составляющими. Одноточечные от­резки называются точечными (тривиальными) составляющими.

При описании предложений естественного языка с помощью системы составляющих обычно используют размеченную систе­му составляющих, т. е. тройку φ>, где С — система со­ставляющих, W — множество меток и φ — отображение С в 2 W . Поясним введенное определение на примере. Пусть цепочка ω имеет вид agbacdef. Определим на ней две системы составляю­щих C1 и С2. Для наглядного изображения системы составляю­щих будем заключать каждую нетривиальную составляющую в скобки, причем левую и правую скобки, отвечающие одной со­ставляющей, помечать одинаковой меткой, так чтобы разные па­ры скобок были помечены разными метками. В качестве меток можно использовать числа.

Читайте также:  Лилейное дерево посадка уход

При интерпретации цепочки как предложения естественного языка система составляющих может выражать информацию о синтаксической структуре предложения, а нетривиальные состав­ляющие (при подходящем выборе системы составляющих) соот­ветствуют словосочетаниям.

Система составляющих предложения указывает в нем словосочетания разных «уровней» не вводя при этом никакой иерархии среди словосочетаний од­ного уровня. Между тем в предложении естественного языка часто интуитивно ощущается «главенствование» некоторого сло­восочетания над другими, в нем не содержащимися. Для отра­жения указанного факта можно поступить следующим образом. Пусть С — система составляющих цепочки х. Для каждой пото­чечной составляющей АÎС выделим в множестве всех состав­ляющих, непосредственно вложенных в А, какую-либо одну со­ставляющую A’, которую будем называть главной. Множество всех главных составляющих обозначим через С’ и назовем иерархизацией системы С. Упорядоченную пару С’> назовем иерархизированной системой составляющих.

В грамматике НС представление о двусоставности предложения сохранено. Но члены предложения (синтаксические функции) определяются в этой теории на основе формальных признаков: не по отношению к их возможному или реальному семантическому содержанию, а по отношению к тому месту, которое они занимают в дереве порождения предложения. Как уже было сказано, верхний узел дерева обозначается символом S (sentence – предложение). Предложение анализируется как конструкция, включающая две НС – именную группу (NP, noun phrase) и глагольную группу (VP, verb phrase). Подлежащее и сказуемое могут быть соответственно определены как узлы, непосредственно подчинённые узлу S. Дополнение может квалифицироваться как узел, который подчинён узлу VP. НС – структуру предложения можно представить в виде древовидного графа и в скобочной записи (значение символов: S – предложение, NP – именная группа, VP – глагольная группа, Adj – прилагательное, N – существительное, V – глагол). Например, для предложения Маленькие дети доставляют большие хлопоты скобочная запись будет иметь вид:

Дерево же составляющих показано на рисунке 9.6.

Рисунок 9.6. – Дерево составляющих для предложения

Маленькие дети доставляют большие хлопоты

Выбор того или иного способа представления синтаксической структуры в значительной степени связан с устройством алгоритма СА. Для жестко заданных процедур, вычисляющих синтаксическую структуру предложения по «формуле» правильной структуры, в качестве такой формулы плохо подходит модель типа граф зависимостей: она либо не доопределяет процедуру построения синтаксической структуры и тогда появляется слишком много вариантов анализа, либо, если использовать сильные ограничения, формула становится слишком сложной для вычисления.

В психолингвистических экспериментах доказано, что двухвершинная модель непосредственно составляющих лежит в основе механизма распознавания высказывания (в то время как в основе механизма порождения высказывания лежит модель синтаксиса зависимостей. Следует отметить, что в прикладной лингвистике, строя представления предложения, в основном, оперируют моделями синтаксиса зависимостей и синтаксиса составляющих, описанных выше.

Читайте также:  Как называется дерево похожее на ель

Формальные грамматики работают, как правило, с синтаксическим представлением в виде дерева составляющих.

Грамматика деревьев служит не для порождения предложений, а для преобразования деревьев, интерпретируемых как деревья подчинения или деревья составляющих, например грамматика – система правил преобразования деревьев, интерпретируемых как «чистые» деревья подчинения предложений (без линейного порядка слов).

Дата добавления: 2019-09-30 ; просмотров: 374 ;

Источник

Синтаксический компонент лингвистического процессора ея.

Модели представления синтаксической структуры предложения.

Деревья зависимостей.

Деревья зависимостей — наиболее наглядный и наиболее распростра­ненный способ представления синтаксической структуры предложения. При этом предложение представляется как линейно упорядоченное множество элементов (словоформ), на котором можно задать ориентированное дерево (узлы — элементы множества). Каждая дуга, связывающая пару узлов, интерпретируется как подчинительная связь между двумя элементами, направление которой соответствует направлению данной дуги. Множество всех узлов дерева, прямо или косвенно зависящих от какого-либо узла, включая сам этот узел, составляет группу зависимости этого узла. Проективность — важное свойство древовидных структур, отражающее связь между отношением линейного порядка и отношением подчинения. Деревья зависимостей называются проективными, если для любого узла группа зависимости этого узла является неразрывным отрезком предложения. Проективность предложения легко определяется при графическом изображении дерева зависимостей. При этом на плоскости рисунка выбирается прямоугольная система координат (ось ординат направлена сверху вниз). Узлы дерева (слова предложения) изображаются целочисленными точками плоскости: абсцисса узла — порядковый номер слова в предложении, ордината — высота слова в дереве. При таком способе изображения предложение проективно, если дуги дерева не пересекаются с вертикалями, проведенными из узлов (сверху вниз), и между собой. Различаются проективные и слабопроективные деревья зависимостей. Дерево зависимости проективно, если для любых трех его узлов a, b, c из того, что b зависит от a, и c лежит между ними, следует, что c зависит от a или от b. Дерево зависимости слобопроективно, если для любых его четырех узлов a, b, c, d из того, что b зависит от a, и d зависит от c следует, что пары a, b и c, d не разделяют друг друга (т.е. любые два интервала (при линейном изображении дерева зависимостей) либо не пересекаются, либо один из них содержится в другом). Пример непроективного предложения: «Я памятник себе воздвиг нерукотворный». Я памятник себе воздвиг нерукотворный Пример слабопроективного предложения: «Этому человеку мы будем обязаны всю жизнь». Этому человеку мы будем обязаны всю жизнь В деловой прозе деревья зависимостей подавляющего большинства предложений проективны. За исключением некоторых особых случаев непроективность предложений в деловом тексте — верный признак недостаточной грамотности автора (хотя в художественной литературе, особенно в поэзии, отклонения от проективности вполне обычны). Недостатки способа представления синтаксических структур в виде деревьев зависимостей: 1) жесткое требование рассматривать каждое формально выделенное вхождение слова в качестве отдельного элемента предложения; 2) все без исключения связи между словоформами трактуются как подчинительные.

Читайте также:  Выполнение резьбы по дереву конспект

Источник

Joyful English

When it comes to finding your path, don’t overthink. Do.

Translate

Поиск по этому блогу

четверг, 14 марта 2019 г.

Синтаксическое дерево зависимостей/Дерево составляющих

Обычно синтаксическая структура легко представляется в виде дерева, узлами которого являются словоформы, а дуги выражают связь или зависимость между этими словами.

Существует два основных подхода к формальному описанию синтаксических структур – грамматика зависимостей и грамматика непосредственных составляющих.

Грамматика зависимостей предполагает определение для каждого слова его вершины, т.е. того, от какого слова оно зависит, и тип данной связи. Рассмотрим несколько подробнее преимущества и недостатки данных подходов при автоматической обработке текста.

· Отношение head-argument(экзоцентрическое): собирать грибы . Аргументы могут быть обязательны, но не более одного. Главное слово не всегда может заменить всю конструкцию.

· Отношение head-modifier(эндоцентрическое) в сочетаниях типа вкусное яблоко. Наличие определителей опционально, их может быть несколько. Вершина может заменять всю конструкцию.

· Отношение head-specifier(преобразование Теньера). Это отношение между такими функциональными словами, как предлоги, определители и их аргументами. Здесь синтаксическая вершина не совпадает с семантической. Так, в сочетании the rat стрелка зависимости будет идти от the к rat .

· Отношение координации. Такие отношения возникают в случае, когда остается неясным, какое слово является вершиной, например, в сочетании земля и небо.

Таким образом, граф представляет собой дерево. Деревья зависимостей не обязательно отражают порядок слов в предложении.

Грамматика составляющих предлагает объединять слова в группы, а эти группы в более крупные группы следующего уровня, и так до предложения. Структура составляющих представляет собой в размеченном виде информацию об иерархической организации предложения. В отличие от структуры зависимостей, где описываются только синтаксические отношения зависимостей, в размеченной структуре составляющих обозначаются все непосредственно синтаксические единицы – от отдельной словоформы до предложения, включая промежуточные группы. Правила применяются не к словам и поддеревьям их зависимостей, а к терминальным и фразовым категориям.

Предложение в теории непосредственно составляющих рассматривается как некоторая линейная структура, в которой более крупные единицы, начиная с самого предложения, могут быть последовательно разложены на группы меньшего размера, и так до минимальной категории – то есть словоформы. Анализ может вестись в обе стороны – как от разложения более крупных единиц на более маленькие, то есть сверху вниз, так и снизу вверх, то есть путем объединения словоформ в между собой в группы, этих групп в группы следующего уровня и так до группы размером с предложение.

Источник

Оцените статью