Понедельник, 15 декабряИнститут «Высшая школа журналистики и массовых коммуникаций» СПбГУ
Shadow

Тематическая организация текста инструкций как лингвистическая основа приобретения знаний интеллектуальным агентом

Исследование выпол­не­но при финан­со­вой под­держ­ке РФФИ в рам­ках науч­но­го про­ек­та № 18–00-00606 (18–00-00233).

The research was supported by Russian Foundation for Basic Research, project no. 18–00-00606 (18–00-00233).

Постановка про­бле­мы. Традиционными для искус­ствен­но­го интел­лек­та мето­да­ми сбо­ра инфор­ма­ции о пред­мет­ной обла­сти явля­ют­ся опрос экс­пер­тов и созда­ние онто­ло­гий. В послед­ние годы выска­зы­ва­ет­ся мысль о воз­мож­но­сти прин­ци­пи­аль­но ино­го под­хо­да к раз­ра­бот­ке инструк­ти­ру­ю­щих интел­лек­ту­аль­ных систем, кото­рый не тре­бу­ет пред­ва­ри­тель­но­го сбо­ра дан­ных раз­ра­бот­чи­ком, а осно­вы­ва­ет­ся на пси­хо­ло­ги­че­ском и линг­ви­сти­че­ском ана­ли­зе тех­ни­че­ско­го зада­ния как целе­вой уста­нов­ки, раз­вер­ты­ва­ю­щей­ся в текст. Предполагается, что интел­лек­ту­аль­ный агент будет полу­чать зна­ния из интер­не­та под кон­крет­ную зада­чу. В этом слу­чае интел­лек­ту­аль­ная систе­ма долж­на быть наде­ле­на кар­ти­ной мира, а ее рабо­та, как и рабо­та чело­ве­че­ско­го созна­ния, опо­сре­до­ва­на язы­ко­вы­ми зна­ка­ми [Осипов и др. 2018; Салимовский и др. 2019]. Такая систе­ма была бы гиб­кой, посколь­ку выяв­ля­ла те зна­че­ния, свой­ства и модаль­но­сти, кото­рые важ­ны имен­но для дан­но­го тех­ни­че­ско­го зада­ния. Она обла­да­ла бы неогра­ни­чен­ны­ми позна­ва­тель­ны­ми воз­мож­но­стя­ми, обес­пе­чи­ва­е­мы­ми выхо­дом в интер­нет — к биб­лио­те­кам, архи­вам, соци­аль­ным сетям и дру­гим источ­ни­кам информации.

Для при­об­ре­те­ния зна­ний интел­лек­ту­аль­но­му аген­ту потре­бо­ва­лась бы иерар­хи­че­ски орга­ни­зо­ван­ная систе­ма потен­ци­аль­ных запро­сов, бази­ру­ю­ща­я­ся на раз­вер­ну­том набо­ре тем — мар­ке­ров пред­мет­ных обла­стей, вклю­чен­ных в сценарий.

Особым типом интел­лек­ту­аль­ных аген­тов явля­ет­ся когни­тив­ный асси­стент, раз­ра­ба­ты­ва­е­мый в Институте про­блем искус­ствен­но­го интел­лек­та ФИЦ «Информатика и управ­ле­ние» РАН. Базой спо­соб­но­стей когни­тив­но­го асси­стен­та слу­жит при­да­ва­е­мая ему зна­ко­вая кар­ти­на мира, в кото­рой содер­жат­ся его назна­че­ние, цели, воз­мож­ные дей­ствия и их сце­на­рии, смыс­лы, спо­со­бы и резуль­та­ты дости­же­ния целей. Кроме сво­ей соб­ствен­ной базы, асси­стент в ходе само­сто­я­тель­но­го когни­тив­но­го ана­ли­за ком­му­ни­ка­ции и пове­де­ния поль­зо­ва­те­ля стро­ит модель его кар­ти­ны мира, вклю­ча­ю­щую в себя отра­жен­ные асси­стен­том сце­на­рии и лич­ност­ные смыс­лы, цен­но­сти, пред­по­чте­ния и при­выч­ки чело­ве­ка. Общение когни­тив­но­го асси­стен­та с поль­зо­ва­те­лем стро­ит­ся с уче­том этих двух кар­тин мира [Смирнов и др. 2019].

При созда­нии когни­тив­но­го асси­стен­та важ­но иметь в виду, что по отно­ше­нию к сце­на­рию в целом и каж­дой его пред­мет­ной обла­сти соци­аль­ным созна­ни­ем выра­бо­та­ны пра­ви­ла целе­со­об­раз­но­го пове­де­ния субъ­ек­та. Однако отдель­но­му поль­зо­ва­те­лю они обыч­но неиз­вест­ны в доста­точ­ном объ­е­ме. Поэтому зада­ча когни­тив­но­го асси­стен­та состо­ит в том, что­бы в соот­вет­ствии с инфор­ма­ци­он­ны­ми запро­са­ми поль­зо­ва­те­ля, уточ­ня­ю­щи­ми исход­ное зада­ние, транс­ли­ро­вать эти пра­ви­ла как реко­мен­да­ции. Иными сло­ва­ми, агент, вла­дея сфор­ми­ро­вав­ши­ми­ся в обще­ствен­ном созна­нии пра­ви­ла­ми реше­ния зада­чи, направ­лял бы поис­ко­вую актив­ность поль­зо­ва­те­ля, ука­зы­вая ему, какую имен­но инфор­ма­цию нуж­но полу­чить для успеш­но­го дости­же­ния цели.

Конечно, любой соци­аль­ный сце­на­рий в опре­де­лен­ном смыс­ле откры­тый: он может раз­ви­вать­ся, а его сло­ты могут рас­смат­ри­вать­ся в «укруп­нен­ном» виде как само­сто­я­тель­ные сце­на­рии со сво­и­ми сло­та­ми. Однако в каж­дый пери­од сво­е­го суще­ство­ва­ния сце­на­рий обла­да­ет опре­де­лен­но­стью и может быть оха­рак­те­ри­зо­ван с необ­хо­ди­мой полнотой.

Как извест­но, сжа­той фор­мой поис­ко­вых запро­сов, как и тек­стов, содер­жа­щих­ся в Сети, явля­ют­ся клю­че­вые сло­ва. В пси­хо­линг­ви­сти­ке и тео­рии дери­ва­ции клю­че­вые сло­ва рас­смат­ри­ва­ют­ся как резуль­тат ком­прес­сии рече­во­го про­из­ве­де­ния, как мар­ке­ры его цель­но­сти (и суб­цель­но­стей тек­сто­вых фраг­мен­тов) [Сахарный 1982; 1992; 1994; Мурзин 1982; 1984; Мурзин, Штерн 1991].

Логично думать, что систе­ма потен­ци­аль­ных запро­сов интел­лек­ту­аль­но­го аген­та может быть постро­е­на на осно­ве систе­мы клю­че­вых слов, в ком­прес­си­ро­ван­ном виде пред­став­ля­ю­щих содер­жа­ние мно­же­ства инструк­тив­ных тек­стов по реше­нию опре­де­лен­ной соци­аль­но зна­чи­мой задачи.

Цель ста­тьи состо­ит в совер­шен­ство­ва­нии мето­да выде­ле­ния клю­че­вых слов из кор­пу­са тек­стов, реа­ли­зу­ю­щих рече­вой жанр «план-инструкция» и вопло­ща­ю­щих сце­на­рий дея­тель­но­сти субъ­ек­та. Ключевые сло­ва выяв­ля­ют­ся на осно­ва­нии ана­ли­за тема­ти­че­ских цепо­чек [Матвеева 1990] с уче­том тема-рематического струк­ту­ри­ро­ва­ния тек­стов. Полученный набор клю­че­вых слов срав­ни­ва­ет­ся с их набо­ром, уста­нав­ли­ва­е­мым авто­ма­ти­че­ской систе­мой TextAppliance [Мбайкоджи, Драль, Соченков 2012; Ананьева и др. 2016]. Это срав­не­ние поз­во­ля­ет про­ана­ли­зи­ро­вать основ­ные осо­бен­но­сти выде­ля­е­мых систе­мой слов и сло­во­со­че­та­ний и в даль­ней­шем учи­ты­вать их для совер­шен­ство­ва­ния мето­дов авто­ма­ти­че­ско­го извле­че­ния клю­че­вых слов из текста.

Материалом иссле­до­ва­ния послу­жи­ли собран­ные в интер­не­те тек­сты инструк­ций по покуп­ке авто­мо­би­ля. Корпус насчи­ты­ва­ет 100 инструк­ций, содер­жа­щих опи­са­ние раз­ных эта­пов покупки.

История вопро­са. Характеризуя тек­сто­об­ра­зо­ва­ние как про­цесс тема-рематического струк­ту­ри­ро­ва­ния цель­но­сти, Л. В. Сахарный рас­смат­ри­ва­ет цель­ность как основ­ную кате­го­рию тек­ста. Под цель­но­стью он пони­ма­ет «пси­хо­линг­ви­сти­че­ский фено­мен осо­бо­го рода, кото­рый пред­став­ля­ет собой воз­ни­ка­ю­щее в пси­хи­ке чело­ве­ка симуль­тан­ное (одно­вре­мен­ное), инте­граль­ное, пол­но­стью не осо­зна­ва­е­мое дина­ми­че­ское пред­став­ле­ние о неко­то­ром объ­ек­те» [Сахарный 1994: 20]. Осмысление цель­но­сти гово­ря­щим (пишу­щим) пред­по­ла­га­ет выде­ле­ние из нее «смыс­ло­вых вех», или суб­цель­но­стей, из кото­рых, в свою оче­редь, выде­ля­ют­ся более част­ные суб­цель­но­сти:1. С исполь­зо­ва­ни­ем кате­го­ри­аль­но­го аппа­ра­та функ­ци­о­наль­но­го син­так­си­са этот про­цесс опи­сы­ва­ет­ся как тема-рематическое струк­ту­ри­ро­ва­ние: цель­ность высту­па­ет темой, а осмыс­ли­ва­е­мая в ней суб­цель­ность — ремой. На каж­дом новом шаге про­ду­ци­ро­ва­ния тек­ста рема ста­но­вит­ся темой, в кото­рой обна­ру­жи­ва­ет­ся новая рема (или ремы). Выделяемые в тек­сте суб­цель­но­сти могут рас­смат­ри­вать­ся в каче­стве кор­ре­ля­та «тема­ти­че­ских мак­ро­струк­тур», ана­ли­зи­ру­е­мых Т. А. ван Дейком [Дейк 1989].

С опо­рой на кате­го­рию цель­но­сти Л. В. Сахарный иссле­ду­ет меха­низм не толь­ко раз­вер­ты­ва­ния тек­ста, но и его ком­прес­сии (свер­ты­ва­ния): сохра­няя свое содер­жа­тель­ное тож­де­ство, текст при пере­хо­де от одной сту­пе­ни ком­прес­сии к дру­гой, более глу­бо­кой, лиша­ет­ся толь­ко мар­ги­наль­ных эле­мен­тов сво­е­го содер­жа­ния (ср.: [Леонтьев 1976; Дридзе 2009]). Результатом ком­прес­сии ста­но­вит­ся набор клю­че­вых слов [Сахарный 1992]. Они пред­став­ля­ют тему цело­го тек­ста и под­те­мы его основ­ных смыс­ло­вых фрагментов.

С близ­ких пози­ций к изу­че­нию тек­сто­об­ра­зо­ва­ния под­хо­дит Л. Н. Мурзин [Мурзин 1982; 1984]. Согласно его кон­цеп­ции, в рече­мыс­ли­тель­ном акте неко­то­рый неопре­де­лен­ный объ­ект полу­ча­ет опре­де­лен­ность бла­го­да­ря при­пи­сы­ва­нию ему неко­то­ро­го при­зна­ка. В резуль­та­те воз­ни­ка­ет новый объ­ект, менее неопре­де­лен­ный, чем пред­ше­ству­ю­щий. Объекту соот­вет­ству­ет поня­тие темы, а при­зна­ку — поня­тие ремы. На уровне лексико-грамматического вопло­ще­ния глу­бин­ной тема-рематической струк­ту­ры дей­ству­ют меха­низ­мы кон­та­ми­на­ции и ком­прес­сии. Контаминация слу­жит транс­по­зи­ции пред­ше­ству­ю­ще­го пред­ло­же­ния в сво­бод­ную пози­цию после­ду­ю­ще­го. Тем самым она обес­пе­чи­ва­ет раз­вер­ты­ва­ние тек­ста. Компрессия, напро­тив, обес­пе­чи­ва­ет устра­не­ние его избы­точ­но­сти, созда­ва­е­мой вклю­че­ни­ем каж­до­го после­ду­ю­ще­го пред­ло­же­ния в преды­ду­щее2. Пределом ком­прес­сии явля­ет­ся «сло­во как наи­бо­лее ком­пакт­ная фор­ма репре­зен­та­ции тек­ста» [Мурзин 1982: 27].

Тема-рематическое струк­ту­ри­ро­ва­ние цель­но­сти как глу­бин­ный про­цесс зер­каль­но не отра­жа­ет­ся в ком­по­зи­ци­он­ной и соб­ствен­но рече­вой орга­ни­за­ции тек­ста, кото­рая опре­де­ля­ет­ся не толь­ко зада­чей рас­кры­тия темы, но всем ком­плек­сом познавательно-коммуникативных уста­но­вок, охва­ты­ва­е­мых автор­ским замыслом.

В пред­ло­жен­ной Т. М. Дридзе кон­цеп­ции тек­ста как иерар­хии ком­му­ни­ка­тив­ных про­грамм [Дридзе 2009], раз­ви­ва­ю­щей идеи Н. И. Жинкина, в каче­стве пре­ди­ка­ции пер­во­го поряд­ка рас­смат­ри­ва­ет­ся цель сооб­ще­ния, пре­ди­ка­ции вто­ро­го поряд­ка — основ­ной кон­ста­ти­ру­ю­щий тезис и ана­ли­ти­че­ская оцен­ка ситу­а­ции, состав­ля­ю­щие основ­ные эле­мен­ты обще­го содер­жа­ния. Второстепенные же эле­мен­ты обра­зу­ют пре­ди­ка­ция тре­тье­го поряд­ка — иллю­стра­ции к основ­но­му тези­су и пре­ди­ка­ция чет­вер­то­го поряд­ка — общий фон к цели сооб­ще­ния. Автор под­чер­ки­ва­ет, что клю­че­вые сло­ва «несут боль­шую цен­ность с точ­ки зре­ния инфор­ма­тив­но­сти тек­ста, если они вхо­дят в пре­ди­ка­ции выс­ших поряд­ков» [Дридзе 2009: 89].

Закономерности выра­же­ния темы в уже создан­ном тек­сте сово­куп­но­стью тема­ти­че­ских групп слов иссле­ду­ют­ся Т. В. Матвеевой. В ее рабо­тах экс­пли­ци­ру­ют­ся, в част­но­сти, важ­ные для нас поня­тия тема­ти­че­ско­го поля тек­ста и тема­ти­че­ских цепо­чек [Матвеева 1990; 2019]. Тематическое поле обра­зу­ют сло­ва раз­ных лексико-грамматических клас­сов и номи­на­тив­ные сло­во­со­че­та­ния, обла­да­ю­щие общей семой. Наиболее зна­чи­мы для тема­ти­че­ско­го поля в семан­ти­че­ском и струк­тур­ном отно­ше­ни­ях непо­сред­ствен­ные наиме­но­ва­ния пред­ме­та речи, т. е. пред­мет­ные номинации.

Тема тек­ста и его под­те­мы могут быть опи­са­ны в виде тема­ти­че­ских цепо­чек. Основная цепоч­ка, про­хо­дя­щая через весь текст, пред­став­ля­ет его тему, а допол­ни­тель­ные цепоч­ки опре­де­ля­ют объ­ем под­тем [Матвеева 1990]. В соста­ве тема­ти­че­ских цепо­чек раз­ли­ча­ют­ся основ­ная номи­на­ция, наи­бо­лее точ­но и непо­сред­ствен­но обо­зна­ча­ю­щая пред­мет речи, и допол­ни­тель­ные номи­на­ции, часто име­ю­щие экспрессивно-эмоциональную окраску.

Т. В. Матвеевой оха­рак­те­ри­зо­ва­ны осо­бен­но­сти реа­ли­за­ции кате­го­рии темы (наря­ду с дру­ги­ми тек­сто­вы­ми кате­го­ри­я­ми) в рече­вых про­из­ве­де­ни­ях раз­лич­ной функционально-стилевой и жан­ро­вой принадлежности.

При реше­нии задач в обла­сти инфор­ма­ци­он­но­го поис­ка и индек­си­ро­ва­ния доку­мен­тов клю­че­вое сло­во обыч­но опре­де­ля­ет­ся как «сло­во или сло­во­со­че­та­ние (тер­мин) в тек­сте доку­мен­та или запро­са, несу­щий в нем суще­ствен­ную инфор­ма­ци­он­ную нагруз­ку хотя бы по одной из тем, рас­смат­ри­ва­е­мых в доку­мен­те»3. Однако поня­тие «инфор­ма­ци­он­ная нагруз­ка сло­ва» трак­ту­ет­ся иссле­до­ва­те­ля­ми по-разному. В боль­шин­стве слу­ча­ев акцент дела­ет­ся на соот­не­сен­но­сти клю­че­вых слов с основ­ным содер­жа­ни­ем тек­ста, но неред­ко (в том чис­ле в систе­ме TextAppliance) — на их диф­фе­рен­ци­ру­ю­щей функ­ции при нахож­де­нии нуж­но­го документа.

Оценка инфор­ма­ци­он­ной нагруз­ки в тек­сте тех или иных номи­на­тив­ных еди­ниц и раз­ра­бот­ка более общей про­бле­ма­ти­ки — изу­че­ние тема­ти­че­ской орга­ни­за­ции рече­во­го про­из­ве­де­ния, опре­де­ле­ние сте­пе­ни тема­ти­че­ской бли­зо­сти раз­лич­ных про­из­ве­де­ний — это вопро­сы, от успеш­но­го реше­ния кото­рых во мно­гом зави­сит совер­шен­ство­ва­ние авто­ма­ти­че­ско­го извле­че­ния клю­че­вых слов [Ванюшкин, Гращенко, Романишин 2019; Beliga 2015; Sterckx et al. 2019].

Для уточ­не­ния основ­ных харак­те­ри­стик клю­че­вых слов важ­но срав­нить набо­ры этих еди­ниц, уста­нов­лен­ные при раз­ном пони­ма­нии их инфор­ма­ци­он­ной значимости.

Описание мето­ди­ки иссле­до­ва­ния. В систе­ме TextAppliance вес клю­че­вых слов опре­де­ля­ет­ся по фор­му­ле TF — IDF, где TF (term frequency) — часто­та упо­треб­ле­ния сло­ва в ана­ли­зи­ру­е­мом доку­мен­те, а IDF (inverse document frequency) — отно­ше­ние обще­го коли­че­ства доку­мен­тов фоно­вой кол­лек­ции (т. е. тек­стов, содер­жа­щих­ся в TextAppliance) к коли­че­ству доку­мен­тов, в кото­рых взве­ши­ва­е­мое клю­че­вое сло­во встре­ча­ет­ся хотя бы один раз. Бóльшую зна­чи­мость полу­ча­ют те сло­ва, кото­рые часто встре­ча­ют­ся в ана­ли­зи­ру­е­мом доку­мен­те и отно­си­тель­но ред­ко — в осталь­ных доку­мен­тах кол­лек­ции. Тем самым систе­ма опре­де­ля­ет, насколь­ко то или иное сло­во спе­ци­фич­но для рас­смат­ри­ва­е­мо­го тек­ста (или же изу чае­мо­го мно­же­ства тек­стов, пред­став­ля­ю­щих опре­де­лен­ный сце­на­рий, т. е. сверх­тек­ста — «сово­куп­но­сти выска­зы­ва­ний или тек­стов, объ­еди­нен­ных содер­жа­тель­но и ситу­а­тив­но» [Купина 2019: 374]). Иначе гово­ря, она уста­нав­ли­ва­ет, насколь­ко та или иная лек­си­че­ская еди­ни­ца под­хо­дит на роль иден­ти­фи­ка­то­ра (клю­ча), поз­во­ля­ю­ще­го обна­ру­жить неко­то­рый текст (или сверхтекст). 

Помимо исполь­зо­ва­ния ука­зан­ной систе­мы мы осу­ществ­ля­ли руч­ной ана­лиз тек­стов для опре­де­ле­ния места того или ино­го клю­че­во­го сло­ва в их тема­ти­че­ской орга­ни­за­ции. С этой целью ана­ли­зи­ро­ва­лись тема­ти­че­ские цепоч­ки рече­во­го про­из­ве­де­ния. Обращение к этим цепоч­кам поз­во­ля­ет, кро­ме того, выде­лить наи­бо­лее зна­чи­мые в тема­ти­че­ском отно­ше­нии сло­ва, так как любая раз­ра­ба­ты­ва­е­мая авто­ром тема (тема, акту­аль­ная для него) пред­став­ле­на имен­но цепоч­кой номи­на­тив­ных еди­ниц — повто­ре­ни­ем одних и тех же слов, исполь­зо­ва­ни­ем сино­ни­мов, перифраз.

В тема­ти­че­ской цепоч­ке каж­дая из номи­на­тив­ных еди­ниц выра­жа­ет одно и то же клю­че­вое поня­тие и в этом смыс­ле явля­ет­ся клю­че­вым сло­вом. Однако по отно­ше­нию к сверх­тек­сту клю­че­вы­ми обыч­но ока­зы­ва­ют­ся лишь основ­ные номи­на­ции цепо­чек (и неко­то­рые их неоце­ноч­ные сино­ни­мы), посколь­ку лишь они выра­жа­ют соот­вет­ству­ю­щее клю­че­вое поня­тие во всех или мно­гих текстах коллекции.

Ориентироваться в тема­ти­че­ской струк­ту­ре тек­ста помо­га­ют под­за­го­лов­ки, про­спек­тив­ные кон­струк­ции и вопро­си­тель­ные пред­ло­же­ния, утвер­ди­тель­ная часть кото­рых назы­ва­ет раз­ви­ва­е­мую в даль­ней­шем тему.

При рас­смот­ре­нии содер­жа­ния тек­сто­вых фраг­мен­тов в аспек­те дея­тель­ност­ной моде­ли зна­ка [Осипов и др. 2018] номи­на­тив­ные еди­ни­цы харак­те­ри­зу­ют­ся нами вме­сте с пре­ди­ци­ру­е­мы­ми им при­зна­ка­ми (рема­ми).

Анализ мате­ри­а­ла. Проанализируем один из тек­стов, хоро­шо иллю­стри­ру­ю­щих рас­смат­ри­ва­е­мые зако­но­мер­но­сти: «Какой купить авто­мо­биль?»4. Его автор, под­дер­жи­вая кон­такт с адре­са­том (инструк­ти­ру­е­мым лицом), актив­но исполь­зу­ет диа­ло­ги­че­ские рече­вые сред­ства [Дускаева 2018], вклю­чая вопро­си­тель­ные пред­ло­же­ния, кото­ры­ми по ходу раз­го­во­ра мар­ки­ру­ет­ся каж­дый новый его пред­мет (тема): Какую маши­ну выбрать — оте­че­ствен­ную или ино­мар­ку? Кто будет на ней ездить? Для чего мне этот авто­мо­биль? Что я соби­ра­юсь на нем пере­во­зить? Куда я соби­ра­юсь на нем ездить и с каким гру­зом? Каковы долж­ны быть раз­ме­ры ваше­го авто­мо­би­ля? АКПП или МКПП? Какой объ­ем дви­га­те­ля выбрать? Выбрать зад­ний или перед­ний при­вод? Новая или подер­жан­ная? и др. Некоторые вопро­си­тель­ные пред­ло­же­ния исполь­зу­ют­ся в роли под­за­го­лов­ков. Функцию выде­ле­ния темы выпол­ня­ют так­же про­спек­тив­ные кон­струк­ции: Что каса­ет­ся систем без­опас­но­сти авто­мо­би­ля… Что каса­ет­ся кон­крет­ной мар­ки авто­мо­би­ля… По пово­ду «тюнин­га»…

Как уже отме­ча­лось, автор тек­ста опре­де­ля­ет круг тем не про­из­воль­но, а в соот­вет­ствии со сло­жив­шей­ся в обще­ствен­ном созна­нии моде­лью типич­ной ситу­а­ции — сце­на­ри­ем покуп­ки авто­мо­би­ля. Поэтому не толь­ко в рас­смат­ри­ва­е­мом тек­сте, но и в дру­гих текстах, отра­жа­ю­щих этот сце­на­рий, пред­став­лен близ­кий состав тем: «цель покуп­ки», «усло­вия экс­плу­а­та­ции авто­мо­би­ля», «цена авто­мо­би­ля и сопут­ству­ю­щие покуп­ке рас­хо­ды», «воз­раст маши­ны», «страна-производитель», «класс авто­мо­би­ля», «мар­ка авто­мо­би­ля», «тип короб­ки пере­дач», «харак­те­ри­сти­ки сило­во­го агре­га­та», «вид при­во­да», «систе­ма без­опас­но­сти», «кузов», «салон» и др.

Тематические цепоч­ки, мар­ки­ру­ю­щие основ­ную и каж­дую из част­ных тем рас­смат­ри­ва­е­мо­го тек­ста, дают объ­ек­тив­ное пред­став­ле­ние о его тема­ти­че­ской орга­ни­за­ции, кото­рая, в свою оче­редь, может быть соот­не­се­на с содер­жа­ни­ем сце­на­рия, вопло­щен­но­го в тек­сте. При этом каж­дая тема-рематическая пара инструк­тив­но­го тек­ста, опи­сы­ва­ю­ще­го спо­со­бы осу­ществ­ле­ния опре­де­лен­ной дея­тель­но­сти, фик­си­ру­ет уточ­не­ние более абстракт­но­го содер­жа­ния (выби­ра­ем маши­ну) путем вве­де­ния допол­ни­тель­ной инфор­ма­ции (выби­ра­ем марку/функционал/размеры и т. п.), что поз­во­ля­ет адап­ти­ро­вать общий спо­соб к кон­крет­ным усло­ви­ям, в кото­рых дей­ству­ет или пла­ни­ру­ет дей­ство­вать чело­век. Поэтому с точ­ки зре­ния пси­хо­ло­гии дви­же­ние в тема-рематическом про­стран­стве инструк­тив­но­го тек­ста соот­вет­ству­ет струк­ту­ре осу­ществ­ле­ния дея­тель­но­сти: ее общий мотив опре­де­ля­ет содер­жа­ние и после­до­ва­тель­ность ряда про­ме­жу­точ­ных дей­ствий, цели кото­рых доопре­де­ля­ют­ся в зави­си­мо­сти от кон­крет­ных обсто­я­тельств реа­ли­за­ции мотива.

Нужно иметь в виду, что любое син­так­си­че­ски сво­бод­ное сло­во­со­че­та­ние на глубинно-сематическом уровне — резуль­тат свер­ты­ва­ния неко­то­рой тема-рематической струк­ту­ры. Так, пред­ло­же­ние Автомобиль (пред­мет потреб­но­сти буду­ще­го вла­дель­ца, извест­ное, тема) выби­ра­ют [или страху­ют, реги­стри­ру­ют] (ремы) пре­об­ра­зу­ет­ся в номи­на­тив­ную еди­ни­цу выбор авто­мо­би­ля, обра­зу­ю­щую в про­цес­се раз­вер­ты­ва­ния тек­ста новую тему, в кото­рой выде­ля­ет­ся тот или иной при­знак (рема). Психологическим кор­ре­ля­том обра­зо­ва­ния в инструк­тив­ном тек­сте тема-рематических цепо­чек высту­па­ет про­цесс после­до­ва­тель­ной опе­ра­ци­о­на­ли­за­ции пла­ни­ру­е­мых целей, т. е. постро­е­ния все более деталь­ных схем дей­ство­ва­ния с уче­том все более кон­крет­ных усло­вий. Преобразование ремы в тему отра­жа­ет на рече­вом уровне ситу­а­цию, когда сде­лан­ный на преды­ду­щем эта­пе пла­ни­ро­ва­ния выбор ока­зы­ва­ет­ся не конеч­ным, а тре­бу­ю­щим даль­ней­шей детализации.

Исходная тема — авто­мо­биль — мар­ки­ру­ет­ся про­хо­дя­щей через весь текст номи­на­тив­ной цепоч­кой: авто­мо­биль (19 повто­ре­ний), маши­на (16), авто (3), лег­ко­вуш­ка, авто­мо­биль­чик, машин­ка, пласт­мас­со­вая игруш­ка. Эта тема по раз­ным осно­ва­ни­ям свя­за­на родо-видовыми отно­ше­ни­я­ми с вво­ди­мы­ми авто­ром новы­ми тема­ми, обра­зу­ю­щи­ми свои номи­на­тив­ные цепоч­ки («авто­мо­биль оте­че­ствен­но­го про­из­вод­ства» и «авто­мо­биль ино­стран­но­го про­из­вод­ства», «новый авто­мо­биль» и «подер­жан­ный авто­мо­биль»): оте­че­ствен­ная маши­на, оте­че­ствен­ное авто, про­из­ве­де­ние оте­че­ствен­но­го авто­про­ма, про­из­ве­де­ние рос­сий­ско­го кон­струк­тор­ско­го гения с видо­вы­ми номи­на­тив­ны­ми цепоч­ка­ми и отдель­ны­ми номи­на­ци­я­ми на более низ­ких уров­нях деле­ния — жигу­ли (2); пятер­ка, вось­мер­ка, девят­ка, десят­ка; ино­мар­ка (3) и др. Отношениями цело­го и части исход­ная тема свя­за­на с тема­ми, охва­ты­ва­ю­щи­ми раз­лич­ные агре­га­ты авто­мо­би­ля: АКПП, авто­ма­ти­че­ская КПП, авто­мат, МКПП, меха­ни­ка (3), меха­ни­че­ская короб­ка, руч­ная короб­ка и др.

Номинация покуп­ка авто­мо­би­ля пре­ди­ци­ру­ет­ся при­зна­ка­ми «цель покуп­ки», «усло­вия экс­плу­а­та­ции поку­па­е­мой маши­ны», «цена», «опыт вожде­ния» и др. Этим обу­слов­ле­но появ­ле­ние в тек­сте рядов номи­на­тив­ных еди­ниц, пред­став­лен­ных функ­ци­о­наль­ны­ми экви­ва­лен­та­ми: удоб­ство, без­опас­ность, про­хо­ди­мость, ста­тус (ради удоб­ства, без­опас­но­сти, про­хо­ди­мо­сти; что­бы пока­зать свой ста­тус), семья, гон­ки (авто­мо­биль для семьи, для гонок); трас­са, поток машин; неадек­ват­ный сер­вис, пло­хое обслу­жи­ва­ние и др.

Анализ суб­тек­стов, пред­став­лен­ных клю­че­вы­ми сло­ва­ми, поз­во­ля­ет ана­ли­зи­ро­вать текст как знак в аспек­те кар­ти­ны мира. Так, пока­за­те­ля­ми смыс­ла (субъ­ек­тив­ной модаль­но­сти) высту­па­ют а) волюн­та­тив­ные выска­зы­ва­ния — сове­ты, реко­мен­да­ции, предо­сте­ре­же­ния и б) оце­ноч­ные выска­зы­ва­ния. Примеры: а) При покуп­ке авто­мо­би­ля вы долж­ны пом­нить о трех важ­ней­ших состав­ля­ю­щих любой систе­мы без­опас­но­сти; Лучше взять маши­ну с перед­ним или зад­ним при­во­дом; б) Трудно быва­ет сми­рить­ся с без­душ­но­стью пла­сти­ко­вых сало­нов совре­мен­ных авто.

Значение (опыт дей­ство­ва­ния в сце­на­рии) выра­жа­ет­ся пре­ди­ка­та­ми, мар­ки­ру­ю­щи­ми после­до­ва­тель­ность реко­мен­ду­е­мых инструк­то­ром дей­ствий, а так­же детер­ми­нан­та­ми с семан­ти­кой после­до­ва­тель­но­сти (сна­ча­ла, затем, даль­ше): Естественно сна­ча­ла отве­тить на вопрос: «Для чего мне этот авто­мо­биль?» Дальше мож­но опре­де­лять­ся с мар­кой и моде­лью авто­мо­би­ля.

Образ (вос­про­из­ве­де­ние свойств объ­ек­та) созда­ет­ся опи­са­тель­ны­ми выска­зы­ва­ни­я­ми и тек­сто­вы­ми фраг­мен­та­ми: Машина чистень­кая, новень­кая, все отлич­но рабо­та­ет, и нет ни еди­ной цара­пин­ки; Японцы надеж­ны, но в недо­ро­гих ком­плек­та­ци­ях зача­стую стра­да­ют деше­вым пла­сти­ком сало­на. Немцы доро­ги, удоб­ны, но любят, когда за ними хоро­шо уха­жи­ва­ют и не про­ща­ют пло­хо­го обслу­жи­ва­ния. Разумеется, ком­по­нен­ты содер­жа­тель­ной струк­ту­ры зна­ка могут сов­ме­щать­ся, выра­жа­ясь одни­ми и теми же рече­вы­ми сегментами.

Результаты иссле­до­ва­ния. Описание тема­ти­че­ских номи­на­тив­ных цепо­чек отдель­но­го тек­ста озна­ча­ет систе­ма­ти­за­цию номи­на­тив­ных еди­ниц в соот­вет­ствии с орга­ни­за­ци­ей суб­цель­но­стей рече­во­го про­из­ве­де­ния, мар­ке­ра­ми кото­рых дан­ные еди­ни­цы явля­ют­ся. Иными сло­ва­ми, это систе­ма­ти­за­ция номи­на­ций, отра­жа­ю­щая на поверх­ност­ном уровне глу­бин­ное тема-рематическое струк­ту­ри­ро­ва­ние рече­во­го произведения.

В то же вре­мя систе­ма TextAppliance опре­де­ля­ет бóль­шую или мень­шую инфор­ма­ци­он­ную зна­чи­мость слов и суб­стан­тив­ных сло­во­со­че­та­ний для иден­ти­фи­ка­ции тек­ста или мно­же­ства тек­стов (сверх­тек­ста). Номинативные еди­ни­цы с повы­шен­ным индек­сом инфор­ма­ци­он­ной зна­чи­мо­сти оце­ни­ва­ют­ся как клю­че­вые слова.

Такие номи­на­ции по их при­над­леж­но­сти к тем или иным суб­цель­но­стям могут быть авто­ма­ти­че­ски соот­не­се­ны с раз­лич­ны­ми объ­ект­ны­ми обла­стя­ми сце­на­рия. Некоторые из этих номи­на­тив­ных еди­ниц явля­ют­ся обо­зна­че­ни­я­ми дан­ных обла­стей: класс авто­мо­би­ля, объ­ем дви­га­те­ля, систе­ма без­опас­но­сти и др. Подобные обо­зна­че­ния, пред­став­ляя соот­вет­ству­ю­щие суб­цель­но­сти в свер­ну­том виде, при­над­ле­жат к чис­лу наи­бо­лее емких в содер­жа­тель­ном отно­ше­нии номи­на­ций тек­ста. Они, кро­ме того, обо­зна­ча­ют основ­ные под­те­мы тек­ста, т. е. под­те­мы, осмыс­ли­ва­е­мые автором-инструктором как наи­бо­лее зна­чи­мые для адресата.

Следовательно, появ­ля­ет­ся воз­мож­ность уста­нов­ле­ния груп­пы номи­на­ций, кото­рые обла­да­ют всем ком­плек­сом основ­ных харак­те­ри­стик клю­че­во­го сло­ва. Во-первых, это сло­ва и сло­во­со­че­та­ния, осо­бен­но зна­чи­мые для иден­ти­фи­ка­ции тек­стов опре­де­лен­ной тема­ти­ки. Во-вторых, эти номи­на­ции в сво­ей сово­куп­но­сти пол­но пред­став­ля­ют пред­мет­ное содер­жа­ние тек­ста. В‑третьих, они высту­па­ют мар­ке­ра­ми содер­жа­ния, кото­рое автор-инструктор счи­та­ет наи­бо­лее важ­ным и к кото­ро­му он целе­на­прав­лен­но при­вле­ка­ет вни­ма­ние адресата.

Каждая из ука­зан­ных харак­те­ри­стик клю­че­во­го сло­ва про­яв­ля­ет­ся у отдель­ных номи­на­тив­ных еди­ниц в боль­шей или мень­шей сте­пе­ни5. Например, номи­на­ция снеж­ные доро­ги име­ет один из самых высо­ких пока­за­те­лей иден­ти­фи­ка­то­ра тек­ста. Она отно­сит­ся к важ­ной объ­ект­ной обла­сти («про­хо­ди­мость авто­мо­би­ля»), но сама не явля­ет­ся назва­ни­ем одной из рас­кры­ва­е­мых авто­ром тем. Это же сле­ду­ет ска­зать о сло­во­со­че­та­ни­ях неопыт­ные води­те­ли, полу­пу­стая маши­на, мяг­кая под­вес­ка и др. Напротив, номи­на­ция покуп­ка маши­ны, обо­зна­чая тему все­го рас­смат­ри­ва­е­мо­го тек­ста, зани­ма­ет в рей­тин­ге его иден­ти­фи­ка­то­ров пери­фе­рий­ное (98‑е) место. Однако при вклю­че­нии в поис­ко­вый запрос в допол­не­ние к ней дру­гих лек­си­че­ских еди­ниц (напри­мер, покуп­ка подер­жан­ной маши­ны) воз­ни­ка­ет новая номи­на­ция со сво­и­ми иден­ти­фи­ка­ци­он­ны­ми характеристиками.

Важно отме­тить, что опре­де­ле­ние набо­ра клю­че­вых слов в текстах или суб­текстах, посвя­щен­ных отдель­ным эта­пам раз­вер­ты­ва­ния сце­на­рия (в нашем слу­чае — выбо­ру авто­мо­би­ля, его осмот­ру, заклю­че­нию сдел­ки, реги­стра­ции транс­порт­но­го сред­ства и дру­гим более част­ным), может спо­соб­ство­вать улуч­ше­нию каче­ства авто­ма­ти­че­ско­го рас­по­зна­ва­ния сце­на­ри­ев в элек­трон­ных мас­си­вах тек­стов. По-видимому, для выде­ле­ния номи­на­тив­ных еди­ниц, обла­да­ю­щих ком­плек­сом ука­зан­ных выше харак­те­ри­стик клю­че­во­го сло­ва, целе­со­об­раз­но с помо­щью систе­мы TextAppliance ана­ли­зи­ро­вать тек­сты, из кото­рых пред­ва­ри­тель­но устра­не­ны фраг­мен­ты, реа­ли­зу­ю­щие пери­фе­рий­ный пре­ди­ка­ции, т. е. пре­ди­ка­ции, кото­рые, соглас­но кон­цеп­ции Т. М. Дридзе, не вхо­дят в чис­ло основ­ных эле­мен­тов содер­жа­ния рече­во­го произведения.

Существенно так­же, что извле­че­ние клю­че­вых слов вме­сте с кон­тек­ста­ми, в кото­рых они исполь­зу­ют­ся, поз­во­ля­ет авто­ма­ти­че­ски фор­ми­ро­вать базу реко­мен­да­ций, зна­чи­мых для инструк­ти­ру­е­мо­го лица. Примеры таких кон­тек­стов: Какой ОБЪЕМ ДВИГАТЕЛЯ выбрать? Если вы езди­те по горо­ду, луч­ше взять неболь­шой: 1,2–1,6 лит­ра… Если частень­ко при­хо­дит­ся ездить по заго­род­ным доро­гам, мож­но брать 1,8–2,5 лит­ра. ДЖИПЫ ИЛИ ВНЕДОРОЖНИКИ… Подумайте, нужен ли вам рас­ход 15–17 лит­ров на сот­ню; Выбрать зад­ний или перед­ний ПРИВОД? С неболь­шим опы­том вожде­ния луч­ше взять маши­ну с перед­ним или пол­ным при­во­дом.

Таким обра­зом, пред­ло­жен­ный под­ход к ана­ли­зу тек­ста, учи­ты­ва­ю­щий зако­но­мер­но­сти его тема-рематического струк­ту­ри­ро­ва­ния и ком­прес­сии, а так­же орга­ни­за­ции номи­на­тив­ных еди­ниц на тек­сто­вой плос­ко­сти, может стать линг­ви­сти­че­ской базой для даль­ней­ше­го совер­шен­ство­ва­ния систем авто­ма­ти­че­ско­го извле­че­ния клю­че­вых слов.

Выводы. Создание когни­тив­ных асси­стен­тов, инструк­ти­ру­ю­щих поль­зо­ва­те­ля при реа­ли­за­ции им опре­де­лен­ной цели, тре­бу­ю­щей сле­до­ва­ния неко­то­ро­му сце­на­рию, дела­ет акту­аль­ной зада­чу раз­ра­бот­ки иерар­хи­че­ски орга­ни­зо­ван­ной систе­мы потен­ци­аль­ных запро­сов, пред­став­лен­ных клю­че­вы­ми сло­ва­ми. Сформировавшийся в обще­ствен­ном созна­нии сце­на­рий содер­жит пра­ви­ла целе­со­об­раз­но­го пове­де­ния субъ­ек­та. Эти пра­ви­ла долж­ны транс­ли­ро­вать­ся асси­стен­том поль­зо­ва­те­лю в соот­вет­ствии с его инфор­ма­ци­он­ны­ми запросами.

Решению ука­зан­ной зада­чи могут спо­соб­ство­вать линг­ви­сти­че­ские иссле­до­ва­ния по тео­рии тек­ста, преж­де все­го рабо­ты, посвя­щен­ные меха­низ­мам тема-рематического струк­ту­ри­ро­ва­ния порож­да­е­мо­го рече­во­го про­из­ве­де­ния, а так­же его ком­прес­сии, пре­де­лом кото­рой явля­ет­ся набор клю­че­вых слов (Л. В. Сахарный, Л. Н. Мурзин), а так­же иерар­хии ком­му­ни­ка­тив­ных про­грамм тек­ста как семантико-смысловой струк­ту­ры осо­бо­го рода (Т. М. Дридзе), его тема­ти­че­ской орга­ни­за­ции (Т. В. Матвеева и др.). 

Выделение клю­че­вых слов из тек­ста с помо­щью авто­ма­ти­зи­ро­ван­ной систе­мы TextAppliance допол­ня­лось нами опре­де­ле­ни­ем их места в тема­ти­че­ской орга­ни­за­ции рече­во­го про­из­ве­де­ния, для чего опи­сы­ва­лись тема­ти­че­ские цепоч­ки послед­не­го. Рассмотрение обра­зу­ю­щих эти цепоч­ки номи­на­тив­ных еди­ниц в един­стве с пре­ди­ци­ру­е­мы­ми им при­зна­ка­ми (рема­ми) поз­во­ля­ет изу­чать содер­жа­тель­ную орга­ни­за­цию тек­ста как зна­ка, созда­ва­е­мую смыс­ла­ми, зна­че­ни­я­ми и образами.

Сделаны пер­вые шаги в раз­ра­бот­ке тех­но­ло­гии выде­ле­ния из тек­ста слов и суб­стан­тив­ных сло­во­со­че­та­ний, обла­да­ю­щих ком­плек­сом основ­ных харак­те­ри­стик клю­че­во­го сло­ва — высо­ким пока­за­те­лем иден­ти­фи­ка­то­ра доку­мен­та, содер­жа­тель­ной емко­стью, а так­же ком­му­ни­ка­тив­ной зна­чи­мо­стью номи­на­тив­ной еди­ни­цы как мар­ке­ра важ­ной для адре­са­та информации. 

1 Понятия цель­но­сти и суб­цель­но­сти отно­сят­ся к орга­ни­за­ции кон­крет­но­го рече­во­го про­из­ве­де­ния. При про­ду­ци­ро­ва­нии же ново­го тек­ста суб­цель­ность может ста­но­вить­ся цель­но­стью. Примечательны слу­чаи выде­ле­ния суб­цель­но­стей из тек­ста и их после­ду­ю­ще­го функ­ци­о­ни­ро­ва­ния уже в каче­стве цель­но­стей. (Примером могут слу­жить фраг­мен­ты из пуш­кин­ско­го «Евгения Онегина», пуб­ли­ку­е­мые как само­сто­я­тель­ные сти­хо­тво­ре­ния о при­ро­де для детей.)

2 Хрестоматийным при­ме­ром семан­ти­че­ской избы­точ­но­сти, воз­ни­ка­ю­щей в про­цес­се тек­сто­по­рож­де­ния, явля­ет­ся извест­ное сти­хо­тво­ре­ние С. Маршака: «Вот дом, кото­рый постро­ил Джек. А это пше­ни­ца, кото­рая в тем­ном чулане хра­нит­ся в доме, кото­рый постро­ил Джек. А это весе­лая птица-синица, кото­рая часто вору­ет пше­ни­цу, кото­рая в тем­ном чулане хра­нит­ся, в доме, кото­рый постро­ил Джек…».

3 ГОСТ Р 7.0.66–2010. ИСО 5963:1985. СИБИД (2010). Электронный ресурс http://​docs​.cntd​.ru/​d​o​c​u​m​e​n​t​/​1​2​0​0​0​8​4​836.

4 http://вертикаль-оса.рф/publ/kakoj_kupit_avtomobil/1–1‑0–4.

5 Не слу­чай­но иссле­до­ва­те­ли, про­во­дя­щие экс­пе­ри­мен­ты по авто­ма­ти­че­ско­му анно­ти­ро­ва­нию тек­стов, ино­гда наме­рен­но не исполь­зу­ют в зада­нии респон­ден­там номи­на­цию «клю­че­вое сло­во», а пред­ла­га­ют выбрать из тек­ста сло­ва и сло­во­со­че­та­ния, .кото­рые опи­сы­ва­ют его содер­жа­ние. [Ванюшкин и др. 2019: 211–212].

Статья посту­пи­ла в редак­цию 2 июля 2020 г.;
реко­мен­до­ва­на в печать 4 нояб­ря 2020 г.

© Санкт-Петербургский госу­дар­ствен­ный уни­вер­си­тет, 2021

Received: July 2, 2020
Accepted: November 4, 2020