Четверг, 28 мартаИнститут «Высшая школа журналистики и массовых коммуникаций» СПбГУ
Shadow

Тематическая организация текста инструкций как лингвистическая основа приобретения знаний интеллектуальным агентом

Иссле­до­ва­ние выпол­не­но при финан­со­вой под­держ­ке РФФИ в рам­ках науч­но­го про­ек­та № 18–00-00606 (18–00-00233).

The research was supported by Russian Foundation for Basic Research, project no. 18–00-00606 (18–00-00233).

Поста­нов­ка про­бле­мы. Тра­ди­ци­он­ны­ми для искус­ствен­но­го интел­лек­та мето­да­ми сбо­ра инфор­ма­ции о пред­мет­ной обла­сти явля­ют­ся опрос экс­пер­тов и созда­ние онто­ло­гий. В послед­ние годы выска­зы­ва­ет­ся мысль о воз­мож­но­сти прин­ци­пи­аль­но ино­го под­хо­да к раз­ра­бот­ке инструк­ти­ру­ю­щих интел­лек­ту­аль­ных систем, кото­рый не тре­бу­ет пред­ва­ри­тель­но­го сбо­ра дан­ных раз­ра­бот­чи­ком, а осно­вы­ва­ет­ся на пси­хо­ло­ги­че­ском и линг­ви­сти­че­ском ана­ли­зе тех­ни­че­ско­го зада­ния как целе­вой уста­нов­ки, раз­вер­ты­ва­ю­щей­ся в текст. Пред­по­ла­га­ет­ся, что интел­лек­ту­аль­ный агент будет полу­чать зна­ния из интер­не­та под кон­крет­ную зада­чу. В этом слу­чае интел­лек­ту­аль­ная систе­ма долж­на быть наде­ле­на кар­ти­ной мира, а ее рабо­та, как и рабо­та чело­ве­че­ско­го созна­ния, опо­сре­до­ва­на язы­ко­вы­ми зна­ка­ми [Оси­пов и др. 2018; Сали­мов­ский и др. 2019]. Такая систе­ма была бы гиб­кой, посколь­ку выяв­ля­ла те зна­че­ния, свой­ства и модаль­но­сти, кото­рые важ­ны имен­но для дан­но­го тех­ни­че­ско­го зада­ния. Она обла­да­ла бы неогра­ни­чен­ны­ми позна­ва­тель­ны­ми воз­мож­но­стя­ми, обес­пе­чи­ва­е­мы­ми выхо­дом в интер­нет — к биб­лио­те­кам, архи­вам, соци­аль­ным сетям и дру­гим источ­ни­кам информации.

Для при­об­ре­те­ния зна­ний интел­лек­ту­аль­но­му аген­ту потре­бо­ва­лась бы иерар­хи­че­ски орга­ни­зо­ван­ная систе­ма потен­ци­аль­ных запро­сов, бази­ру­ю­ща­я­ся на раз­вер­ну­том набо­ре тем — мар­ке­ров пред­мет­ных обла­стей, вклю­чен­ных в сценарий.

Осо­бым типом интел­лек­ту­аль­ных аген­тов явля­ет­ся когни­тив­ный асси­стент, раз­ра­ба­ты­ва­е­мый в Инсти­ту­те про­блем искус­ствен­но­го интел­лек­та ФИЦ «Инфор­ма­ти­ка и управ­ле­ние» РАН. Базой спо­соб­но­стей когни­тив­но­го асси­стен­та слу­жит при­да­ва­е­мая ему зна­ко­вая кар­ти­на мира, в кото­рой содер­жат­ся его назна­че­ние, цели, воз­мож­ные дей­ствия и их сце­на­рии, смыс­лы, спо­со­бы и резуль­та­ты дости­же­ния целей. Кро­ме сво­ей соб­ствен­ной базы, асси­стент в ходе само­сто­я­тель­но­го когни­тив­но­го ана­ли­за ком­му­ни­ка­ции и пове­де­ния поль­зо­ва­те­ля стро­ит модель его кар­ти­ны мира, вклю­ча­ю­щую в себя отра­жен­ные асси­стен­том сце­на­рии и лич­ност­ные смыс­лы, цен­но­сти, пред­по­чте­ния и при­выч­ки чело­ве­ка. Обще­ние когни­тив­но­го асси­стен­та с поль­зо­ва­те­лем стро­ит­ся с уче­том этих двух кар­тин мира [Смир­нов и др. 2019].

При созда­нии когни­тив­но­го асси­стен­та важ­но иметь в виду, что по отно­ше­нию к сце­на­рию в целом и каж­дой его пред­мет­ной обла­сти соци­аль­ным созна­ни­ем выра­бо­та­ны пра­ви­ла целе­со­об­раз­но­го пове­де­ния субъ­ек­та. Одна­ко отдель­но­му поль­зо­ва­те­лю они обыч­но неиз­вест­ны в доста­точ­ном объ­е­ме. Поэто­му зада­ча когни­тив­но­го асси­стен­та состо­ит в том, что­бы в соот­вет­ствии с инфор­ма­ци­он­ны­ми запро­са­ми поль­зо­ва­те­ля, уточ­ня­ю­щи­ми исход­ное зада­ние, транс­ли­ро­вать эти пра­ви­ла как реко­мен­да­ции. Ины­ми сло­ва­ми, агент, вла­дея сфор­ми­ро­вав­ши­ми­ся в обще­ствен­ном созна­нии пра­ви­ла­ми реше­ния зада­чи, направ­лял бы поис­ко­вую актив­ность поль­зо­ва­те­ля, ука­зы­вая ему, какую имен­но инфор­ма­цию нуж­но полу­чить для успеш­но­го дости­же­ния цели.

Конеч­но, любой соци­аль­ный сце­на­рий в опре­де­лен­ном смыс­ле откры­тый: он может раз­ви­вать­ся, а его сло­ты могут рас­смат­ри­вать­ся в «укруп­нен­ном» виде как само­сто­я­тель­ные сце­на­рии со сво­и­ми сло­та­ми. Одна­ко в каж­дый пери­од сво­е­го суще­ство­ва­ния сце­на­рий обла­да­ет опре­де­лен­но­стью и может быть оха­рак­те­ри­зо­ван с необ­хо­ди­мой полнотой.

Как извест­но, сжа­той фор­мой поис­ко­вых запро­сов, как и тек­стов, содер­жа­щих­ся в Сети, явля­ют­ся клю­че­вые сло­ва. В пси­хо­линг­ви­сти­ке и тео­рии дери­ва­ции клю­че­вые сло­ва рас­смат­ри­ва­ют­ся как резуль­тат ком­прес­сии рече­во­го про­из­ве­де­ния, как мар­ке­ры его цель­но­сти (и суб­цель­но­стей тек­сто­вых фраг­мен­тов) [Сахар­ный 1982; 1992; 1994; Мур­зин 1982; 1984; Мур­зин, Штерн 1991].

Логич­но думать, что систе­ма потен­ци­аль­ных запро­сов интел­лек­ту­аль­но­го аген­та может быть постро­е­на на осно­ве систе­мы клю­че­вых слов, в ком­прес­си­ро­ван­ном виде пред­став­ля­ю­щих содер­жа­ние мно­же­ства инструк­тив­ных тек­стов по реше­нию опре­де­лен­ной соци­аль­но зна­чи­мой задачи.

Цель ста­тьи состо­ит в совер­шен­ство­ва­нии мето­да выде­ле­ния клю­че­вых слов из кор­пу­са тек­стов, реа­ли­зу­ю­щих рече­вой жанр «план-инструк­ция» и вопло­ща­ю­щих сце­на­рий дея­тель­но­сти субъ­ек­та. Клю­че­вые сло­ва выяв­ля­ют­ся на осно­ва­нии ана­ли­за тема­ти­че­ских цепо­чек [Мат­ве­е­ва 1990] с уче­том тема-рема­ти­че­ско­го струк­ту­ри­ро­ва­ния тек­стов. Полу­чен­ный набор клю­че­вых слов срав­ни­ва­ет­ся с их набо­ром, уста­нав­ли­ва­е­мым авто­ма­ти­че­ской систе­мой TextAppliance [Мбай­код­жи, Драль, Сочен­ков 2012; Ана­нье­ва и др. 2016]. Это срав­не­ние поз­во­ля­ет про­ана­ли­зи­ро­вать основ­ные осо­бен­но­сти выде­ля­е­мых систе­мой слов и сло­во­со­че­та­ний и в даль­ней­шем учи­ты­вать их для совер­шен­ство­ва­ния мето­дов авто­ма­ти­че­ско­го извле­че­ния клю­че­вых слов из текста.

Мате­ри­а­лом иссле­до­ва­ния послу­жи­ли собран­ные в интер­не­те тек­сты инструк­ций по покуп­ке авто­мо­би­ля. Кор­пус насчи­ты­ва­ет 100 инструк­ций, содер­жа­щих опи­са­ние раз­ных эта­пов покупки.

Исто­рия вопро­са. Харак­те­ри­зуя тек­сто­об­ра­зо­ва­ние как про­цесс тема-рема­ти­че­ско­го струк­ту­ри­ро­ва­ния цель­но­сти, Л. В. Сахар­ный рас­смат­ри­ва­ет цель­ность как основ­ную кате­го­рию тек­ста. Под цель­но­стью он пони­ма­ет «пси­хо­линг­ви­сти­че­ский фено­мен осо­бо­го рода, кото­рый пред­став­ля­ет собой воз­ни­ка­ю­щее в пси­хи­ке чело­ве­ка симуль­тан­ное (одно­вре­мен­ное), инте­граль­ное, пол­но­стью не осо­зна­ва­е­мое дина­ми­че­ское пред­став­ле­ние о неко­то­ром объ­ек­те» [Сахар­ный 1994: 20]. Осмыс­ле­ние цель­но­сти гово­ря­щим (пишу­щим) пред­по­ла­га­ет выде­ле­ние из нее «смыс­ло­вых вех», или суб­цель­но­стей, из кото­рых, в свою оче­редь, выде­ля­ют­ся более част­ные суб­цель­но­сти:1. С исполь­зо­ва­ни­ем кате­го­ри­аль­но­го аппа­ра­та функ­ци­о­наль­но­го син­так­си­са этот про­цесс опи­сы­ва­ет­ся как тема-рема­ти­че­ское струк­ту­ри­ро­ва­ние: цель­ность высту­па­ет темой, а осмыс­ли­ва­е­мая в ней суб­цель­ность — ремой. На каж­дом новом шаге про­ду­ци­ро­ва­ния тек­ста рема ста­но­вит­ся темой, в кото­рой обна­ру­жи­ва­ет­ся новая рема (или ремы). Выде­ля­е­мые в тек­сте суб­цель­но­сти могут рас­смат­ри­вать­ся в каче­стве кор­ре­ля­та «тема­ти­че­ских мак­ро­струк­тур», ана­ли­зи­ру­е­мых Т. А. ван Дей­ком [Дейк 1989].

С опо­рой на кате­го­рию цель­но­сти Л. В. Сахар­ный иссле­ду­ет меха­низм не толь­ко раз­вер­ты­ва­ния тек­ста, но и его ком­прес­сии (свер­ты­ва­ния): сохра­няя свое содер­жа­тель­ное тож­де­ство, текст при пере­хо­де от одной сту­пе­ни ком­прес­сии к дру­гой, более глу­бо­кой, лиша­ет­ся толь­ко мар­ги­наль­ных эле­мен­тов сво­е­го содер­жа­ния (ср.: [Леон­тьев 1976; Дрид­зе 2009]). Резуль­та­том ком­прес­сии ста­но­вит­ся набор клю­че­вых слов [Сахар­ный 1992]. Они пред­став­ля­ют тему цело­го тек­ста и под­те­мы его основ­ных смыс­ло­вых фрагментов.

С близ­ких пози­ций к изу­че­нию тек­сто­об­ра­зо­ва­ния под­хо­дит Л. Н. Мур­зин [Мур­зин 1982; 1984]. Соглас­но его кон­цеп­ции, в рече­мыс­ли­тель­ном акте неко­то­рый неопре­де­лен­ный объ­ект полу­ча­ет опре­де­лен­ность бла­го­да­ря при­пи­сы­ва­нию ему неко­то­ро­го при­зна­ка. В резуль­та­те воз­ни­ка­ет новый объ­ект, менее неопре­де­лен­ный, чем пред­ше­ству­ю­щий. Объ­ек­ту соот­вет­ству­ет поня­тие темы, а при­зна­ку — поня­тие ремы. На уровне лек­си­ко-грам­ма­ти­че­ско­го вопло­ще­ния глу­бин­ной тема-рема­ти­че­ской струк­ту­ры дей­ству­ют меха­низ­мы кон­та­ми­на­ции и ком­прес­сии. Кон­та­ми­на­ция слу­жит транс­по­зи­ции пред­ше­ству­ю­ще­го пред­ло­же­ния в сво­бод­ную пози­цию после­ду­ю­ще­го. Тем самым она обес­пе­чи­ва­ет раз­вер­ты­ва­ние тек­ста. Ком­прес­сия, напро­тив, обес­пе­чи­ва­ет устра­не­ние его избы­точ­но­сти, созда­ва­е­мой вклю­че­ни­ем каж­до­го после­ду­ю­ще­го пред­ло­же­ния в преды­ду­щее2. Пре­де­лом ком­прес­сии явля­ет­ся «сло­во как наи­бо­лее ком­пакт­ная фор­ма репре­зен­та­ции тек­ста» [Мур­зин 1982: 27].

Тема-рема­ти­че­ское струк­ту­ри­ро­ва­ние цель­но­сти как глу­бин­ный про­цесс зер­каль­но не отра­жа­ет­ся в ком­по­зи­ци­он­ной и соб­ствен­но рече­вой орга­ни­за­ции тек­ста, кото­рая опре­де­ля­ет­ся не толь­ко зада­чей рас­кры­тия темы, но всем ком­плек­сом позна­ва­тель­но-ком­му­ни­ка­тив­ных уста­но­вок, охва­ты­ва­е­мых автор­ским замыслом.

В пред­ло­жен­ной Т. М. Дрид­зе кон­цеп­ции тек­ста как иерар­хии ком­му­ни­ка­тив­ных про­грамм [Дрид­зе 2009], раз­ви­ва­ю­щей идеи Н. И. Жин­ки­на, в каче­стве пре­ди­ка­ции пер­во­го поряд­ка рас­смат­ри­ва­ет­ся цель сооб­ще­ния, пре­ди­ка­ции вто­ро­го поряд­ка — основ­ной кон­ста­ти­ру­ю­щий тезис и ана­ли­ти­че­ская оцен­ка ситу­а­ции, состав­ля­ю­щие основ­ные эле­мен­ты обще­го содер­жа­ния. Вто­ро­сте­пен­ные же эле­мен­ты обра­зу­ют пре­ди­ка­ция тре­тье­го поряд­ка — иллю­стра­ции к основ­но­му тези­су и пре­ди­ка­ция чет­вер­то­го поряд­ка — общий фон к цели сооб­ще­ния. Автор под­чер­ки­ва­ет, что клю­че­вые сло­ва «несут боль­шую цен­ность с точ­ки зре­ния инфор­ма­тив­но­сти тек­ста, если они вхо­дят в пре­ди­ка­ции выс­ших поряд­ков» [Дрид­зе 2009: 89].

Зако­но­мер­но­сти выра­же­ния темы в уже создан­ном тек­сте сово­куп­но­стью тема­ти­че­ских групп слов иссле­ду­ют­ся Т. В. Мат­ве­е­вой. В ее рабо­тах экс­пли­ци­ру­ют­ся, в част­но­сти, важ­ные для нас поня­тия тема­ти­че­ско­го поля тек­ста и тема­ти­че­ских цепо­чек [Мат­ве­е­ва 1990; 2019]. Тема­ти­че­ское поле обра­зу­ют сло­ва раз­ных лек­си­ко-грам­ма­ти­че­ских клас­сов и номи­на­тив­ные сло­во­со­че­та­ния, обла­да­ю­щие общей семой. Наи­бо­лее зна­чи­мы для тема­ти­че­ско­го поля в семан­ти­че­ском и струк­тур­ном отно­ше­ни­ях непо­сред­ствен­ные наиме­но­ва­ния пред­ме­та речи, т. е. пред­мет­ные номинации.

Тема тек­ста и его под­те­мы могут быть опи­са­ны в виде тема­ти­че­ских цепо­чек. Основ­ная цепоч­ка, про­хо­дя­щая через весь текст, пред­став­ля­ет его тему, а допол­ни­тель­ные цепоч­ки опре­де­ля­ют объ­ем под­тем [Мат­ве­е­ва 1990]. В соста­ве тема­ти­че­ских цепо­чек раз­ли­ча­ют­ся основ­ная номи­на­ция, наи­бо­лее точ­но и непо­сред­ствен­но обо­зна­ча­ю­щая пред­мет речи, и допол­ни­тель­ные номи­на­ции, часто име­ю­щие экс­прес­сив­но-эмо­ци­о­наль­ную окраску.

Т. В. Мат­ве­е­вой оха­рак­те­ри­зо­ва­ны осо­бен­но­сти реа­ли­за­ции кате­го­рии темы (наря­ду с дру­ги­ми тек­сто­вы­ми кате­го­ри­я­ми) в рече­вых про­из­ве­де­ни­ях раз­лич­ной функ­ци­о­наль­но-сти­ле­вой и жан­ро­вой принадлежности.

При реше­нии задач в обла­сти инфор­ма­ци­он­но­го поис­ка и индек­си­ро­ва­ния доку­мен­тов клю­че­вое сло­во обыч­но опре­де­ля­ет­ся как «сло­во или сло­во­со­че­та­ние (тер­мин) в тек­сте доку­мен­та или запро­са, несу­щий в нем суще­ствен­ную инфор­ма­ци­он­ную нагруз­ку хотя бы по одной из тем, рас­смат­ри­ва­е­мых в доку­мен­те»3. Одна­ко поня­тие «инфор­ма­ци­он­ная нагруз­ка сло­ва» трак­ту­ет­ся иссле­до­ва­те­ля­ми по-раз­но­му. В боль­шин­стве слу­ча­ев акцент дела­ет­ся на соот­не­сен­но­сти клю­че­вых слов с основ­ным содер­жа­ни­ем тек­ста, но неред­ко (в том чис­ле в систе­ме TextAppliance) — на их диф­фе­рен­ци­ру­ю­щей функ­ции при нахож­де­нии нуж­но­го документа.

Оцен­ка инфор­ма­ци­он­ной нагруз­ки в тек­сте тех или иных номи­на­тив­ных еди­ниц и раз­ра­бот­ка более общей про­бле­ма­ти­ки — изу­че­ние тема­ти­че­ской орга­ни­за­ции рече­во­го про­из­ве­де­ния, опре­де­ле­ние сте­пе­ни тема­ти­че­ской бли­зо­сти раз­лич­ных про­из­ве­де­ний — это вопро­сы, от успеш­но­го реше­ния кото­рых во мно­гом зави­сит совер­шен­ство­ва­ние авто­ма­ти­че­ско­го извле­че­ния клю­че­вых слов [Ванюш­кин, Гра­щен­ко, Рома­ни­шин 2019; Beliga 2015; Sterckx et al. 2019].

Для уточ­не­ния основ­ных харак­те­ри­стик клю­че­вых слов важ­но срав­нить набо­ры этих еди­ниц, уста­нов­лен­ные при раз­ном пони­ма­нии их инфор­ма­ци­он­ной значимости.

Опи­са­ние мето­ди­ки иссле­до­ва­ния. В систе­ме TextAppliance вес клю­че­вых слов опре­де­ля­ет­ся по фор­му­ле TF — IDF, где TF (term frequency) — часто­та упо­треб­ле­ния сло­ва в ана­ли­зи­ру­е­мом доку­мен­те, а IDF (inverse document frequency) — отно­ше­ние обще­го коли­че­ства доку­мен­тов фоно­вой кол­лек­ции (т. е. тек­стов, содер­жа­щих­ся в TextAppliance) к коли­че­ству доку­мен­тов, в кото­рых взве­ши­ва­е­мое клю­че­вое сло­во встре­ча­ет­ся хотя бы один раз. Бóль­шую зна­чи­мость полу­ча­ют те сло­ва, кото­рые часто встре­ча­ют­ся в ана­ли­зи­ру­е­мом доку­мен­те и отно­си­тель­но ред­ко — в осталь­ных доку­мен­тах кол­лек­ции. Тем самым систе­ма опре­де­ля­ет, насколь­ко то или иное сло­во спе­ци­фич­но для рас­смат­ри­ва­е­мо­го тек­ста (или же изу чае­мо­го мно­же­ства тек­стов, пред­став­ля­ю­щих опре­де­лен­ный сце­на­рий, т. е. сверх­тек­ста — «сово­куп­но­сти выска­зы­ва­ний или тек­стов, объ­еди­нен­ных содер­жа­тель­но и ситу­а­тив­но» [Купи­на 2019: 374]). Ина­че гово­ря, она уста­нав­ли­ва­ет, насколь­ко та или иная лек­си­че­ская еди­ни­ца под­хо­дит на роль иден­ти­фи­ка­то­ра (клю­ча), поз­во­ля­ю­ще­го обна­ру­жить неко­то­рый текст (или сверхтекст). 

Поми­мо исполь­зо­ва­ния ука­зан­ной систе­мы мы осу­ществ­ля­ли руч­ной ана­лиз тек­стов для опре­де­ле­ния места того или ино­го клю­че­во­го сло­ва в их тема­ти­че­ской орга­ни­за­ции. С этой целью ана­ли­зи­ро­ва­лись тема­ти­че­ские цепоч­ки рече­во­го про­из­ве­де­ния. Обра­ще­ние к этим цепоч­кам поз­во­ля­ет, кро­ме того, выде­лить наи­бо­лее зна­чи­мые в тема­ти­че­ском отно­ше­нии сло­ва, так как любая раз­ра­ба­ты­ва­е­мая авто­ром тема (тема, акту­аль­ная для него) пред­став­ле­на имен­но цепоч­кой номи­на­тив­ных еди­ниц — повто­ре­ни­ем одних и тех же слов, исполь­зо­ва­ни­ем сино­ни­мов, перифраз.

В тема­ти­че­ской цепоч­ке каж­дая из номи­на­тив­ных еди­ниц выра­жа­ет одно и то же клю­че­вое поня­тие и в этом смыс­ле явля­ет­ся клю­че­вым сло­вом. Одна­ко по отно­ше­нию к сверх­тек­сту клю­че­вы­ми обыч­но ока­зы­ва­ют­ся лишь основ­ные номи­на­ции цепо­чек (и неко­то­рые их неоце­ноч­ные сино­ни­мы), посколь­ку лишь они выра­жа­ют соот­вет­ству­ю­щее клю­че­вое поня­тие во всех или мно­гих текстах коллекции.

Ори­ен­ти­ро­вать­ся в тема­ти­че­ской струк­ту­ре тек­ста помо­га­ют под­за­го­лов­ки, про­спек­тив­ные кон­струк­ции и вопро­си­тель­ные пред­ло­же­ния, утвер­ди­тель­ная часть кото­рых назы­ва­ет раз­ви­ва­е­мую в даль­ней­шем тему.

При рас­смот­ре­нии содер­жа­ния тек­сто­вых фраг­мен­тов в аспек­те дея­тель­ност­ной моде­ли зна­ка [Оси­пов и др. 2018] номи­на­тив­ные еди­ни­цы харак­те­ри­зу­ют­ся нами вме­сте с пре­ди­ци­ру­е­мы­ми им при­зна­ка­ми (рема­ми).

Ана­лиз мате­ри­а­ла. Про­ана­ли­зи­ру­ем один из тек­стов, хоро­шо иллю­стри­ру­ю­щих рас­смат­ри­ва­е­мые зако­но­мер­но­сти: «Какой купить авто­мо­биль?»4. Его автор, под­дер­жи­вая кон­такт с адре­са­том (инструк­ти­ру­е­мым лицом), актив­но исполь­зу­ет диа­ло­ги­че­ские рече­вые сред­ства [Дус­ка­е­ва 2018], вклю­чая вопро­си­тель­ные пред­ло­же­ния, кото­ры­ми по ходу раз­го­во­ра мар­ки­ру­ет­ся каж­дый новый его пред­мет (тема): Какую маши­ну выбрать — оте­че­ствен­ную или ино­мар­ку? Кто будет на ней ездить? Для чего мне этот авто­мо­биль? Что я соби­ра­юсь на нем пере­во­зить? Куда я соби­ра­юсь на нем ездить и с каким гру­зом? Како­вы долж­ны быть раз­ме­ры ваше­го авто­мо­би­ля? АКПП или МКПП? Какой объ­ем дви­га­те­ля выбрать? Выбрать зад­ний или перед­ний при­вод? Новая или подер­жан­ная? и др. Неко­то­рые вопро­си­тель­ные пред­ло­же­ния исполь­зу­ют­ся в роли под­за­го­лов­ков. Функ­цию выде­ле­ния темы выпол­ня­ют так­же про­спек­тив­ные кон­струк­ции: Что каса­ет­ся систем без­опас­но­сти авто­мо­би­ля… Что каса­ет­ся кон­крет­ной мар­ки авто­мо­би­ля… По пово­ду «тюнин­га»…

Как уже отме­ча­лось, автор тек­ста опре­де­ля­ет круг тем не про­из­воль­но, а в соот­вет­ствии со сло­жив­шей­ся в обще­ствен­ном созна­нии моде­лью типич­ной ситу­а­ции — сце­на­ри­ем покуп­ки авто­мо­би­ля. Поэто­му не толь­ко в рас­смат­ри­ва­е­мом тек­сте, но и в дру­гих текстах, отра­жа­ю­щих этот сце­на­рий, пред­став­лен близ­кий состав тем: «цель покуп­ки», «усло­вия экс­плу­а­та­ции авто­мо­би­ля», «цена авто­мо­би­ля и сопут­ству­ю­щие покуп­ке рас­хо­ды», «воз­раст маши­ны», «стра­на-про­из­во­ди­тель», «класс авто­мо­би­ля», «мар­ка авто­мо­би­ля», «тип короб­ки пере­дач», «харак­те­ри­сти­ки сило­во­го агре­га­та», «вид при­во­да», «систе­ма без­опас­но­сти», «кузов», «салон» и др.

Тема­ти­че­ские цепоч­ки, мар­ки­ру­ю­щие основ­ную и каж­дую из част­ных тем рас­смат­ри­ва­е­мо­го тек­ста, дают объ­ек­тив­ное пред­став­ле­ние о его тема­ти­че­ской орга­ни­за­ции, кото­рая, в свою оче­редь, может быть соот­не­се­на с содер­жа­ни­ем сце­на­рия, вопло­щен­но­го в тек­сте. При этом каж­дая тема-рема­ти­че­ская пара инструк­тив­но­го тек­ста, опи­сы­ва­ю­ще­го спо­со­бы осу­ществ­ле­ния опре­де­лен­ной дея­тель­но­сти, фик­си­ру­ет уточ­не­ние более абстракт­но­го содер­жа­ния (выби­ра­ем маши­ну) путем вве­де­ния допол­ни­тель­ной инфор­ма­ции (выби­ра­ем марку/функционал/размеры и т. п.), что поз­во­ля­ет адап­ти­ро­вать общий спо­соб к кон­крет­ным усло­ви­ям, в кото­рых дей­ству­ет или пла­ни­ру­ет дей­ство­вать чело­век. Поэто­му с точ­ки зре­ния пси­хо­ло­гии дви­же­ние в тема-рема­ти­че­ском про­стран­стве инструк­тив­но­го тек­ста соот­вет­ству­ет струк­ту­ре осу­ществ­ле­ния дея­тель­но­сти: ее общий мотив опре­де­ля­ет содер­жа­ние и после­до­ва­тель­ность ряда про­ме­жу­точ­ных дей­ствий, цели кото­рых доопре­де­ля­ют­ся в зави­си­мо­сти от кон­крет­ных обсто­я­тельств реа­ли­за­ции мотива.

Нуж­но иметь в виду, что любое син­так­си­че­ски сво­бод­ное сло­во­со­че­та­ние на глу­бин­но-сема­ти­че­ском уровне — резуль­тат свер­ты­ва­ния неко­то­рой тема-рема­ти­че­ской струк­ту­ры. Так, пред­ло­же­ние Авто­мо­биль (пред­мет потреб­но­сти буду­ще­го вла­дель­ца, извест­ное, тема) выби­ра­ют [или страху­ют, реги­стри­ру­ют] (ремы) пре­об­ра­зу­ет­ся в номи­на­тив­ную еди­ни­цу выбор авто­мо­би­ля, обра­зу­ю­щую в про­цес­се раз­вер­ты­ва­ния тек­ста новую тему, в кото­рой выде­ля­ет­ся тот или иной при­знак (рема). Пси­хо­ло­ги­че­ским кор­ре­ля­том обра­зо­ва­ния в инструк­тив­ном тек­сте тема-рема­ти­че­ских цепо­чек высту­па­ет про­цесс после­до­ва­тель­ной опе­ра­ци­о­на­ли­за­ции пла­ни­ру­е­мых целей, т. е. постро­е­ния все более деталь­ных схем дей­ство­ва­ния с уче­том все более кон­крет­ных усло­вий. Пре­об­ра­зо­ва­ние ремы в тему отра­жа­ет на рече­вом уровне ситу­а­цию, когда сде­лан­ный на преды­ду­щем эта­пе пла­ни­ро­ва­ния выбор ока­зы­ва­ет­ся не конеч­ным, а тре­бу­ю­щим даль­ней­шей детализации.

Исход­ная тема — авто­мо­биль — мар­ки­ру­ет­ся про­хо­дя­щей через весь текст номи­на­тив­ной цепоч­кой: авто­мо­биль (19 повто­ре­ний), маши­на (16), авто (3), лег­ко­вуш­ка, авто­мо­биль­чик, машин­ка, пласт­мас­со­вая игруш­ка. Эта тема по раз­ным осно­ва­ни­ям свя­за­на родо-видо­вы­ми отно­ше­ни­я­ми с вво­ди­мы­ми авто­ром новы­ми тема­ми, обра­зу­ю­щи­ми свои номи­на­тив­ные цепоч­ки («авто­мо­биль оте­че­ствен­но­го про­из­вод­ства» и «авто­мо­биль ино­стран­но­го про­из­вод­ства», «новый авто­мо­биль» и «подер­жан­ный авто­мо­биль»): оте­че­ствен­ная маши­на, оте­че­ствен­ное авто, про­из­ве­де­ние оте­че­ствен­но­го авто­про­ма, про­из­ве­де­ние рос­сий­ско­го кон­струк­тор­ско­го гения с видо­вы­ми номи­на­тив­ны­ми цепоч­ка­ми и отдель­ны­ми номи­на­ци­я­ми на более низ­ких уров­нях деле­ния — жигу­ли (2); пятер­ка, вось­мер­ка, девят­ка, десят­ка; ино­мар­ка (3) и др. Отно­ше­ни­я­ми цело­го и части исход­ная тема свя­за­на с тема­ми, охва­ты­ва­ю­щи­ми раз­лич­ные агре­га­ты авто­мо­би­ля: АКПП, авто­ма­ти­че­ская КПП, авто­мат, МКПП, меха­ни­ка (3), меха­ни­че­ская короб­ка, руч­ная короб­ка и др.

Номи­на­ция покуп­ка авто­мо­би­ля пре­ди­ци­ру­ет­ся при­зна­ка­ми «цель покуп­ки», «усло­вия экс­плу­а­та­ции поку­па­е­мой маши­ны», «цена», «опыт вожде­ния» и др. Этим обу­слов­ле­но появ­ле­ние в тек­сте рядов номи­на­тив­ных еди­ниц, пред­став­лен­ных функ­ци­о­наль­ны­ми экви­ва­лен­та­ми: удоб­ство, без­опас­ность, про­хо­ди­мость, ста­тус (ради удоб­ства, без­опас­но­сти, про­хо­ди­мо­сти; что­бы пока­зать свой ста­тус), семья, гон­ки (авто­мо­биль для семьи, для гонок); трас­са, поток машин; неадек­ват­ный сер­вис, пло­хое обслу­жи­ва­ние и др.

Ана­лиз суб­тек­стов, пред­став­лен­ных клю­че­вы­ми сло­ва­ми, поз­во­ля­ет ана­ли­зи­ро­вать текст как знак в аспек­те кар­ти­ны мира. Так, пока­за­те­ля­ми смыс­ла (субъ­ек­тив­ной модаль­но­сти) высту­па­ют а) волюн­та­тив­ные выска­зы­ва­ния — сове­ты, реко­мен­да­ции, предо­сте­ре­же­ния и б) оце­ноч­ные выска­зы­ва­ния. При­ме­ры: а) При покуп­ке авто­мо­би­ля вы долж­ны пом­нить о трех важ­ней­ших состав­ля­ю­щих любой систе­мы без­опас­но­сти; Луч­ше взять маши­ну с перед­ним или зад­ним при­во­дом; б) Труд­но быва­ет сми­рить­ся с без­душ­но­стью пла­сти­ко­вых сало­нов совре­мен­ных авто.

Зна­че­ние (опыт дей­ство­ва­ния в сце­на­рии) выра­жа­ет­ся пре­ди­ка­та­ми, мар­ки­ру­ю­щи­ми после­до­ва­тель­ность реко­мен­ду­е­мых инструк­то­ром дей­ствий, а так­же детер­ми­нан­та­ми с семан­ти­кой после­до­ва­тель­но­сти (сна­ча­ла, затем, даль­ше): Есте­ствен­но сна­ча­ла отве­тить на вопрос: «Для чего мне этот авто­мо­биль?» Даль­ше мож­но опре­де­лять­ся с мар­кой и моде­лью авто­мо­би­ля.

Образ (вос­про­из­ве­де­ние свойств объ­ек­та) созда­ет­ся опи­са­тель­ны­ми выска­зы­ва­ни­я­ми и тек­сто­вы­ми фраг­мен­та­ми: Маши­на чистень­кая, новень­кая, все отлич­но рабо­та­ет, и нет ни еди­ной цара­пин­ки; Япон­цы надеж­ны, но в недо­ро­гих ком­плек­та­ци­ях зача­стую стра­да­ют деше­вым пла­сти­ком сало­на. Нем­цы доро­ги, удоб­ны, но любят, когда за ними хоро­шо уха­жи­ва­ют и не про­ща­ют пло­хо­го обслу­жи­ва­ния. Разу­ме­ет­ся, ком­по­нен­ты содер­жа­тель­ной струк­ту­ры зна­ка могут сов­ме­щать­ся, выра­жа­ясь одни­ми и теми же рече­вы­ми сегментами.

Резуль­та­ты иссле­до­ва­ния. Опи­са­ние тема­ти­че­ских номи­на­тив­ных цепо­чек отдель­но­го тек­ста озна­ча­ет систе­ма­ти­за­цию номи­на­тив­ных еди­ниц в соот­вет­ствии с орга­ни­за­ци­ей суб­цель­но­стей рече­во­го про­из­ве­де­ния, мар­ке­ра­ми кото­рых дан­ные еди­ни­цы явля­ют­ся. Ины­ми сло­ва­ми, это систе­ма­ти­за­ция номи­на­ций, отра­жа­ю­щая на поверх­ност­ном уровне глу­бин­ное тема-рема­ти­че­ское струк­ту­ри­ро­ва­ние рече­во­го произведения.

В то же вре­мя систе­ма TextAppliance опре­де­ля­ет бóль­шую или мень­шую инфор­ма­ци­он­ную зна­чи­мость слов и суб­стан­тив­ных сло­во­со­че­та­ний для иден­ти­фи­ка­ции тек­ста или мно­же­ства тек­стов (сверх­тек­ста). Номи­на­тив­ные еди­ни­цы с повы­шен­ным индек­сом инфор­ма­ци­он­ной зна­чи­мо­сти оце­ни­ва­ют­ся как клю­че­вые слова.

Такие номи­на­ции по их при­над­леж­но­сти к тем или иным суб­цель­но­стям могут быть авто­ма­ти­че­ски соот­не­се­ны с раз­лич­ны­ми объ­ект­ны­ми обла­стя­ми сце­на­рия. Неко­то­рые из этих номи­на­тив­ных еди­ниц явля­ют­ся обо­зна­че­ни­я­ми дан­ных обла­стей: класс авто­мо­би­ля, объ­ем дви­га­те­ля, систе­ма без­опас­но­сти и др. Подоб­ные обо­зна­че­ния, пред­став­ляя соот­вет­ству­ю­щие суб­цель­но­сти в свер­ну­том виде, при­над­ле­жат к чис­лу наи­бо­лее емких в содер­жа­тель­ном отно­ше­нии номи­на­ций тек­ста. Они, кро­ме того, обо­зна­ча­ют основ­ные под­те­мы тек­ста, т. е. под­те­мы, осмыс­ли­ва­е­мые авто­ром-инструк­то­ром как наи­бо­лее зна­чи­мые для адресата.

Сле­до­ва­тель­но, появ­ля­ет­ся воз­мож­ность уста­нов­ле­ния груп­пы номи­на­ций, кото­рые обла­да­ют всем ком­плек­сом основ­ных харак­те­ри­стик клю­че­во­го сло­ва. Во-пер­вых, это сло­ва и сло­во­со­че­та­ния, осо­бен­но зна­чи­мые для иден­ти­фи­ка­ции тек­стов опре­де­лен­ной тема­ти­ки. Во-вто­рых, эти номи­на­ции в сво­ей сово­куп­но­сти пол­но пред­став­ля­ют пред­мет­ное содер­жа­ние тек­ста. В‑третьих, они высту­па­ют мар­ке­ра­ми содер­жа­ния, кото­рое автор-инструк­тор счи­та­ет наи­бо­лее важ­ным и к кото­ро­му он целе­на­прав­лен­но при­вле­ка­ет вни­ма­ние адресата.

Каж­дая из ука­зан­ных харак­те­ри­стик клю­че­во­го сло­ва про­яв­ля­ет­ся у отдель­ных номи­на­тив­ных еди­ниц в боль­шей или мень­шей сте­пе­ни5. Напри­мер, номи­на­ция снеж­ные доро­ги име­ет один из самых высо­ких пока­за­те­лей иден­ти­фи­ка­то­ра тек­ста. Она отно­сит­ся к важ­ной объ­ект­ной обла­сти («про­хо­ди­мость авто­мо­би­ля»), но сама не явля­ет­ся назва­ни­ем одной из рас­кры­ва­е­мых авто­ром тем. Это же сле­ду­ет ска­зать о сло­во­со­че­та­ни­ях неопыт­ные води­те­ли, полу­пу­стая маши­на, мяг­кая под­вес­ка и др. Напро­тив, номи­на­ция покуп­ка маши­ны, обо­зна­чая тему все­го рас­смат­ри­ва­е­мо­го тек­ста, зани­ма­ет в рей­тин­ге его иден­ти­фи­ка­то­ров пери­фе­рий­ное (98‑е) место. Одна­ко при вклю­че­нии в поис­ко­вый запрос в допол­не­ние к ней дру­гих лек­си­че­ских еди­ниц (напри­мер, покуп­ка подер­жан­ной маши­ны) воз­ни­ка­ет новая номи­на­ция со сво­и­ми иден­ти­фи­ка­ци­он­ны­ми характеристиками.

Важ­но отме­тить, что опре­де­ле­ние набо­ра клю­че­вых слов в текстах или суб­текстах, посвя­щен­ных отдель­ным эта­пам раз­вер­ты­ва­ния сце­на­рия (в нашем слу­чае — выбо­ру авто­мо­би­ля, его осмот­ру, заклю­че­нию сдел­ки, реги­стра­ции транс­порт­но­го сред­ства и дру­гим более част­ным), может спо­соб­ство­вать улуч­ше­нию каче­ства авто­ма­ти­че­ско­го рас­по­зна­ва­ния сце­на­ри­ев в элек­трон­ных мас­си­вах тек­стов. По-види­мо­му, для выде­ле­ния номи­на­тив­ных еди­ниц, обла­да­ю­щих ком­плек­сом ука­зан­ных выше харак­те­ри­стик клю­че­во­го сло­ва, целе­со­об­раз­но с помо­щью систе­мы TextAppliance ана­ли­зи­ро­вать тек­сты, из кото­рых пред­ва­ри­тель­но устра­не­ны фраг­мен­ты, реа­ли­зу­ю­щие пери­фе­рий­ный пре­ди­ка­ции, т. е. пре­ди­ка­ции, кото­рые, соглас­но кон­цеп­ции Т. М. Дрид­зе, не вхо­дят в чис­ло основ­ных эле­мен­тов содер­жа­ния рече­во­го произведения.

Суще­ствен­но так­же, что извле­че­ние клю­че­вых слов вме­сте с кон­тек­ста­ми, в кото­рых они исполь­зу­ют­ся, поз­во­ля­ет авто­ма­ти­че­ски фор­ми­ро­вать базу реко­мен­да­ций, зна­чи­мых для инструк­ти­ру­е­мо­го лица. При­ме­ры таких кон­тек­стов: Какой ОБЪЕМ ДВИГАТЕЛЯ выбрать? Если вы езди­те по горо­ду, луч­ше взять неболь­шой: 1,2–1,6 лит­ра… Если частень­ко при­хо­дит­ся ездить по заго­род­ным доро­гам, мож­но брать 1,8–2,5 лит­ра. ДЖИПЫ ИЛИ ВНЕДОРОЖНИКИ… Поду­май­те, нужен ли вам рас­ход 15–17 лит­ров на сот­ню; Выбрать зад­ний или перед­ний ПРИВОД? С неболь­шим опы­том вожде­ния луч­ше взять маши­ну с перед­ним или пол­ным при­во­дом.

Таким обра­зом, пред­ло­жен­ный под­ход к ана­ли­зу тек­ста, учи­ты­ва­ю­щий зако­но­мер­но­сти его тема-рема­ти­че­ско­го струк­ту­ри­ро­ва­ния и ком­прес­сии, а так­же орга­ни­за­ции номи­на­тив­ных еди­ниц на тек­сто­вой плос­ко­сти, может стать линг­ви­сти­че­ской базой для даль­ней­ше­го совер­шен­ство­ва­ния систем авто­ма­ти­че­ско­го извле­че­ния клю­че­вых слов.

Выво­ды. Созда­ние когни­тив­ных асси­стен­тов, инструк­ти­ру­ю­щих поль­зо­ва­те­ля при реа­ли­за­ции им опре­де­лен­ной цели, тре­бу­ю­щей сле­до­ва­ния неко­то­ро­му сце­на­рию, дела­ет акту­аль­ной зада­чу раз­ра­бот­ки иерар­хи­че­ски орга­ни­зо­ван­ной систе­мы потен­ци­аль­ных запро­сов, пред­став­лен­ных клю­че­вы­ми сло­ва­ми. Сфор­ми­ро­вав­ший­ся в обще­ствен­ном созна­нии сце­на­рий содер­жит пра­ви­ла целе­со­об­раз­но­го пове­де­ния субъ­ек­та. Эти пра­ви­ла долж­ны транс­ли­ро­вать­ся асси­стен­том поль­зо­ва­те­лю в соот­вет­ствии с его инфор­ма­ци­он­ны­ми запросами.

Реше­нию ука­зан­ной зада­чи могут спо­соб­ство­вать линг­ви­сти­че­ские иссле­до­ва­ния по тео­рии тек­ста, преж­де все­го рабо­ты, посвя­щен­ные меха­низ­мам тема-рема­ти­че­ско­го струк­ту­ри­ро­ва­ния порож­да­е­мо­го рече­во­го про­из­ве­де­ния, а так­же его ком­прес­сии, пре­де­лом кото­рой явля­ет­ся набор клю­че­вых слов (Л. В. Сахар­ный, Л. Н. Мур­зин), а так­же иерар­хии ком­му­ни­ка­тив­ных про­грамм тек­ста как семан­ти­ко-смыс­ло­вой струк­ту­ры осо­бо­го рода (Т. М. Дрид­зе), его тема­ти­че­ской орга­ни­за­ции (Т. В. Мат­ве­е­ва и др.). 

Выде­ле­ние клю­че­вых слов из тек­ста с помо­щью авто­ма­ти­зи­ро­ван­ной систе­мы TextAppliance допол­ня­лось нами опре­де­ле­ни­ем их места в тема­ти­че­ской орга­ни­за­ции рече­во­го про­из­ве­де­ния, для чего опи­сы­ва­лись тема­ти­че­ские цепоч­ки послед­не­го. Рас­смот­ре­ние обра­зу­ю­щих эти цепоч­ки номи­на­тив­ных еди­ниц в един­стве с пре­ди­ци­ру­е­мы­ми им при­зна­ка­ми (рема­ми) поз­во­ля­ет изу­чать содер­жа­тель­ную орга­ни­за­цию тек­ста как зна­ка, созда­ва­е­мую смыс­ла­ми, зна­че­ни­я­ми и образами.

Сде­ла­ны пер­вые шаги в раз­ра­бот­ке тех­но­ло­гии выде­ле­ния из тек­ста слов и суб­стан­тив­ных сло­во­со­че­та­ний, обла­да­ю­щих ком­плек­сом основ­ных харак­те­ри­стик клю­че­во­го сло­ва — высо­ким пока­за­те­лем иден­ти­фи­ка­то­ра доку­мен­та, содер­жа­тель­ной емко­стью, а так­же ком­му­ни­ка­тив­ной зна­чи­мо­стью номи­на­тив­ной еди­ни­цы как мар­ке­ра важ­ной для адре­са­та информации. 

1 Поня­тия цель­но­сти и суб­цель­но­сти отно­сят­ся к орга­ни­за­ции кон­крет­но­го рече­во­го про­из­ве­де­ния. При про­ду­ци­ро­ва­нии же ново­го тек­ста суб­цель­ность может ста­но­вить­ся цель­но­стью. При­ме­ча­тель­ны слу­чаи выде­ле­ния суб­цель­но­стей из тек­ста и их после­ду­ю­ще­го функ­ци­о­ни­ро­ва­ния уже в каче­стве цель­но­стей. (При­ме­ром могут слу­жить фраг­мен­ты из пуш­кин­ско­го «Евге­ния Оне­ги­на», пуб­ли­ку­е­мые как само­сто­я­тель­ные сти­хо­тво­ре­ния о при­ро­де для детей.)

2 Хре­сто­ма­тий­ным при­ме­ром семан­ти­че­ской избы­точ­но­сти, воз­ни­ка­ю­щей в про­цес­се тек­сто­по­рож­де­ния, явля­ет­ся извест­ное сти­хо­тво­ре­ние С. Мар­ша­ка: «Вот дом, кото­рый постро­ил Джек. А это пше­ни­ца, кото­рая в тем­ном чулане хра­нит­ся в доме, кото­рый постро­ил Джек. А это весе­лая пти­ца-сини­ца, кото­рая часто вору­ет пше­ни­цу, кото­рая в тем­ном чулане хра­нит­ся, в доме, кото­рый постро­ил Джек…».

3 ГОСТ Р 7.0.66–2010. ИСО 5963:1985. СИБИД (2010). Элек­трон­ный ресурс http://​docs​.cntd​.ru/​d​o​c​u​m​e​n​t​/​1​2​0​0​0​8​4​836.

4 http://вертикаль-оса.рф/publ/kakoj_kupit_avtomobil/1–1‑0–4.

5 Не слу­чай­но иссле­до­ва­те­ли, про­во­дя­щие экс­пе­ри­мен­ты по авто­ма­ти­че­ско­му анно­ти­ро­ва­нию тек­стов, ино­гда наме­рен­но не исполь­зу­ют в зада­нии респон­ден­там номи­на­цию «клю­че­вое сло­во», а пред­ла­га­ют выбрать из тек­ста сло­ва и сло­во­со­че­та­ния, .кото­рые опи­сы­ва­ют его содер­жа­ние. [Ванюш­кин и др. 2019: 211–212].

Ста­тья посту­пи­ла в редак­цию 2 июля 2020 г.;
реко­мен­до­ва­на в печать 4 нояб­ря 2020 г.

© Санкт-Петер­бург­ский госу­дар­ствен­ный уни­вер­си­тет, 2021

Received: July 2, 2020
Accepted: November 4, 2020