Sentiment analysis of comments on educational video blogs (using the example of preparation for the unified state exam)
The aim of the article is to study the tonality of comments on educational video blogs using the sentiment analysis method. Three educational videos of three different bloggers with more than a thousand comments, dedicated to preparation for the OGE/USE were taken. Using language models, the tonality of the comment texts was determined as positive, negative and neutral. Comments were unloaded using MAXQDA, which made it possible to unload the number of likes, replies to comments, dates, etc. as variables. The set of variables was supplemented with data on the number of words, characters, individual parts of speech, exclamations and questions in the comments. Using statistical analysis methods, the obtained samples were analyzed in the context of three videos, as well as negative and positive comments. The Word Cloud tool was used to visualize the frequency of word use in comments to three videos of different tonality. Based on the results of comparing comments with positive and negative tonality, their morphological and syntactic features were identified. In the sample of positive comments, relationships were found between the studied characteristics of the video: the number of responses and the number of verbs and nouns in the comment, as well as the number of exclamations and questions in the comment and its volume. In comments of this type, exclamations and adverbs are more common, and the positive comments themselves are more often found at the top level. The frequency of negative comments in responses is higher than in top-level comments. Negative comments are larger in volume. These two types of comments differ in the number of likes, but do not have statistically significant differences in the number of responses from users. The presented study has limitations associated with the specifics of using language models to assess the tonality of statements and the topics of educational videos.
Филипова Александра Геннадьевна — д-р социол. наук, проф.; https://orcid.org/0000-0002-7475-1961, alexgen77@list.ru
Малахова Варвара Романовна — канд. психол. наук, мл. науч. сотр.; https://orcid.org/0000-0002-1663-634, vareffka@mail.ru
Владивостокский государственный университет,
Российская Федерация, 690014, Владивосток, ул. Гоголя, 41
Alexandra G. Filipova — Dr. Sci. in Sociology, Professor;
https://orcid.org/0000-0002-7475-1961, alexgen77@list.ru
Varvara R. Malakhova — PhD in Psychology, Junior Researcher; https://orcid.org/0000-0002-1663-634, vareffka@mail.ru
Vladivostok State University,
41, ul. Gogolya, Vladivostok, 690014, Russian Federation
Филипова А. Г., Малахова В. Р. (2025). Сентимент-анализ комментариев к образовательным видеоблогам (на примере подготовки к ОГЭ/ЕГЭ). Медиалингвистика, 12 (3), 381–396. .
URL: https://medialing.ru/sentiment-analiz-kommentariev-k-obrazovatelnym-videoblogam-na-primere-podgotovki-k-oge-ege/ (дата обращения: 16.01.2026)
Filipova A. G., Malakhova V. R. (2025). Sentiment analysis of comments on educational video blogs (using the example of preparation for the unified state exam). Media Linguistics, 12 (3), 381−396. (In Russian)
URL: https://medialing.ru/sentiment-analiz-kommentariev-k-obrazovatelnym-videoblogam-na-primere-podgotovki-k-oge-ege/ (accessed: 16.01.2026)
УДК 316.77
Исследование выполнено за счет гранта Российского научного фонда № 23–28-01276, https://rscf.ru/project/23–28-01276/
The study was supported by the grant of the Russian Science Foundation no. 23–28-01276, https://rscf.ru/project/23–28-01276
Постановка проблемы
С развитием социальных сетей, онлайн-сообществ, с вовлечением пользователей во взаимодействия с авторами/блогерами появляется и новое поле для исследовательской активности — анализ комментариев пользователей. Написание комментариев удовлетворяет разные потребности со стороны пользователей. Как отмечает В. А. Митягина, создание комментария в интернет-пространстве пользователем — это коммуникативное действие, способствующее самореализации и общению в свободной форме [Митягина 2012]. Главная ценность комментария заключается в предоставлении пользователю возможности краткой или развернутой оценки поста, уточнения непонятных моментов или выражения согласия или несогласия с автором исходного материала [Дахалаева 2014].
И. В. Топчий отмечает, что интернет-комментирование усложняет процесс взаимодействия, так как «комментарий становится оценкой на оценку, интерпретацией интерпретации, итогом мыслительного процесса и эмоциональной реакции, а также их началом для следующего комментатора» [Топчий 2019: 176]. При этом пользователи обращаются наряду с вербальными средствами выражения к невербальным экспрессивным — эмодзи, гифкам и пр.
Сбор данных с платформы YouTube осуществлялся в 2023 г. до замедления в июле-августе 2024 г.
Е. В. Медведева отмечает, что зритель на YouTube становится активным участником коммуникативного процесса. В своей коммуникации с аудиторией видеоблогер успешно задействует три типа возможного отношения потребителя к объекту потребления, составляющих основу рекламной коммуникации: рациональный, эмоциональный и поведенческий. Коммуникативный акт в медиасреде характеризуется интерактивностью — возможностью зрителя сразу реагировать на контент, синхронностью (одновременным присутствием видеоблогера и зрителя в сети) и асинхронностью (к контенту можно возвращаться в любое время) [Медведева 2021].
В качестве критериев анализа комментариев С. М. Карпоян предлагает степень эмоциональности оценки (лайки), полноту выражения мнения, уровень формальности используемых языковых средств [Карпоян 2015].
Результативным методом, позволяющим охватить большие массивы данных и провести мониторинг нескольких тысяч комментариев из социальных сетей, является сентимент-анализ (анализ тональности). Компьютерный анализ эмоциональности текстов набирает популярность. Запрос на ресурсе «Киберленинка»1 по ключевому слову «сентимент-анализ» по запросу на 03.10.2024 выдал 485 результатов. Обнаружен существенный прирост публикаций за последние три года: в 2021 г. — 34 публикации, 2022 — 64 и 2023 — 75. В отличие от тона общения (tone of voice), т. е. стиля и интонации речи, сентимент-анализ обращается к содержанию.
История вопроса
Для изучения комментариев пользователей на всевозможных форумах и чатах многие исследователи обращаются к технологии сентимент-анализа. Он является важной областью обработки естественного языка и предназначен для автоматического извлечения и анализа настроений и мнений из текста. Типы настроений, которые мы можем обнаружить, включают положительные, нейтральные и отрицательные и могут быть далее разделены на удивление, доверие, ожидание, гнев, страх, грусть, отвращение, радость и т. д. [Bose et al. 2020]. Хотя, как отмечается, частым ограничением сентимент-анализа выступает широкая категоризация высказываний на три класса — позитивные, негативные и нейтральные [Wei, Zhang 2024].
Довольно часто публикации, посвященные сентимент-анализу, строятся вокруг разных подходов к эмоциональной разметке текстов — анализа лексикона, традиционного машинного обучения, глубокого обучения, гибридных подходов [Sankar, Subramaniyaswamy 2017]. А. А. Двойникова и А. А. Карпов классифицируют методы определения тональности текста и выделяют три основные группы методов: лингвистические, машинное обучения и гибридные. Первая группа подразделяется на методы, основанные на тональных словарях (например, RuSentiLex, РуТез, LinisCrowd, WordNetAffect) и на правилах (например, конструкции «если → то»). Методы машинного обучения разделены на «с учителем» и «без учителя» [Двойникова, Карпов 2020].
В сентимент-анализе выделяют уровни документа, предложения и аспекта/фрагмента в соответствии с диапазоном текста [Behdenna, Barigou, Belalem 2016]. Для анализа настроений используются разные типы естественных языков: английский, французский, китайский, русский и др.
Что касается русского языка, здесь, ссылаясь на публикацию Сметанина, можно отметить специфические проблемы извлечения репрезентативных данных и составления всеобъемлющего описания ограничений [Smetanin 2020]. Кроме того, в большинстве исследований основным недостатком было отсутствие оценки модели, по которой производился анализ настроений, в текстах целевого домена, что усложняет проверку качества классифицированных настроений. Как отмечает исследователь, наиболее часто изучаемыми направлениями исследований с применением сентимент-анализа были межэтнические и миграционные проблемы, а также украинский кризис. Значительное внимание также уделялось анализу социальной напряженности и изучению других тем [Smetanin 2020].
Сферой эмпирического изучения тональности становятся материалы социальных сетей. На основе корпуса из 500 млн твитов на английском языке из 85 стран, исследователи реконструируют совокупную временную шкалу ежедневных изменений настроения 2,4 млн человек. Авторы с помощью психолингвистического инструмента анализа текста LIWC определили процент положительных и отрицательных лексем в сообщениях каждого отдельного пользователя, чтобы реконструировать индивидуальную изменчивость настроения. Они обнаружили, что независимо от страны положительные эмоции достигают пика утром и около полуночи, а отрицательные эмоции растут в течение дня и также достигают максимума около полуночи [Golder, Macy 2011].
Другой пример изучения материалов социальных сетей представлен в статье Е. В. Комаровой. Она анализировала тональность интернет-сообщений, посвященных мигрантам, с помощью сентимент-анализа и лингвистической экспертизы. В ее исследовании показано, что количество негативных сообщений преобладает над позитивными, только среди русскоязычных сообщений обнаружены тексты с позитивной направленностью [Комарова 2023].
П. Байлис и соавторы анализируют влияние погодных условий на выраженные настроения в корпусе из 3,5 млрд твитов. Они используют LIWC, чтобы определить, содержит ли данный твит или обновление статуса хотя бы одну лексему с позитивной или негативной коннотацией аффективности. Используя временные метки и геолокационные данные твитов и обновлений статуса, исследователи связывают тексты с преобладающими погодными условиями на момент публикации [Baylis et al. 2018].
Таким образом, можно отметить широкий диапазон исследований тональности в разных областях научного знания. Наше исследование сфокусировано на изучении особенностей коммуникации образовательных блогеров и их аудитории. Это сложно исследуемый аспект образовательного блогинга, поскольку взаимодействия в большинстве случаев ограничены коммуникациями посредством обмена текстовыми сообщениями на форумах, в чатах, комментариях и т. п. Сложность связана с неформализованностью и фрагментарностью коммуникации (комментарии и реплики редко формируют устойчивый диалог), смешением регистров общения (академический, разговорный и др. стили), эмоциональной насыщенностью и пр.
Обращаясь к классификации, предложенной Л. Т. Касперовой [Касперова 2018], комментарии к образовательным блогам в большинстве случаев можно определить как «эмоциональный отклик» и изучать в логике анализа тональности, при этом сентимент-анализ переводит этот отклик в машинно-обрабатываемую форму, позволяя выявлять общие эмоциональные паттерны и строить количественные модели реакции аудитории.
Описание методики исследования
В ходе интервьюирования учителей и фокус-групп со школьниками 9–11 классов, проживающими в Новосибирске, Владивостоке и Москве, был сформирован рейтинг образовательных блогеров, их аккаунты верифицированы. Далее для каждого блогера были отобраны 4–5 видео наиболее популярных на 10.08.2023. Из этого рейтинга рандомно отобраны три видео с количеством комментариев больше 1 тыс.
С использованием программы MAXQDA были загружены комментарии к трем отобранным образовательным видео. Инструментарий программы позволил загрузить не только комментарии, но и лайки, отметки о комментариях верхнего уровня, ID пользователей, количество ответов на комментарий, дату публикации.
Далее данные прошли предобработку в Python с использованием библиотек NLTK (Natural Language Toolkit), а именно nltk.corpus.stopwords — для получения списка стоп-слов, что позволило исключить наиболее частые, но неинформативные слова из анализа; nltk.tokenize.word_tokenize — для токенизации текстов, т. е. разбивки строк на отдельные слова и знаки препинания; nltk.pos_tag — для определения частей речи (POS-тегирования), что помогло в дальнейшем анализе и понимании контекста слов. Для подсчета количества слова в тексте использовался класс Counter модуля Сollections. Инструмент Wordcloud использовалcя для генерации облаков слов, Matplotlib — для визуализации данных и графиков.
Для классификации комментариев по их эмоциональному содержанию применялась предобученная модель BERT (Bidirectional Encoder Representations from Transformers). Необходимые классы и функции были импортированы из библиотеки transformers, использовался токенизатор BertTokenizer и модель BertForSequenceClassification, а также модель DeepPavlov/rubert-base-cased, предобученная на русском языке и предназначенная для задач классификации текстов.
Анализ материалов
Набор переменных, выгруженных при помощи MAXQDA, был дополнен следующими: количество слов и символов, разных частей речи (глаголов, существительных, прилагательных и наречий), восклицательных и вопросительных предложений, тональность. Наблюдениями выступили отдельные комментарии. Всего в выборке представлено 4707 комментариев: 1127, 1096, 2484 к первому, второму и третьему видео соответственно.
Датасет был дополнен расчетными переменными — средняя длина слова и количество дней, прошедших с даты публикации комментария.
Общие сведения об исследуемых видео приведены в таблице 1.
Таблица 1. Описание характеристик видео
| Видео 1 | Видео 2 | Видео 3 | |
| Название | Сдаем ОГЭ по математике за 3 минуты | Как запомнить ударения за 1,5 минуты | ЕГЭ русский язык | Python с нуля. Урок 1 | Первая программа. Переменные |
| Блогер/канал | Дядя Артем | Математика ОГЭ | 100 балльный | Репетиторская империя: онлайн-школа ЕГЭ и ОГЭ | Иван Викторович |
| Информация о блогере/канале | Преподаватель математики ОГЭ в онлайн-школе 100 балльный репетитор | Онлайн-школа подготовки к ЕГЭ и ОГЭ по 10 предметам | Учитель информатики высшей категории, более 10 лет занимается подготовкой к ЕГЭ|ОГЭ по информатике |
| Кол-во видео на канале | 429 | Более 1000 видео | 462 |
| Кол-во просмотров видео | 748 259 | 943 892 | 2 296 125 |
| Кол-во подписчиков | Более 219 000 | Более 130 000 | Более 261 000 |
| Дата публикации | 20.01.2022 | 21.08.2022 | 15.04.2020 |
| Продолжительность | 6 мин 10 сек | 1 мин 37 сек | 17 мин 48 сек |
| Ссылка | https://www.youtube.com/ watch?v=bL5F94_zcPY | https://www.youtube.com/ watch?v=2Y7DxoCdJs4 | https://www.youtube.com/ watch?v=LFCq-mNF96c |
При анализе комментариев к видео изучались следующие переменные:
— количество дней публикации (разница между датой опубликования видео и датой создания датасета);
— тональность комментария;
— уровень комментария;
— количество ответов и лайков к комментарию;
— длина комментария (отношение количества символов к количеству слов в комментарии);
— количество слов и символов;
— количество частей речи — глаголы, существительные, прилагательные, наречия;
— количество восклицательных и вопросительных знаков.
Целью настоящего исследования выступает поиск закономерностей (морфологических, синтаксических и пр.) в комментариях разной тональности, выделение определенных паттернов тональности.
Результаты исследования и их обсуждение
Для сравнения комментариев трех выделенных в ходе исследования видео, отличающихся по тональности, был использован инструмент «Облако слов» (рис. 1). Количество слов было ограничено 100 (по решению авторов исходя из снижения информативности слов).

Для исследования высказываний разной тональности часто выделяют ключевые слова. Инструмент «Облако слов» в качестве таких ключевых слов определяет наиболее частотные, конечно после использования всех необходимых стоп-слов. Так, в публикации китайских исследователей выделены две группы слов. Первая — слова с позитивной тональностью, такие как «поощрять», «важно», «вместе», «общий», «давай» и пр. Другая категория — слова с нейтральным значением, которые обычно используются при публикации конструктивных новостей о государственных делах, например «образование», «студент», «учитель», «экономика», «реализовать» и т. д. Слова нейтральной тональности составили большинство [Li, Shi 2023].
Визуализация данных нашего исследования (рис. 1) позволяет в первом приближении увидеть фокусирование комментаторов на сдаче ЕГЭ и ОГЭ (слова «пробник», «экзамен», «готовиться», «сдавать» и др.), что не случайно, ведь подготовке к экзаменам по русскому языку и математике были посвящены первые два ролика напрямую, третий — опосредованно, так как блогер рекомендует выбирать Python при сдаче ОГЭ и ЕГЭ по информатике.
Также можно распознать специфическую лексику в третьем случае. Поскольку это видео о Python, в комментариях встречаются print, message и др. В негативных комментариях обращает на себя внимание большая разница между частотой первых и последних слов, вошедших в 100 самых частотных, об этом говорит увеличенный кегль слов на рисунке. Облака слов с положительными комментариями включают большее количество слов, написанных увеличенным кеглем. Облака слов с нейтральными и позитивными комментариями содержат слова благодарности, оценочные наречия и прилагательные («просто», «круто», «хороший», «большой»).
Как видно из рисунка 2, доля нейтральных комментариев преобладает во всех трех видео, 56, 60 и 58 % соответственно. В первом видео про ОГЭ по математике доля негативных комментариев (29 %) больше, чем позитивных (15 %), в третьем видео про Python наблюдается обратная ситуация, позитивные (24 %) преобладают над негативными (19 %) комментариями. Во втором видео обнаружено практически равное количество позитивных и негативных комментариев. Разметка тональности комментариев выполнена с использованием предобученной языковой модели BERT, адаптированной для задач сентимент-анализа.

Рассмотрим средние показатели, характеризующие комментарии к изучаемым видео. Показатель «количество дней публикации комментария» в 2,3–2,5 раза выше в первом и третьем видео — 907,3 и 984,4 дней соответственно относительно второго (390,5 дней). Это может свидетельствовать не столько о росте трафика в целом, сколько о долговременной актуальности и устойчивом интересе аудитории к данным материалам. Такие значения указывают на возможную поисковую значимость контента и его способность вовлекать новых зрителей спустя значительное время после публикации. Это подтверждает рисунок 3, показывающий динамику комментариев по кварталам (берутся данные по срединному месяцу) начиная с месяца публикации видео на канале. Если расценивать публикацию комментариев как критерий популярности видео, то очевидно, что второе видео про ударения устойчиво удерживает интерес пользователей. Первое видео про ОГЭ по математике после появления на канале «Дядя Артем | Математика ОГЭ | 100балльный» вызвало бурное комментирование, превысившее по своим значениям количество комментариев по двум другим видео, но потом комментирование пошло на спад. Пользователи стали оставлять к нему меньше комментариев, чем к видео про Python, появившееся на YouTube гораздо раньше.

Анализ количества комментариев к видео за весь период публикации позволяет выделить всплески в каждой выборке, начинающиеся с января и длящиеся до конца второго квартала у первого и второго видео (рис. 4). В третьем видео про Python увеличение числа комментариев начинается с января 2020 г. и спадает в январе 2023 г. Графики динамики количества комментариев первого и второго видео похожи по периодам максимальных точек, так как оба контента имеют прямое отношение к экзаменам. Актуальность третьего видео из-за его тематики не так зависит от «сезонности».
Рис. 4. Распределение количества комментариев за 2023 г. в трех видео
Во втором видео в среднем больше ответов (0,57) на комментарии и лайков (30,98) к комментариям (для сравнения: в первом видео среднее количество ответов 0,39, в третьем среднее количество лайков — 6,46), т. е. комментарии вызывают больше эмоциональных откликов пользователей. Стоит обратить внимание на довольно креативное оформление контента — в виде рэпа про ударения. Средняя длина слова больше в комментариях к третьему видео (6,8 знаков), что может говорить о более сложных речевых высказываниях. В первом и втором видео, наоборот, более короткие комментариях со средней длиной слова — 5,7 и 5,9 знаков соответственно. Идея использования распределения средней длины слова для анализа текстовой сложности обсуждений по теме устойчивости была предложена T. Андерсон и соавторами. Короткие слова могут указывать на более простое и прямолинейное общение, в то время как большая средняя длина слова может свидетельствовать о технических или специализированных обсуждениях [Anderson, Sarkar, Kelley 2024]. В нашем случае это предположение подтверждается, так как в комментариях к третьему видео, посвященному программированию на Python, наблюдается преобладание более длинных слов. Средняя длина слова представляет собой среднее количество символов, приходящихся на слово в тексте. Вычисление этого показателя может быть полезным для оценки сложности текста и уровня его технической детализации.
На рисунке 5 визуализировано распределение средних значений количества слов и отдельных частей речи в комментариях к трем исследуемым видео. Комментарии ко второму видео отличаются меньшим количеством слов в целом и слов, относящихся к отдельным частям речи в частности.

Корреляционный анализ трех видео показал особенности связей переменных, хотя во всех выявленных случаях они носят слабовыраженный характер. В первом видео обнаружены значимые прямые связи восклицаний с количеством слов (0,147 при p < 0,001) и частями речи в комментариях: глаголами (0,143 при p < 0,001), существительными (0,127 при p < 0,001), прилагательными (0,111 при p < 0,01) и наречиями (0,152 при p < 0,001).
Примеры комментариев2:
…случайно наткнулся на видео, но как учащийся 2го курса технического вуза хочу сказать тебе, мой дорогой 9ти классник или ты уже в этом году сдаешь егэ, все эти экзамены, это такая легкотня, скажу из личного опыта, я столько нервов потратил на эти экзамены, столько всего упустил, конечно, готовиться безусловно нужно, но ОГЭ, это такая фигня, поверь мне! учась в техническом вузе нам так, «повезло», что мы не можем сдать историю, потому, что препод конченный, и чуть ли не весь поток отчислили из за того, что мы ходили по 8 раз на пересдачи, и с этим преподователем ничего не сделаешь. сколько бы ты не учил, а там реально много, ты не сдашь. я лучше бы еще раз сдал ЕГЭ, чем 9ый раз ходил на пересдачу к этой дуре. и помни! в вузе зачеты и 4 экзамена минимум, по всем предметам, которые были у тебя в этом семестре! так, что сейчас, спокойно готовься, надо быть идиотом, что бы не сдать ОГЭ или ЕГЭ, готовься и наслаждайся жизнью!)))))
В данном комментарии содержится 4 восклицания, 20 глаголов, 30 существительных, 8 прилагательных и 6 наречий.
Боже, год назад попались эти сраные шины! Я набрал 2 бала по геометрии! Всего я сделал 11 балов а вместе 14 без 2 части и первых 5 заданий (ну кроме 1)
В данном комментарии — 2 восклицания, 3 глагола, 8 существительных, 2 прилагательных, 2 наречия.
Во втором видео обнаружены связи восклицаний и вопросов с длиной слова в комментарии, 0,152 и 0,161 при p < 0,001 соответственно. Также обнаружены связи восклицаний с количеством слов, глаголов и прилагательных 0,145, 0,149 и 0,166 при p < 0,001, соответственно.
В третьем видео восклицания связаны с длиной комментария, количеством прилагательных и наречий, 0,110 при p < 0,01, 0,144 и 0,251 при p < 0,001.
При выгрузке посредством MAXQDA оценки были разделены на комментарии верхнего уровня и ответы на них. Как «верхний уровень» определяются первые комментарии, оставляемые под видео пользователями. Количество ответов и лайков к комментарию указывают на степень его популярности.
Рассмотрим частотное распределение комментариев разного уровня по типам их тональности (рис. 6). Частотный анализ тональности комментариев в ответах и верхнем уровне показал, что доля нейтральных преобладает: 26 и 32 % соответственно.

Если не принимать во внимание нейтральные оценки, то можно заметить, что в комментариях верхнего уровня доля позитивных (16,2 %) выше, чем доля негативных (11,3 %). В комментариях по типу «ответы», наоборот, доля негативных (10,1 %) выше, чем позитивных (4,4 %). Последнее, вероятно, связано с общением пользователей между собой, в том числе с хейтом.
Исследуем далее отличия позитивных и негативных комментариев с помощью критерия Манна-Уитни3. От нейтральных комментариев было решено отказаться, так как они сочетают в себе особенности двух других групп тональности и не имеют статистически значимых отличий в разрезе трех рассматриваемых видео.
У позитивных и негативных комментариев не обнаружены значимые различия по параметрам «ответы», «количество дней публикации».
При этом позитивные и негативные комментарии значимо отличаются — по количеству слов, их средней длине, используемым частям речи, восклицаниям и вопросам в их содержании (p < 0,001, критерий Манна-Уитни). Позитивные комментарии чаще других получают лайки, при этом они более короткие по длине (количество слов и символов), в них меньше глаголов и существительных, но больше наречий, а также восклицательных конструкций, слова в среднем более длинные. В негативных комментариях, наоборот, выше средние значения количества слов, в том числе глаголов, существительных, а также вопросительных конструкций.
Рассмотрим корреляции между разными параметрами внутри двух наборов комментариев — позитивного и негативного. Используем коэффициент Спирмена, так как данные не имеют нормального распределения (табл. 2).
Помимо очевидной связи между количеством ответов и количеством лайков, обнаружены связи количества ответов к комментарию с количеством слов и частями речи: глаголом и существительным. На позитивные комментарии с бóльшим содержанием существительных и глаголов пользователи чаще дают ответы.
Таблица 2. Матрица корреляций в выборке комментариев с позитивной тональностью
| Характеристики | Кол. дней | Ответы | Лайки | Длина слова | Воскли- цания | Вопросы |
| –0,044 | 0,744** | – | – | 0,005 | –0,013 | |
| Слова | 0,034 | 0,139** | 0,025 | –0,032 | 0,189** | 0,187** |
| Символы | 0,027 | 0,125* | 0,022 | 0,253** | 0,205** | 0,177** |
| Глаголы | –0,015 | 0,122* | 0,031 | –0,026 | 0,184** | 0,108* |
| Существительные | –0,015 | 0,130* | 0,035 | –0,018 | 0,172** | 0,144** |
| Прилагательные | 0,002 | 0,081 | 0,013 | –0,025 | 0,181** | 0,112* |
| Наречия | 0,089 | 0,088 | –0,003 | –0,028 | 0,239** | 0,122* |
Примечание: * p < 0,01; ** p < 0,001.
Не обнаружены статистически значимые связи между выделенными характеристиками в контенте негативных комментариев, за исключением мультиколлинеарных — лайков и ответов (табл. 3). Восклицательные негативные комментарии чаще содержат прилагательные и наречия.
Таблица 3. Матрица корреляций характеристик комментариев с негативной тональностью
| Характеристики | Кол. дней | Ответы | Лайки | Средняя длина слова | Воскли-цания | Вопросы |
| Лайки | 0,039 | 0,916** | – | – | –0,004 | –0,021 |
| Средняя длина слова | 0,014 | –0,005 | –0,017 | – | 0,061 | 0,017 |
| Слова | –0,019 | 0,030 | 0,005 | 0,017 | 0,096 | 0,060 |
| Символы | –0,055 | 0,023 | 0,003 | 0,14 | 0,091 | 0,061 |
| Глаголы | –0,013 | 0,046 | 0,017 | –0,009 | 0,096 | 0,062 |
| Существительные | –0,049 | 0,036 | 0,012 | 0,038 | 0,095 | 0,045 |
| Прилагательные | –0,087 | –0,003 | –0,008 | 0,095 | 0,116* | 0,036 |
| Наречия | –0,079 | 0,042 | –0,007 | 0,041 | 0,107* | 0,078 |
Примечание: *p < 0,01; **p < 0,001.
Результаты нашего исследования перекликаются с исследованием К. Светлова и К. Платонова «Анализ тональности постов и комментариев в аккаунтах российских политиков в социальных сетях». Исследователи говорят о том, что посты, классифицированные как позитивные, имеют большее количество просмотров и лайков от пользователей, в то время как посты, классифицированные как негативные, имеют большее количество репостов и комментариев [Svetlov, Platonov 2019]. Только в нашем случае все обнаруженное относится к самим комментариям, которые мы делим на комментарии верхнего уровня и ответы пользователей.
Выводы
Сравнение комментариев с позитивной и негативной тональностью позволило выделить ряд морфологических (использование разных частей речи) и синтаксических (использование восклицательных и вопросительных конструкций) особенностей. Позитивные комментарии встречаются чаще в верхнем уровне. Предполагаем, что в этом типе комментариев пользователь адресует сообщение блогеру или всей аудитории пользователей, часто это сообщение имеет форму благодарности. Комментарии позитивной тональности чаще отмечаются лайками других пользователей, и они чаще содержат восклицания и наречия. В позитивных комментариях количество глаголов и существительных имеет связь с количеством ответов к этим комментариям, а количество восклицаний и вопросов связано с длиной комментария и количеством частей речи в нем.
Негативные комментарии чаще встречаются в ответах к комментариям верхнего уровня. Комментарии с негативной тональностью более объемные по количеству слов, содержат больше глаголов, существительных и вопросов. Количество наречий и прилагательных в комментариях с негативной тональностью связано с количеством восклицаний в нем.
Позитивные и негативные комментарии не имели статистически значимых различий в количестве ответов к ним.
Прагматическая значимость результатов заключается в том, что выявленные закономерности могут быть использованы для улучшения автоматических систем модерации и анализа пользовательских откликов. Например, на основе морфологических и синтаксических характеристик можно разрабатывать модели, способные точнее определять тональность комментариев даже при наличии неоднозначных или нестандартных формулировок. Это также может быть полезно в образовательной аналитике — для анализа обратной связи к учебным видеокурсам и выявления потенциальных точек напряжения или зон положительного отклика.
Исследование тональности комментариев сопряжено с определенными методологическими ограничениями. Во-первых, алгоритмы обработки естественного языка могут неправильно интерпретировать сарказм, иронию или контекстные значения, что снижает точность анализа. Во-вторых, комментарии часто содержат неформальный язык, жаргон или сокращения, которые могут быть некорректно распознаны и классифицированы. Третье ограничение связано с языковой и культурной спецификой — алгоритмы, разработанные для одного языка или региона, могут неадекватно анализировать комментарии в других контекстах. Кроме того, тональность может варьироваться в зависимости от платформы и темы обсуждения, что требует адаптации методов анализа под конкретные условия.
В дальнейшем планируется дополнить изучение тональности видеоблогов, посвященных сдаче школьных экзаменов, другими образовательными кейсами и сравнить комментарии к разным типам образовательных видеоблогов, а также исследовать сложность текстов комментариев.
Дахалаева, Е. Ч. (2014). Интернет-комментарий и интернет-отзыв: параметры жанрового разграничения. Современные проблемы науки и образования. Электронный ресурс https://science-education.ru/ru/article/view?id=16222.
Двойникова, А. А., Карпов, А. А. (2020). Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных. Информационно-управляющие системы, 4, 20–30.
Карпоян, С. М. (2015). Функции комментария на различных коммуникативных платформах социальных сетей. Гуманитарные, социально-экономические и общественные науки, 1 (11–2), 242–245.
Касперова, Л. Т. (2018). Стилистические и жанровые особенности интернет–комментариев. Русская речь, 1, 63–68.
Комарова, Е. В. (2023). Проблема цифрового этикета в русских и английских медиатекстах: на материале миграционного дискурса. Медиалингвистика, 10 (2), 253–264.
Медведева, Е. В. (2021). Специфика аудитории видеоблога и ее влияние на процесс ретиальной коммуникации. Медиалингвистика, 8 (3), 261–272. https://doi.org/10.21638/spbu22.2021.305
Митягина, В. А. (2012). Интернет-комментарий как коммуникативное действие. Жанры и типы текста в научном и медийном дискурсе, 10, 188–197.
Топчий, И. В. (2019). Эмоциональный фон комментария как результат различных способов его оценки. Знак: проблемное поле медиаобразования, 3 (33), 175–181.
Anderson, T., Sarkar, S., Kelley, R. (2024). Analyzing public sentiment on sustainability: A comprehensive review and application of sentiment analysis techniques. Natural Language Processing Journal, 8. Электронный ресурсhttps://www.researchgate.net/publication/383031293_Analyzing_public_sentiment_on_sustainability_A_comprehensive_review_and_application_of_sentiment_analysis_techniques.
Baylis, P., Obradovich, N., Kryvasheyeu, Y., Chen, H., Coviello, L., Moro, E., et al. (2018) Weather impacts expressed sentiment. PLoS ONE, 13 (4). Электронный ресурс https://www.researchgate.net/publication/319463816_Weather_impacts_expressed_sentiment.
Behdenna, S., Barigou, F., Belalem, G. (2016). Sentiment analysis at document level. In U. Aynur, N. Malaya (Eds), Smart Trends in Information Technology and Computer Communications: First International Conference, SmartCom 2016, (6–7 august 2016, Jaipur, India) (pp. 159–168). Singapore: Springer.
Bose, R., Dey, R. K., Roy, S., Sarddar, D. (2020). Sentiment analysis on online product reviews. In M. Tuba, S. Akashe, A. Joshi (Eds), Information and Communication Technology for Sustainable Development. Advances in Intelligent Systems and Computing. Vol. 933 (pp. 559–569). Singapore: Springer.
Golder, S. A., Macy, M. W. (2011). Diurnal and seasonal mood vary with work, sleep, and daylength across diverse cultures. Science, 333 (6051), 1878–1881.
Li, M., Shi, Y. (2023). Sentiment analysis and prediction model based on Chinese government affairs microblogs. Heliyon, 9 (8). Электронный ресурс https://clck.ru/3NXJoM.
Sankar, H., Subramaniyaswamy, V. (2017). Investigating sentiment analysis using machine learning approach. International conference on intelligent sustainable systems (ICISS) (7–8 december 2017, Palladam, India) (pp. 87–92). Palladam: IEEE. https://doi.org/10.1109/ISS1.2017.8389293
Smetanin, S. (2020). The applications of sentiment analysis for Russian language texts: Current challenges and future perspectives. IEEE Access, 8, 110693–110719.
Svetlov, K., Platonov, K. (2019). Sentiment analysis of posts and comments in the accounts of Russian politicians on the social network. In V. Niemi, T. Tyutina (Eds), 25th Conference of Open Innovations Association (FRUCT) (5–8 november 2019, University of Helsinki, Helsinki, Finland) (pp. 99–305). Helsinki: IEEE. https://doi.org/10.23919/FRUCT48121.2019.8981501
Wei, Z., Zhang, S. (2024). A structured sentiment analysis dataset based on public comments from various domains. Data in Brief, 53. Электронный ресурсhttps://www.sciencedirect.com/science/article/pii/S2352340924002038?via%3Dihub.
Anderson, T., Sarkar, S., Kelley, R. (2024). Analyzing public sentiment on sustainability: A comprehensive review and application of sentiment analysis techniques. Natural Language Processing Journal, 8. Retrieved from https://www.researchgate.net/publication/383031293_Analyzing_public_sentiment_on_sustainability_A_comprehensive_review_and_application_of_sentiment_analysis_techniques
Baylis, P., Obradovich, N., Kryvasheyeu, Y., Chen, H., Coviello, L., Moro, E., et al. (2018). Weather impacts expressed sentiment. PLoS ONE, 13 (4). Retrieved from https://www.researchgate.net/publication/319463816_Weather_impacts_expressed_sentiment.
Behdenna, S., Barigou, F., Belalem, G. (2016). Sentiment analysis at document level. In U. Aynur, N. Malaya (Eds.), Smart Trends in Information Technology and Computer Communications: First International Conference, SmartCom 2016, (6–7 august 2016, Jaipur, India) (pp. 159–168). Singapore: Springer.
Bose, R., Dey, R. K., Roy, S., Sarddar, D. (2020). Sentiment analysis on online product reviews. In M. Tuba, S. Akashe, A. Joshi (Eds), Information and Communication Technology for Sustainable Development. Advances in Intelligent Systems and Computing. Vol. 933 (pp. 559–569). Singapore: Springer.
Dahalaeva, E. Ch. (2014). Online commentary and online review: parameters of genre distinction. Sovremennye problemy nauki i obrazovaniia, 6. Retrieved from https://science-education.ru/ru/article/ view?id=16222. (In Russian)
Dvojnikova, A. A., Karpov, A. A. (2020) Analytical review of approaches to sentiment recognition of Russian-language text data. Informatsionno-upravliaiushhie sistemy, 4, 20–30. (In Russian)
Golder, S. A., Macy, M. W. (2011). Diurnal and seasonal mood vary with work, sleep, and daylength across diverse cultures. Science, 333 (6051), 1878–1881.
Karpojan, S. M. (2015). Functions of commentary on various communication platforms of social networks. Gumanitarnye, social’no-jekonomicheskie i obshhestvennye nauki, 1 (11–2), 242–245. (In Russian)
Kasperova, L. T. (2018). Stylistic and genre features of online comments. Russkaia rech’, 1, 63–68. (In Russian)
Komarova, E. V. (2023). The Problem of Digital Etiquette in Russian and English Media Texts: Based on Migration Discourse Medialingvistika, 10 (2), 253–264. (In Russian)
Li, M., Shi, Y. (2023). Sentiment analysis and prediction model based on Chinese government affairs microblogs. Heliyon, 9 (8). Retrieved from https://clck.ru/3NXKLR.
Medvedeva, E. V. (2021). Specifics of the video blog audience and its influence on the process of retial communication. Medialingvistika, 8 (3), 261–272. (In Russian)
Mitjagina, V. A. (2012). Internet commentary as a communicative action. Zhanry i tipy teksta v nauchnom i medijnom diskurse, 10, 188–197. (In Russian)
Sankar, H., Subramaniyaswamy, V. (2017). Investigating sentiment analysis using machine learning approach. In International conference on intelligent sustainable systems (ICISS) (7–8 december 2017, Palladam, India) (pp. 87–92). Palladam: IEEE. https://doi.org/10.1109/ISS1.2017.8389293
Smetanin, S. (2020). The applications of sentiment analysis for Russian language texts: Current challenges and future perspectives. IEEE Access, 8, 110693–110719.
Svetlov, K., Platonov, K. (2019). Sentiment analysis of posts and comments in the accounts of Russian politicians on the social network. In V. Niemi, T. Tyutina (Eds), 25th Conference of Open Innovations Association (FRUCT) (5–8 november 2019, University of Helsinki, Helsinki, Finland) (pp. 99–305). Helsinki: IEEE. https://doi.org/10.23919/FRUCT48121.2019.8981501
Topchij, I. V. (2019). The emotional background of a commentary as a result of various methods of its evaluation. Znak: problemnoe pole mediaobrazovaniia, 3 (33), 175–181. (In Russian)
Wei, Z., Zhang, S. (2024). A structured sentiment analysis dataset based on public comments from various domains. Data in Brief, 53. Retrieved from https://www.sciencedirect.com/science/article/pii/S2352340924002038?via%3Dihub.
Статья поступила в редакцию 20 октября 2024 г.;
рекомендована к печати 15 мая 2025 г.
© Санкт-Петербургский государственный университет, 2025
Received: October 20, 2024
Accepted: May 15, 2025
