ГРНТИ 20.15.05
МЕТОДИКА ОЦЕНКИ ТОНАЛЬНОСТИ МАТЕРИАЛОВ
Насруллаева Айкерім Бахитжанқызы
Магистр, Астана Халықаралық университеті, Нұр-Сұлтан, Қазақстан
Аннотация : Обширное распространение Интернета, который содержит особые ресурсы для публикации мнений привело к появлению в 2000-х гг. новой области исследовательских работ в компьютерной лингвистике, которое получила название анализ тональности.
Ключевые слова : Тональность, выражение чувств, нейтрал, позитив, негатив.
В рамках информационно-аналитического обеспечения вопросов проведения государственной информационной политики, оценка тональности производится с точки зрения возможного влияния публикации на имидж государства. Оценка осуществляется в контексте определенного события или явления.
Тональность оценивается по стандартной шкале «негативная – нейтральная – позитивная».
При оценке тональности во внимание принимается следующее:
- Информационный повод (события, заявления известных личностей, публикация результатов исследований);
- Заголовок, текст публикации / речь диктора;
- Оформление (иллюстрации, выноски).
Рисунок 1. Модуль анализа тональности
Материалы позитивного характера:
В материалах позитивного характера преимущественно преобладает информация о положительных результатах работы государства, оперативное решение государством критических вопросов республиканского и регионального масштабов.
Вместе с тем материал приобретает положительный характер, если государственную точку зрения поддерживает авторитетные отечественные и зарубежные эксперты.
Кроме того, сообщения об успешной реализации поручений Президента, социально-экономическом развитии за счет реализации государственных программ и улучшении качества жизни населения в целом оцениваются в положительном ключе.
Материалы нейтрального характера:
К материалам нейтральной тональности, прежде всего относятся сообщения информационного характера (официальные мероприятия: встречи, брифинги, отчеты ведомств, коллегии).
В основном в нейтральных материалах содержатся: разъяснения по отдельным нормам законов, кодексов, планов, гос.программ; статистические данные об итогах работ ведомств.
Если представленные экспертные мнения сбалансированы или не отличаются резкостью, тональность будет определена, как нейтральная.
Материалы негативного характера:
В материалах негативного характера присутствует критика некомпетентности государства в решении некоторых задач (обвинение государства в допущении к госаппарату непрофессионалов, не эффективная реализация программ).
Если заголовок статьи носит провокационный характер и выражает критику по отношению к государству, то материал оценивается в негативную сторону. Это может быть вольная интерпретация действия государства, негативный прогноз и т.д.
К примеру, если деятельность государства в глазах общества выглядит не достойным доверия, что в итоге привело к протестным акциям (митинги, сборы подписей, открытые письма), то тональность материала — негативная.
Кроме того, если материал содержит в себе публикации рейтингов, представляющих Казахстан в невыгодном свете, либо оценка ситуации представлена критически настроенными лицами, в таком случае он оценивается негативно.
Если в материале используются иллюстрации – коллажи, фотографии, диаграммы, карикатуры в ироничной или негативной форме отражающие деятельность государства, то они дают основание для оценки тональности материала как негативную.
Датасет |
Описание |
Аннотирование |
Классы |
RuReviews |
Набор с примерами настроений из обзоров товаров категории «Женская одежда и аксессуары» в крупном российском интернет-магазине. |
Автоматическое |
3 |
RuSentiment |
Открытый набор с примерами настроений из публикаций в соцсети ВКонтакте. |
Ручное |
5 |
Russian Hotel Reviews Dataset |
Аспектный набор с примерами настроений из 50 329 русскоязычных обзоров отелей. |
Автоматическое |
5 |
RuSentRel |
Набор с аналитическими статьями с сайта ИноСМИ, в которых представлено авторское мнение об освещаемой теме и многочисленные ссылки, упоминаемые участниками описанных ситуаций. |
Ручное |
2 |
LINIS Crowd |
Открытый набор с примерами настроений, собранный из социальных и политических статей на сайтах различных СМИ. |
Ручное |
5 |
Twitter Sentiment for 15 European Languages |
Набор с примерами настроений, содержащий больше 1,6 млн Twitter-сообщений (их ID) на 15 языках, в том числе русском. |
Ручное |
3 |
SemEval-2016 Task 5: Russian |
Открытый аспектный набор с примерами настроений, содержащий тексты, относящиеся к ресторанному бизнесу. Основан на SentiRuEval-2015. |
Ручное |
3 |
SentiRuEval-2016 |
Открытый аспектный набор с примерами настроений, содержащий результаты анализа тональности русскоязычных Twitter-сообщений о телекоммуникационных компаниях и банках. |
Ручное |
3 |
SentiRuEval-2015 |
Открытый аспектный набор с примерами настроений, содержащий результаты анализа пользовательских обзоров ресторанов и автомобилей. |
Ручное |
4 |
RuTweetCorp |
Крупнейший, автоматически аннотируемый, открытый корпус текстов с небольшим ручным фильтрованием. Собран автоматически из русскоязычного Twitter с помощью стратегии. |
Автоматическое |
3 |
Kaggle Russian News Dataset |
Открытый набор с примерами настроений из российских новостей. |
Не указано |
3 |
Kaggle Sentiment Analysis Dataset |
Набор с примерами настроений из российских новостей. |
Не указано |
3 |
Kaggle IS161AIDAY |
Набор с примерами настроений, опубликованный Alem Research. |
Не указано |
3 |
Kaggle Russian_twitter_sentiment |
Набор с примерами настроений из русскоязычных Twitter-сообщений. |
Не указано |
2 |
Таблица 1. Русскоязычные датасеты для анализа тональности
Трудность изучения тональности определяется последующими основаниями:
- выражение чувств очень зависит от контекста и предметной области;
- в одном и том же фрагменте текста может идти речь о нескольких объектах, так что трудно найти, по отношению к какому из объектов выражено мнение;
- не постоянно чувственно окрашенные слова выражают подобающую тональность всего текста;
- наличие драматичности и сарказма, которые могут инвертировать тональность;
Заключение
Техсредства изменяют структуру текста, могут приводить к искажению его начального значения. Так, который был отобран для изучения текстовый фрагмент, помещенный в ПО, претерпевает значительные изменения. Автор повествования сменяется создателем обработки и изучения. В поле исследователя остаются в большей степени образованные коды, к которым обращены части текста.
Список литературы
1 Блинов П.Д. Метод, алгоритмы и программная система аспектно- эмоционального анализа текстов : дис. … канд. тех. наук : 05.12.17; МГУП им. Ивана Федорова. – М.: МГУП, 2016.-141с.
2 Иванов, В.В. Извлечение аспектов, тональности и категорий аспектов на основании
отзывов пользователей о ресторанах и автомобилях / Иванов В. В., Тутубалина Е. В.,
Мингазов Н. Р., Алимова И. C. // Компьютерная лингвистика и интеллектуальные
технологии: по материалам ежегодной Международной конференции «Диалог» . —
Москва: РГГУ, 2015. — С. 46-56.
3 Оценка методов автоматического анализа текста: синтаксические парсеры русского
языка [Электронный ресурс] // Оценка методов автоматического анализа
текстов. Режим доступа: http://ru-eval.ru/new/syntax/about, свободный.
4 Скатов, Д.С. Синтаксический анализатор естественного языка DictaScope Syntax /
Д.С. Скатов, В.В. Окатьев, Т.Е. Ратанова // Компьютерная лингвистика и
интеллектуальные технологии: по материалам ежегодной Международной
конференции «Диалог». — М: РГГУ, 2012. – С. 140-148.
5 Сметанин, С.И. Программа для анализа тональности сообщений в социальных сетях
/ Сметанин С.И. // Сборник тезисов XXII Международной научной конференции
студентов, аспирантов и молодых ученых «Ломоносов-2016» секция
«Вычислительна математика и кибернтекика». — М: МАКС Пресс, апрель 2016. – С.
86-87.