sentiment analysis
-
Хабрахабр
Сравнительный анализ тональности комментариев в YouTube (осторожно, ненормативная лексика)
Привет! Чем еще заняться на каникулах любителю Data Scienсe как не анализом тональности комментариев под новогодними обращениями?! На эту мысль меня натолкнули алгоритмы YouTube, выдавшие к просмотру первого января 2022 года два видео, с очень разными по эмоциональной окраске комментариями. Тогда я подумал, что пошаговый разбор решения задачи классификации этих комментариев по их тональности мог бы стать довольно наглядным примером…
Читать далее » -
Хабрахабр
Алгоритм для рейтинга комментариев, поощряющий хорошие аргументы
Сайты вроде Хабра, Пикабу, Реддита, и Hacker News имеют древовидные системы комментариев к постам. Зарегистрированные пользователи могут голосовать за комментарии. Сайты используют рейтинги комментариев двумя способами: Управляют вниманием читателей комментариев. "Лучшие" комментарии отображаются сразу под постом, "худшие" - в подвале. Хабр почти не управляет вниманием читателей: он лишь блюрит "плохие" комментарии, но не переупорядочивает их. Впрочем, я (как наверное и…
Читать далее » -
Хабрахабр
[Перевод] Ваш первый BERT: иллюстрированное руководство
Прогресс в области машинного обучения для обработки естественного языка существенно ускорился за последние несколько лет. Модели покинули исследовательские лаборатории и стали основой ведущих цифровых продуктов. Хорошей иллюстрацией этому служит недавнее заявление о том, что основным компонентом, стоящим за поиском Google, стала модель BERT. Google верит, что этот шаг (т.е. внедрение передовой модели понимания естественного языка в поисковую систему) представляет собой…
Читать далее » -
Хабрахабр
Data-mining и Твиттер
Среди социальных сетей Твиттер более других подходит для добычи текстовых данных в силу жесткого ограничения на длину сообщения, в которое пользователи вынуждены поместить все самое существенное. Предлагаю угадать, какую технологию обрамляет это облако слов? Статья о том, как это осуществить с помощью языка программирования R. Используя Твиттер API можно извлекать и анализировать самую разнообразную информацию. Написание кода занимает не так…
Читать далее »