sentiment analysis

  • ХабрахабрФото Сравнительный анализ тональности комментариев в YouTube (осторожно, ненормативная лексика)

    Сравнительный анализ тональности комментариев в YouTube (осторожно, ненормативная лексика)

    Привет! Чем еще заняться на каникулах любителю Data Scienсe как не анализом тональности комментариев под новогодними обращениями?! На эту мысль меня натолкнули алгоритмы YouTube, выдавшие к просмотру первого января 2022 года два видео, с очень разными по эмоциональной окраске комментариями. Тогда я подумал, что пошаговый разбор решения задачи классификации этих комментариев по их тональности мог бы стать довольно наглядным примером…

    Читать далее »
  • ХабрахабрФото Алгоритм для рейтинга комментариев, поощряющий хорошие аргументы

    Алгоритм для рейтинга комментариев, поощряющий хорошие аргументы

    Сайты вроде Хабра, Пикабу, Реддита, и Hacker News имеют древовидные системы комментариев к постам. Зарегистрированные пользователи могут голосовать за комментарии. Сайты используют рейтинги комментариев двумя способами: Управляют вниманием читателей комментариев. "Лучшие" комментарии отображаются сразу под постом, "худшие" - в подвале. Хабр почти не управляет вниманием читателей: он лишь блюрит "плохие" комментарии, но не переупорядочивает их. Впрочем, я (как наверное и…

    Читать далее »
  • ХабрахабрФото [Перевод] Ваш первый BERT: иллюстрированное руководство

    [Перевод] Ваш первый BERT: иллюстрированное руководство

    Прогресс в области машинного обучения для обработки естественного языка существенно ускорился за последние несколько лет. Модели покинули исследовательские лаборатории и стали основой ведущих цифровых продуктов. Хорошей иллюстрацией этому служит недавнее заявление о том, что основным компонентом, стоящим за поиском Google, стала модель BERT. Google верит, что этот шаг (т.е. внедрение передовой модели понимания естественного языка в поисковую систему) представляет собой…

    Читать далее »
  • ХабрахабрФото Data-mining и Твиттер

    Data-mining и Твиттер

    Среди социальных сетей Твиттер более других подходит для добычи текстовых данных в силу жесткого ограничения на длину сообщения, в которое пользователи вынуждены поместить все самое существенное. Предлагаю угадать, какую технологию обрамляет это облако слов? Статья о том, как это осуществить с помощью языка программирования R. Используя Твиттер API можно извлекать и анализировать самую разнообразную информацию. Написание кода занимает не так…

    Читать далее »


Кнопка «Наверх»