Главная » Hi-Tech » Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Проверка орфографии: какие слова пишут с ошибками на «Хабрахабре», Cossa, Rusbase, AIN, DOU, Roem и vc.ru

Решил пройтись по изданиям, которые периодически читаю, и проверить, как у них дела с орфографией. Ниже будет инструкция, с помощью которой можно проверить любой сайт на наличие орфографических ошибок, несколько графиков и файл со всеми собранными данными, списком ошибок и регулярным выражением, которым я пользовался.

Inb4: «сначала сам научись писать»

Русский язык я учил ровно до седьмого класса средней школы — 18 лет назад. Я регулярно делаю некоторые из ошибок, которые нашёл на сайтах из списка. Этот текст перед публикацией вычитывала моя коллега Настя, за что ей большое спаcибо.

Я знаю, что словосочетание «в течении» может быть правильным в зависимости от контекста, можете сами проверить контекст, перейдя по ссылкам из файла в конце материала. Я лично не нашёл таких случаев. То же относится к «мороженному», «рекламной компании» и так далее.

Примеры ошибок я собрал сам из источников, которые нагуглил за пять минут. Источники указаны в том же файле. Если что-то из моего списка не является ошибкой, my bad.

Как проводился анализ

1. Взял регулярное выражение: (?:[^a-zA-Zа-яА-Я0-9_]|^)(агенство|чтоли|net peak)(?:[^a-zA-Zа-яА-Я0-9_]|а-Я|$).

Работает для кириллицы и латиницы. Можно вписать любые слова и словосочетания, которые хотите найти на сайте.

2. Настроил парсер Netpeak Spider на поиск слов и словосочетаний из списка.

Этим же парсером я пользовался, анализируя изменения цен на цветы к 14 февраля и носки к 23 февраля.

Настройки парсинга

3. Просканировал каждый сайт и получил список страниц, на которых были найдены ошибки.

Результаты парсинга

Результаты

На каждом сайте сканирование было остановлено на отметке в 5000 страниц.

Ошибки, которые были найдены в комментариях, вынесены на отдельный график в конце.

Не стоит сравнивать внимательность редакторов, опираясь на этот анализ. Учитывайте, что 5000 страниц одного сайта могут на 30% состоять из служебных страниц, в то время как на другом сайте все 5000 будут гостевыми публикациями.

AIN

Cossa

DOU

«Хабрахабр»

Rusbase

Roem

vc.ru

Ошибки в комментариях

Можно выдохнуть, комментарии на vc.ru подгружаются с помощью JavaScript, так что до следующего обновления Netpeak Spider не получится их спарсить.

Некоторые люди допускают ошибки в некоторых словах. Шок! Сенсация! Как обещал, файл со всеми ошибками, страницами, на которых они были найдены, списком слов, источниками и готовым регулярным выражением для проверки сайта.


x

Ещё Hi-Tech Интересное!

Tesla 3 с белым салоном и одной коричневой дверью

Tesla 3 с белым салоном и одной коричневой дверью Покупатель из США купил Tesla 3 за далеко не маленькие $78 тысяч с белым салоном — и не сразу увидел, что задняя правая дверь коричневая... На фотографии видно, что обивка сидений ...

История изобретателя «Швабры на колесах» Дина Кеймена

Ранние годы изобретателя Его отец рисовал комиксы для американских журналов, мать работала учительницей в школе. Дин родился 5 апреля 1951 года в Лонг-Айленде, Нью-Йорк. Страсть к изобретательству проявилась у Дина с самого детства — он постоянно пытался улучшить и модифицировать ...