Главная » Архив меток: Открытые данные

Архив меток: Открытые данные

Говорит и показывает: отличается ли риторика популярных украинских политиков?

Можно ли по цитате определить, кто из политиков ее автор? Украинская НКО Vox Ukraine делает проект VoxCheck, в рамках которого проверяет высказывания наиболее рейтинговых политиков. Недавно они выложили всю базу проверенных цитат. Я как раз слушаю курсы по NLP и решила проверить, насколько точно по тексту цитаты можно определить ее автора. Эта статья написана из интереса к теме и желания ...

Читать далее »

Сколько лет вашему сеньору?

Конечно, отдельные гении могут писать идеальные программы ещё в школе, но на то они и гении — единицы из миллионов. Не знаю как вам, а мне кажется диким когда люди с парой лет опыта величают себя «сеньор девелопер». Не просто много, а достаточно чтобы оказывать влияние на рынок. Однако в последнее время этих самых гениев что-то стало многовато. Легко можно ...

Читать далее »

Эксперимент: собираем справочник подразделений УФМС, выдающих паспорт

Вбивать в форму какое-нибудь «Отделом внутренних дел Медведевского района республики Марий Эл» муторно. Самое утомительное поле при вводе паспорта — «Кем выдан». Люди злятся, сокращают название как придется, ошибаются. Было бы здо́рово подсказывать варианты по коду подразделения.Давно мечтали о подсказках по подразделениям, выдавшим паспорт Хорошего справочника нет (но есть плохой) У нас уже есть подсказки: по адресам, компаниям, банкам, ФИО, емейлам. То есть движок готов, нужны только данные. Наверняка он существует ...

Читать далее »

[Из песочницы] Карта ДТП

Карта упрощает анализ ДТП и помогает найти реальные причины происшествий. Расскажу вам о проекте “Карта ДТП” – интерактивной карте аварий в России. Как пришла идея, где брали данные и зачем открыли исходный код. За 2018 год в ДТП на дорогах России погибли 19088 человек Цифра с каждым годом уменьшается, но все равно остается гораздо большей, чем в развитых странах, где ...

Читать далее »

Данные бывают смешными (и вот примеры)

Весь год писали о сложных и полезных штуках, но пора и честь знать. Мы в HFLabs перелопачиваем колоссальное количество данных: адреса, ФИО, реквизиты компаний, документы. Перед праздниками — подборка смешных данных, что нам принес 2018-й. «Черноморское отделение Арбатовской конторы по заготовке рогов и копыт» ЕГРЮЛ — это российский государственный реестр юрлиц, в него включают все ЮЛ страны. Если хорошенько помайнить, внутри найдешь вагон забавных (а порой и необъяснимых) названий. Пожалуйста — сладости, очень хороший батон ...

Читать далее »

Новогодний датасет 2018: открытая семантика русского языка

Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом. Что мы делаем Возьмём две группы слов: бег, съёмка, черчение, поход, ходьба; бегун, фотограф, инженер, турист, атлет. Для человека ...

Читать далее »

Хватит кормить издателей. ЕС разрабатывает правила обязательного бесплатного доступа к научным работам

Ежегодный объем рынка платного доступа к научным публикациям оценивается в 25 млрд долларов С одной стороны утверждается, что ограничение доступа к научному знанию — непозволительно в условиях всеобщей свободной циркуляции информации. Политика современных научных изданий по закрытию доступа к научным публикациям пейволлом давно является причиной споров в обществе. Доходит до абсурда: частные научные издания получают прибыль от публикации исследований, которые ...

Читать далее »

Совершеннолетняя журналистика: от России до Кремля

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Заодно, если ...

Читать далее »

[Перевод] 6 типовых сюжетов мировой литературы

Исследователи изучили тексты более 1700 романов и обнаружили, что все их можно отнести к 6 сюжетным типам. В своей лекции 1995 года американский романист Курт Воннегут рисовал на доске различные сюжетные линии, по ходу повествования иллюстрируя изменение положения главного героя по шкале «хорошо-плохо». Среди сюжетов были «загнанный в угол человек», в рамках которого главный герой попадает в беду и в ...

Читать далее »

GeoPuzzle — собери мир по кусочкам

Называется он GeoPuzzle и представляет собой игру-паззл на политической карте мира. Хочу рассказать о проекте, который развивал последние пару лет. Идея подсмотрена в статье «Головоломка Mercator для знатоков географии», также в детстве играл в тетрис из стран (ещё под DOS), но название программы уже не припомню. Цель — расставить кусочки-страны на свои места. За развитием проекта можно наблюдать на GitHub. ...

Читать далее »