Главная » Архив меток: Открытые данные

Архив меток: Открытые данные

База данных штрихкодов скачать бесплатно без регистрации (и прочей хурмы)

Добрый день. В открытом доступе наконец-то появился огромный справочник штрихкодов с наименованиями товаров, категориями и брендами. Мы работаем над ним лет 8 и теперь в нем около 3 миллионов штрихкодов в стандартах EAN (EAN-13, EAN-8) и UPC (UPC-A, UPC-E). Что там? Там таблица, содержащая записи штрихкодов и соответствующие им наименования товаров, во всех записях есть категория и во многих — ...

Читать далее »

Как создать карту московских парковок с помощью Kepler.gl

Несколько месяцев назад вышла первая версия Kepler.gl — нового Open Source инструмента для визуализации и анализа больших наборов гео-данных. В этой статье я предлагаю вам познакомится с основными возможностями приложения и создать с его помощью две картографические визуализации, которые позволят нам узнать несколько интересных фактов о платных парковках Москвы. Но сперва несколько слов о том, кто и зачем создал Kepler.gl ...

Читать далее »

Игра для улучшения качества Википедии

Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков. В научном мире существуют различные подходы к автоматической оценке качества статей в этой свободной энциклопедии. ...

Читать далее »

Сборник демографических рассказов в одной карте

Решил рассказать об этом на Хабре, поскольку есть надежда, что реализованный способ визуализации данных может пригодиться еще кому-то. В свежем номере журнала The Lancet опубликована моя статья — любопытная карта и небольшое к ней пояснение. (2018). Kashnitsky, I., & Schöley, J. The Lancet, 392(10143), 209–210. Regional population structures at a glance. 1016/S0140-6736(18)31194-2 https://doi.org/10. Собственно, вот карта в высоком разрешении (кликабельно). ...

Читать далее »

[Перевод] Базы данных Microsoft Research теперь доступны для всех

Мы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом! Все это время мы повсеместно наблюдали актуальность четвертой парадигмы научных открытий, предложенной ...

Читать далее »

Боремся с ошибками и «костылями» в ЕГРЮЛ — госреестре юридических лиц

Тот материал рассказывает о базовых вещах, поэтому начать лучше с него. На прошлой неделе мы выпустили статью про устройство ЕГРЮЛ — госреестра с данными 10 миллионов компаний. Здесь же мы раскроем богатую и благодатную тему — проблемы ЕГРЮЛа, которые не дают нашим разработчикам заскучать. Периодически ломается структура xml В 2017 году раз в два-три месяца обновления приносили xml-ки в неправильном формате. Там полный набор: неизвестные теги, незакрытые теги, несоответствие типов данных. Например, в xsd указан ...

Читать далее »

Как устроен ЕГРЮЛ — единый госреестр юридических лиц

Управляет справочником ФНС. ЕГРЮЛ — это государственный реестр юридических лиц, в котором хранятся данные 10 миллионов российских компаний. В статье расскажем, как мы жили до справочника, как получаем к нему доступ и как с ним работаем. Из ЕГРЮЛ мы берем данные организаций для «Подсказок», «Единого клиента» и «Фактора». Жизнь до ЕГРЮЛ Еще пару лет назад ФНС скрывал ЕГРЮЛ в своих недрах, и данные о компаниях мы собирали где придется. Проблема в том, что свою базу «Мультистат» отдавал ...

Читать далее »

Понедельник начинается в субботу, или что можно узнать о жизни в другой стране из логов sci-hub

Хотите знать, как религия влияет на рабочий день, у кого самый длинный обеденный перерыв, и правда ли что Москва никогда не спит? Но это же Хабр, а не жёлтая газета, так что историю вам поведает самый объективный рассказчик из всех — данные пользовательской активности. Вам когда-нибудь доводилось найти пиратский настоящий клад? Такой что с первого взгляда становится понятно, что вы ...

Читать далее »

Нахождение числа комиссий, «рисовавших» целые значения явки на президентских выборах РФ 2018 года

Графики с необычными пиками мы теперь видим после каждых федеральных выборов. Впервые в массы они вышли после выборов в 2011 году, когда люди и увидели фальсификации, и ознакомились в целом с анализом данных по выборам и с проблемой целочисленного деления в частности. Это и «борода Чурова» для выборов 2011, и «пик Володина» для знаменитых 62. У распределений даже стали появляться ...

Читать далее »

[Из песочницы] Парсинг 0.5Tb xml за несколько часов. Поиск организаций по критериям в реестре субъектов МСП ФНС

По роду деятельности (автоматизация процессов и разработка архитектуры информационных систем) часто приходится сталкиваться с необходимостью написать скрипт и получить результат «здесь и сейчас» для неожиданно «прилетевшей» задачи в ситуации, когда нет возможности оперативно привлечь внешних разработчиков. В какой-то момент появилась необходимость проанализировать на основе открытых данных “Единого реестра субъектов малого и среднего предпринимательства” Федеральной налоговой службы (далее Реестр МСП) динамику ...

Читать далее »