Главная » Архив меток: Открытые данные

Архив меток: Открытые данные

Хватит кормить издателей. ЕС разрабатывает правила обязательного бесплатного доступа к научным работам

Ежегодный объем рынка платного доступа к научным публикациям оценивается в 25 млрд долларов С одной стороны утверждается, что ограничение доступа к научному знанию — непозволительно в условиях всеобщей свободной циркуляции информации. Политика современных научных изданий по закрытию доступа к научным публикациям пейволлом давно является причиной споров в обществе. Доходит до абсурда: частные научные издания получают прибыль от публикации исследований, которые ...

Читать далее »

Совершеннолетняя журналистика: от России до Кремля

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Заодно, если ...

Читать далее »

[Перевод] 6 типовых сюжетов мировой литературы

Исследователи изучили тексты более 1700 романов и обнаружили, что все их можно отнести к 6 сюжетным типам. В своей лекции 1995 года американский романист Курт Воннегут рисовал на доске различные сюжетные линии, по ходу повествования иллюстрируя изменение положения главного героя по шкале «хорошо-плохо». Среди сюжетов были «загнанный в угол человек», в рамках которого главный герой попадает в беду и в ...

Читать далее »

GeoPuzzle — собери мир по кусочкам

Называется он GeoPuzzle и представляет собой игру-паззл на политической карте мира. Хочу рассказать о проекте, который развивал последние пару лет. Идея подсмотрена в статье «Головоломка Mercator для знатоков географии», также в детстве играл в тетрис из стран (ещё под DOS), но название программы уже не припомню. Цель — расставить кусочки-страны на свои места. За развитием проекта можно наблюдать на GitHub. ...

Читать далее »

Выявление содержательных профилей в VK

Ботов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой велоси... метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни. Если вам в друзья стучится кто-то, а вы с первого взгляда не можете понять это вообще нормальный человек или ...

Читать далее »

База данных штрихкодов скачать бесплатно без регистрации (и прочей хурмы)

Добрый день. В открытом доступе наконец-то появился огромный справочник штрихкодов с наименованиями товаров, категориями и брендами. Мы работаем над ним лет 8 и теперь в нем около 3 миллионов штрихкодов в стандартах EAN (EAN-13, EAN-8) и UPC (UPC-A, UPC-E). Что там? Там таблица, содержащая записи штрихкодов и соответствующие им наименования товаров, во всех записях есть категория и во многих — ...

Читать далее »

Как создать карту московских парковок с помощью Kepler.gl

Несколько месяцев назад вышла первая версия Kepler.gl — нового Open Source инструмента для визуализации и анализа больших наборов гео-данных. В этой статье я предлагаю вам познакомится с основными возможностями приложения и создать с его помощью две картографические визуализации, которые позволят нам узнать несколько интересных фактов о платных парковках Москвы. Но сперва несколько слов о том, кто и зачем создал Kepler.gl ...

Читать далее »

Игра для улучшения качества Википедии

Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков. В научном мире существуют различные подходы к автоматической оценке качества статей в этой свободной энциклопедии. ...

Читать далее »

Сборник демографических рассказов в одной карте

Решил рассказать об этом на Хабре, поскольку есть надежда, что реализованный способ визуализации данных может пригодиться еще кому-то. В свежем номере журнала The Lancet опубликована моя статья — любопытная карта и небольшое к ней пояснение. (2018). Kashnitsky, I., & Schöley, J. The Lancet, 392(10143), 209–210. Regional population structures at a glance. 1016/S0140-6736(18)31194-2 https://doi.org/10. Собственно, вот карта в высоком разрешении (кликабельно). ...

Читать далее »

[Перевод] Базы данных Microsoft Research теперь доступны для всех

Мы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом! Все это время мы повсеместно наблюдали актуальность четвертой парадигмы научных открытий, предложенной ...

Читать далее »