Главная » Хабрахабр » [Перевод] Базы данных Microsoft Research теперь доступны для всех

[Перевод] Базы данных Microsoft Research теперь доступны для всех

Мы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом!

Все это время мы повсеместно наблюдали актуальность четвертой парадигмы научных открытий, предложенной Джимом Греем, которая основана на изучении больших объемов данных и предполагает использование практически во всех научно-исследовательских программах компонентов данных каждой из них. Последние несколько лет команда Microsoft Research Outreach активно сотрудничала с научным сообществом, помогая исследователям в проведении научно-исследовательских работ на базе облачной инфраструктуры. Мы четко видели, что для обработки столь безбрежного потока информации нужны курируемые и анализируемые наборы данных в масштабе научно-исследовательского сообщества, причем нецелесообразно ограничиваться только областью вычислительных систем — нужно охватывать междисциплинарные и предметные науки.

Единый облачный репозиторий Microsoft Research Open Data обеспечивает удобный доступ к наборам данных, полученных в результате многолетних трудов Microsoft по курированию и изучению информации из опубликованных научных работ. Сегодня мы рады представить Microsoft Research Open Data — новый облачный репозиторий с открытыми данными, призванный облегчить взаимодействие исследователей по всему миру.

Почему мы инвестируем в этот проект

Цель проекта — предоставить в распоряжение исследователей и сотрудников Microsoft удобную платформу для совместного использования наборов данных, оснащенную необходимыми технологиями и инструментами. Репозиторий Microsoft Research Open Data призван упростить доступ к данным, способствовать взаимодействию исследователей, использующих облачные ресурсы, и обеспечивать воспроизводимость экспериментов. Мы будем продолжать работу по формированию и развитию нашего репозитория и дополнять его новыми функциями, руководствуясь отзывами сообщества.

Мы знаем, что исследователям сегодня доступны десятки репозиториев данных, и рассчитываем, что возможности Microsoft Research Open Data дополнят функциональность существующих хранилищ.

1.
Рис. Набор данных в открытом репозитории Microsoft Research Open Data

Инициативы, подобные Microsoft Research Open Data, позволяют снижать барьеры, препятствующие совместному доступу к информации, и поддерживать воспроизводимость экспериментов благодаря использованию облачных платформ»,
— отмечает Сэм Мэдден (Sam Madden), профессор Массачусетского технологического института. «Настал переломный момент в мире больших данных.

В условиях экспоненциального роста данных ожидается, что к 2025 году их объем составит 150 ЗБ. Это значит, что сегодня мы должны уделять особое внимание вопросам обработки данных, а не проблемам их передачи по интернет-каналам, которые развиваются гораздо медленнее. Мы верим, что возможность обработки данных принесет реальную пользу. Поэтому пользователи могут не только скачивать наборы данных, но и копировать их напрямую на виртуальную машину Data Science на базе Azure (см. рис. 2).

2.
Рис. Данные скопированы из microsoftopendata.com на виртуальную машину Linux в облаке Azure

рис. На виртуальной машине Data Science предустановлены популярные у исследователей и специалистов-практиков инструменты разработки (см. 3).

3.
Рис. Виртуальная машина Data Science на Linux

Это был самый популярный способ. «Меня часто просят поделиться экспериментальными данными, поэтому раньше я предоставлял общий доступ к ним. Они получат возможности легкого доступа, взаимодействия и удобного использования обширных открытых данных в облаке Microsoft Research»,
— комментирует Джон Крамм (John Krumm), главный исследователь Microsoft Research AI. Координация и каталогизация наборов данных в одном месте с помощью Azure будет полезна и внутренним, и внешним исследователям.

Наборы данных в Microsoft Research Open Data классифицируются по основной области исследований (см. рис. 4). С помощью наборов данных можно искать ссылки на исследовательские проекты и публикации. Доступные наборы данных можно просматривать, скачивать и копировать напрямую в подписку Azure с помощью автоматизированного рабочего процесса. Репозиторий отвечает самым высоким стандартам совместного использования информации и гарантирует доступность наборов данных, их совместимость и возможность многократного использования; информация личного характера в корпусе отсутствует. Сайт продолжит свою работу и будет помогать в сборе отзывов пользователей.

4.
Рис. Категории наборов данных

Это стало возможным благодаря тесному сотрудничеству многих подразделений и исследователей Microsoft, наших отраслевых партнеров, а также консультантов из образовательной сферы. Репозиторий Microsoft Research Open Data появился в результате реализации исследовательской программы Microsoft Research Outreach Data.

Отправьте нам сообщение с помощью формы обратной связи на сайте и поделитесь своими мыслями. Будем рады получить ваши комментарии и отзывы!


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Автомобиль на водороде. Пора ли прощаться с бензином?

К нашей прошлой статье о водородной энергетике вы написали очень интересные и справедливые комментарии, ответы на которые вы сможете найти в этом материале, посвященном использованию водорода в автомобилях. Привет, Хабр! Но при этом водород считается наиболее перспективным видом альтернативного топлива ...

Неконференция Web Summit

Потому что это мероприятие значительнее, масштабнее и проходит не только на заявленной площадке, а охватывает, или, скорее, захватывает весь город. Размышляя, на какую конференцию поехать в этом году, я остановил свой выбор на Web Summit, который, по сути, конференцией не ...