Главная » Хабрахабр » [Перевод] Базы данных Microsoft Research теперь доступны для всех

[Перевод] Базы данных Microsoft Research теперь доступны для всех

Мы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом!

Все это время мы повсеместно наблюдали актуальность четвертой парадигмы научных открытий, предложенной Джимом Греем, которая основана на изучении больших объемов данных и предполагает использование практически во всех научно-исследовательских программах компонентов данных каждой из них. Последние несколько лет команда Microsoft Research Outreach активно сотрудничала с научным сообществом, помогая исследователям в проведении научно-исследовательских работ на базе облачной инфраструктуры. Мы четко видели, что для обработки столь безбрежного потока информации нужны курируемые и анализируемые наборы данных в масштабе научно-исследовательского сообщества, причем нецелесообразно ограничиваться только областью вычислительных систем — нужно охватывать междисциплинарные и предметные науки.

Единый облачный репозиторий Microsoft Research Open Data обеспечивает удобный доступ к наборам данных, полученных в результате многолетних трудов Microsoft по курированию и изучению информации из опубликованных научных работ. Сегодня мы рады представить Microsoft Research Open Data — новый облачный репозиторий с открытыми данными, призванный облегчить взаимодействие исследователей по всему миру.

Почему мы инвестируем в этот проект

Цель проекта — предоставить в распоряжение исследователей и сотрудников Microsoft удобную платформу для совместного использования наборов данных, оснащенную необходимыми технологиями и инструментами. Репозиторий Microsoft Research Open Data призван упростить доступ к данным, способствовать взаимодействию исследователей, использующих облачные ресурсы, и обеспечивать воспроизводимость экспериментов. Мы будем продолжать работу по формированию и развитию нашего репозитория и дополнять его новыми функциями, руководствуясь отзывами сообщества.

Мы знаем, что исследователям сегодня доступны десятки репозиториев данных, и рассчитываем, что возможности Microsoft Research Open Data дополнят функциональность существующих хранилищ.

1.
Рис. Набор данных в открытом репозитории Microsoft Research Open Data

Инициативы, подобные Microsoft Research Open Data, позволяют снижать барьеры, препятствующие совместному доступу к информации, и поддерживать воспроизводимость экспериментов благодаря использованию облачных платформ»,
— отмечает Сэм Мэдден (Sam Madden), профессор Массачусетского технологического института. «Настал переломный момент в мире больших данных.

В условиях экспоненциального роста данных ожидается, что к 2025 году их объем составит 150 ЗБ. Это значит, что сегодня мы должны уделять особое внимание вопросам обработки данных, а не проблемам их передачи по интернет-каналам, которые развиваются гораздо медленнее. Мы верим, что возможность обработки данных принесет реальную пользу. Поэтому пользователи могут не только скачивать наборы данных, но и копировать их напрямую на виртуальную машину Data Science на базе Azure (см. рис. 2).

2.
Рис. Данные скопированы из microsoftopendata.com на виртуальную машину Linux в облаке Azure

рис. На виртуальной машине Data Science предустановлены популярные у исследователей и специалистов-практиков инструменты разработки (см. 3).

3.
Рис. Виртуальная машина Data Science на Linux

Это был самый популярный способ. «Меня часто просят поделиться экспериментальными данными, поэтому раньше я предоставлял общий доступ к ним. Они получат возможности легкого доступа, взаимодействия и удобного использования обширных открытых данных в облаке Microsoft Research»,
— комментирует Джон Крамм (John Krumm), главный исследователь Microsoft Research AI. Координация и каталогизация наборов данных в одном месте с помощью Azure будет полезна и внутренним, и внешним исследователям.

Наборы данных в Microsoft Research Open Data классифицируются по основной области исследований (см. рис. 4). С помощью наборов данных можно искать ссылки на исследовательские проекты и публикации. Доступные наборы данных можно просматривать, скачивать и копировать напрямую в подписку Azure с помощью автоматизированного рабочего процесса. Репозиторий отвечает самым высоким стандартам совместного использования информации и гарантирует доступность наборов данных, их совместимость и возможность многократного использования; информация личного характера в корпусе отсутствует. Сайт продолжит свою работу и будет помогать в сборе отзывов пользователей.

4.
Рис. Категории наборов данных

Это стало возможным благодаря тесному сотрудничеству многих подразделений и исследователей Microsoft, наших отраслевых партнеров, а также консультантов из образовательной сферы. Репозиторий Microsoft Research Open Data появился в результате реализации исследовательской программы Microsoft Research Outreach Data.

Отправьте нам сообщение с помощью формы обратной связи на сайте и поделитесь своими мыслями. Будем рады получить ваши комментарии и отзывы!


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

«Империя на глубине»: зачем крупные ИТ-компании прокладывают свои подводные кабели

В середине июля подразделение Google, занимающееся облачными технологиями, объявило о начале работы над первым частным трансатлантическим подводным кабелем — Dunant. «Частный» в этом случае значит, что весь проект реализуется на средства Google. К 2020 году он соединит Вирджинию-Бич, штат Вирджиния, ...

[Перевод] Дети на заказ в ближайшее время? Совет по этике в Великобритании разрешил генную инженерию человеческих эмбрионов

Улучшенные дети могут стать реальными после того, как влиятельная группа учёных пришла к выводу, что «морально допустимо» генетически изменять человеческие эмбрионы. В новом докладе, который открывает дверь к изменению закона, Nuffield Council on Bioethics сказали, что редактирование ДНК может стать ...