Хабрахабр

Toolbox для исследователей — выпуск второй: подборка из 15 тематических банков данных

Банки данных помогают делиться результатами экспериментов и измерений, играют важную роль в формировании академической среды и в процессе развития специалистов.

Расскажем как о датасетах, полученных с помощью дорогостоящего оборудования (источниками этих данных нередко являются крупные международные организации и научные программы, чаще всего связанные с естественными науками), так и о государственных банках данных.


Фото Jan Antonin Kolar — Unsplash

Его московский аналог — Data.mos.ru. Data.gov.ru — хорошо знакомый хабражителям государственный проект в сфере открытых данных. Из зарубежных вариантов стоит отметить Data.gov — площадку с открытыми данными от правительства США (единый каталог с фильтрами).

Данные берутся как из Росстата, так и из исследований, проведенных на базе МГУ. Университетская информационная система — проект МГУ, объединяющий базы со статистической информацией о социальном и экономическом положении в стране, а также публикации из государственных и научных источников. Ресурсом можно воспользоваться и без предварительной регистрации, но для полноценного доступа потребуется подать заявку.

Карпинского. Картографическая база Всероссийского геологического института им. Интерфейс площадки позволяет сопоставить OpenStreetMap или Я.Карты с рядом доп. Информация о природных ресурсах страны, собранная за время существования учреждения, была нанесена на цифровые карты. слоев с информацией о магнитном поле, полезных ископаемых и др.

Архив ресурса собирают силами 90 организаций по всему миру. GEOSS — портал для поиска данных наблюдения Земли со спутников и дронов различных типов. Чтобы найти интересующие сведения, достаточно выделить нужную область на карте или вбить в поиск ключевые слова.

Представленные данные собраны орбитальными телескопами — изучать и скачивать исследования можно с помощью поиска с фильтрами. MAST — архив, который финансируется NASA.


Фото Max Bender — Unsplash

Сайт организован по принципу вики — достоверность данных проверяется сообществом. OpenEI — платформа для поиска открытых данных об использовании энергии, в частности о возобновляемых энергоресурсах и новых технологиях в отрасли.

В комплекте с базами данных CINDA (Computer Index of Nuclear Reaction Data) и IBANDL (Ion Beam Analysis Nuclear Data Library) является одним из крупнейших банков данных по ядерной физике. Experimental Nuclear Reaction Data (EXFOR) — библиотека, содержащая данные 22615 экспериментов с элементарными частицами. Курируется Брукхейвенской национальной лабораторией в США, но содержит эксперименты со всего мира — включая Россию и Китай.

Здесь вы получите доступ к двадцати петабайтам океанических и геофизических данных, а также сведениям об атмосфере и прибрежных зонах. National Centers for Environmental Information — архив экологических данных. Для поиска нужного датасета можно воспользоваться каталогом. В частности, тут найдется информация о глубине океана, поверхности Солнца, записи об осадочных породах и спутниковые снимки.

Здесь есть старые и новые научные публикации, сведения о раскопках и артефактах. ADS — репозиторий для поиска археологических данных под управлением Йоркского университета. В первой хранятся данные о раскопках и артефактах. Для поиска предлагают три категории: ArchSearch, Archives и Library. В третьей — публикации из журналов, книги и исследования. Во второй — архив всех загруженных материалов. Есть опции поиска по странам, эпохам и типам объектов.

Исследования и статьи из банка можно использовать по лицензии CC0. DRYAD — этот сервис помогает искать информацию для научных исследований по банку данных из 80 тысяч файлов. Согласно внутренней статистике, в 2018 году пользователи сайта наиболее интересовались песнями китов, температурной толерантностью морских обитателей, и нейронной активностью в височной доле человеческого мозга. Тематика материалов включает разные области знаний, однако большинство исследований связаны с медициной и компьютерными науками.


В лаборатории «Перспективные наноматериалы и оптоэлектронные устройства» Университета ИТМО

Доступен поиск по идентификаторам в специальном поисковом движке, с помощью инструмента BLAST или программным путем. GenBank — ДНК-библиотека, которую предоставляет Национальный центр биотехнологической информации США (NCBI), а также банки данных Европы и Японии.

Есть веб-интерфейс с расширенным поиском (пример про побочные эффекты воды). PubChem — база данных соединений и биопроб, которую содержит национальный центр биотехнологической информации США. Данные распространяются на правах общественного достояния.

Изначально разрабатывался, как внутренний проект Брукхейвенской национальной лаборатории, но в последствии превратился в крупнейшую международную базу данных своего типа. Protein Data Bank (RCSB PDB) — банк изображений белков и нуклеиновых кислот, история которого отсчитывается еще с 1971 года. Большинство академических журналов, связанных с биохимией, обязуют авторов размещать на сайте полученные в ходе исследований белковые модели.

Включает в себя SMART — программу для анализа доменов в белковых последовательностях, основанную на технологиях машинного обучения и датасете из 1200 моделей. InterPro — база данных, объединяющая множество датасетов различных научных проектов. Поддерживается Европейским институтом биоинформатики.

Фотоэкскурсии по лабораториям Университета ИТМО:

Показать больше

Похожие публикации

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Хабрахабр

Toolbox для исследователей — выпуск второй: подборка из 15 тематических банков данных

Банки данных помогают делиться результатами экспериментов и измерений, играют важную роль в формировании академической среды и в процессе развития специалистов.

Расскажем как о датасетах, полученных с помощью дорогостоящего оборудования (источниками этих данных нередко являются крупные международные организации и научные программы, чаще всего связанные с естественными науками), так и о государственных банках данных.


Фото Jan Antonin Kolar — Unsplash

Его московский аналог — Data.mos.ru. Data.gov.ru — хорошо знакомый хабражителям государственный проект в сфере открытых данных. Из зарубежных вариантов стоит отметить Data.gov — площадку с открытыми данными от правительства США (единый каталог с фильтрами).

Данные берутся как из Росстата, так и из исследований, проведенных на базе МГУ. Университетская информационная система — проект МГУ, объединяющий базы со статистической информацией о социальном и экономическом положении в стране, а также публикации из государственных и научных источников. Ресурсом можно воспользоваться и без предварительной регистрации, но для полноценного доступа потребуется подать заявку.

Карпинского. Картографическая база Всероссийского геологического института им. Интерфейс площадки позволяет сопоставить OpenStreetMap или Я.Карты с рядом доп. Информация о природных ресурсах страны, собранная за время существования учреждения, была нанесена на цифровые карты. слоев с информацией о магнитном поле, полезных ископаемых и др.

Архив ресурса собирают силами 90 организаций по всему миру. GEOSS — портал для поиска данных наблюдения Земли со спутников и дронов различных типов. Чтобы найти интересующие сведения, достаточно выделить нужную область на карте или вбить в поиск ключевые слова.

Представленные данные собраны орбитальными телескопами — изучать и скачивать исследования можно с помощью поиска с фильтрами. MAST — архив, который финансируется NASA.


Фото Max Bender — Unsplash

Сайт организован по принципу вики — достоверность данных проверяется сообществом. OpenEI — платформа для поиска открытых данных об использовании энергии, в частности о возобновляемых энергоресурсах и новых технологиях в отрасли.

В комплекте с базами данных CINDA (Computer Index of Nuclear Reaction Data) и IBANDL (Ion Beam Analysis Nuclear Data Library) является одним из крупнейших банков данных по ядерной физике. Experimental Nuclear Reaction Data (EXFOR) — библиотека, содержащая данные 22615 экспериментов с элементарными частицами. Курируется Брукхейвенской национальной лабораторией в США, но содержит эксперименты со всего мира — включая Россию и Китай.

Здесь вы получите доступ к двадцати петабайтам океанических и геофизических данных, а также сведениям об атмосфере и прибрежных зонах. National Centers for Environmental Information — архив экологических данных. Для поиска нужного датасета можно воспользоваться каталогом. В частности, тут найдется информация о глубине океана, поверхности Солнца, записи об осадочных породах и спутниковые снимки.

Здесь есть старые и новые научные публикации, сведения о раскопках и артефактах. ADS — репозиторий для поиска археологических данных под управлением Йоркского университета. В первой хранятся данные о раскопках и артефактах. Для поиска предлагают три категории: ArchSearch, Archives и Library. В третьей — публикации из журналов, книги и исследования. Во второй — архив всех загруженных материалов. Есть опции поиска по странам, эпохам и типам объектов.

Исследования и статьи из банка можно использовать по лицензии CC0. DRYAD — этот сервис помогает искать информацию для научных исследований по банку данных из 80 тысяч файлов. Согласно внутренней статистике, в 2018 году пользователи сайта наиболее интересовались песнями китов, температурной толерантностью морских обитателей, и нейронной активностью в височной доле человеческого мозга. Тематика материалов включает разные области знаний, однако большинство исследований связаны с медициной и компьютерными науками.


В лаборатории «Перспективные наноматериалы и оптоэлектронные устройства» Университета ИТМО

Доступен поиск по идентификаторам в специальном поисковом движке, с помощью инструмента BLAST или программным путем. GenBank — ДНК-библиотека, которую предоставляет Национальный центр биотехнологической информации США (NCBI), а также банки данных Европы и Японии.

Есть веб-интерфейс с расширенным поиском (пример про побочные эффекты воды). PubChem — база данных соединений и биопроб, которую содержит национальный центр биотехнологической информации США. Данные распространяются на правах общественного достояния.

Изначально разрабатывался, как внутренний проект Брукхейвенской национальной лаборатории, но в последствии превратился в крупнейшую международную базу данных своего типа. Protein Data Bank (RCSB PDB) — банк изображений белков и нуклеиновых кислот, история которого отсчитывается еще с 1971 года. Большинство академических журналов, связанных с биохимией, обязуют авторов размещать на сайте полученные в ходе исследований белковые модели.

Включает в себя SMART — программу для анализа доменов в белковых последовательностях, основанную на технологиях машинного обучения и датасете из 1200 моделей. InterPro — база данных, объединяющая множество датасетов различных научных проектов. Поддерживается Европейским институтом биоинформатики.

Фотоэкскурсии по лабораториям Университета ИТМО:

Показать больше

Похожие публикации

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»