Главная » Хабрахабр » Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению


(с)

К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Гитхаб — это не просто площадка для хостинга и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания.

Эта подборка поможет разобраться, на какие именно репозитории стоит обратить внимание, если вас интересует работа с данными и сфера глубокого обучения.

The Open Source Data Science Masters
Звезды: 11 227, форки: 4 737

Репозиторий представляет собой сборник обучающих материалов, собранных за несколько лет. Официальный репозиторий учебной программы Data Science Masters, разработанной в качестве альтернативы с открытым исходным кодом формального образования в области Data Science.

Awesome Data Science
Звезды: 9 240, форки: 2 761

Удобно разбита на категории. Мощная подборка, отвечающая на вопросы: «что такое Data Science?» и «что нужно знать, чтобы хорошо разбираться в этой науке?». Например, есть список книг по Data Science, подборка инфографик и даже тематические группы в Фейсбук.

Jupyter Interactive Notebook
Звезды: 5 242, форки: 2 313

Специалисты по обработке данных и машинному обучению активно её использовали для научных вычислений. Прародитель этого репозитория — платформа для работы со скриптами на 40 языках программирования Data Science iPython Notebooks, набравшая более 14 000 звезд и 4 000 форков.

С помощью встроенных визуализаторов блокнот с набором запросов превращается в полноценный дашборд с данными. Сегодня Jupyter Notebook — это удобный набор файлов-блокнотов, состоящих из параграфов, в которых пишутся и исполняются запросы.

Data Science Blogs
Звезды: 4 510, форки: 1 178

Здесь вы найдете все популярные блоги, а также множество небольших сайтов с полезной информацией (всего перечислен 251 ресурс). Простой, но обширный список обучающих материалов, отсортированный в алфавитном порядке.

Data Science Specialization
Звезды: 3 114, форки: 27 184

Если быть точнее, то программа обучения по специальности «Наука о данных» на Coursera включает несколько взаимосвязанных курсов по разным темам (например, R Programming), касающимся всевозможных аспектов анализа данных, а представленный в подборке репозиторий объединяет информацию, используемую во всех курсах. Репозиторий образовательного курса по Data Science Университета Джонса Хопкинса — очень популярный курс, подготовленный Роджером Пеном, Джеффом Ликом и Брайаном Каффо.

Spark Notebook
Звезды: 2 677, форки: 587

Spark Notebook — это блокнот с открытым исходным кодом, предоставляющий интерактивный веб-редактор, который может объединять код Scala, SQL-запросы, Markup и JavaScript для совместного анализа и изучения данных.

Learn Data Science
Звезды: 2 129, форки: 1 210

Коллекция блокнотов iPython, ориентированных на фундаментальные концепции машинного обучения для новичков.

Data Science at the Command Line
Звезды: 2 057, форки: 503

Это практическое руководство демонстрирует, как комбинировать небольшие, но мощные инструменты командной строки для быстрого получения, очистки, исследования и моделирования данных. Репозиторий содержит тексты, данные, сценарии и пользовательские инструменты консоли, используемые в книге «Data Science at the Command Line».

Data Science Specialization Community Site
Звезды: 1 395, форки: 2 661

Несколько студентов, проходивших курс в Университете Джонса Хопкинса, создали настолько качественный контент, что сотрудники университета разместили его в общем доступе, а также сделали каталог для всего интересного контента, созданного сообществом.

D3
Звезды: 81 837, форки: 20 282

В D3 акцент сделан на веб-стандартах, благодаря чему вы можете использовать все возможности современных браузеров, не привязывая себя к проприетарной структуре, сочетая мощные компоненты визуализации, управляемый подход и взаимодействие с Document Object Model (DOM). D3 — это библиотека визуализации данных JavaScript для HTML и SVG. Это самый популярный проект визуализации данных на GitHub.

Chart.js
Звезды: 41 393, форки: 9 294

Chart.js позиционирует себя как простой и гибкий инструмент, интерактивный, поддерживающий шесть различных типов диаграмм. Chart.js — библиотека HTML5, создающая визуализацию через элемент <cаnvas>.

ECharts
Звезды: 32 204, форки: 9 369

Проста в использовании, интуитивно понятна и легко настраивается. ECharts — браузерная библиотека для построения графиков и визуализации.

Leaflet
Звезды: 23 810, форки: 3 937

Код библиотеки невероятно мал — она разработана для простого, быстрого и удобного использования. Библиотека JavaScript для создания интерактивных карт, ориентированных на мобильное применение. Функции Leaflet могут быть расширены через набор плагинов.

Sigma.js
Звезды: 8 348, форки: 1 305

Sigma позволяет разрабатывать представления графов на веб-страницах и интегрировать их в веб-приложения. JS-библиотека, ориентированная на рисование графов.

Vega
Звезды: 6 559, форки: 702

С его помощью можно описать внешний вид и интерактивное поведение визуализации в формате JSON, а также создавать веб-представления с использованием Canvas или SVG. Vega — декларативный язык для создания, сохранения и обмена интерактивными проектами визуализации. Vega предоставляет базовые строительные блоки для широкого спектра проектов визуализации: загрузка и преобразование данных, масштабирование, проекции карты, условные обозначения, графические метки и т.д.

DC.js
Звезды: 6 458, форки: 1 734

DC.js рендерит в формате SVG, совместимом с CSS. DC.js — многомерная диаграмма, построенная на D3.js для работы с кроссфильтром. Предназначена для мощного анализа данных как в браузере, так и на мобильных устройствах.

Epoch
Звезды: 4 949, форки: 290

Фокусируется на двух различных аспектах: базовые диаграммы для создания исторических отчетов и диаграммы в реальном времени для отображения часто обновляемых данных временных рядов. Универсальная библиотека визуализации в реальном времени.

Keras
Звезды: 37 611, форки: 14 344

Keras разработана для быстрого экспериментирования, так как ключом к проведению хороших исследований является способность переходить от идеи к результату с наименьшей задержкой. Keras — библиотека глубокого обучения на Python, которая используется как в TensorFlow, так и в Theano (да, вы можете запускать её поверх библиотек TensorFlow, Theano и CNTK). Благодаря основательной и доступной документации Keras по праву занимает место в нашей подборке.

Caffe
Звезды: 26 892, форки: 16 276

По сути, это библиотека общего назначения, предназначенная для развёртывания свёрточных сетей и для распознавания изображений, речи или мультимедиа. Caffe (Convolution Architecture For Feature Extraction) — библиотека глубокого обучения, связывающая Python и MATLAB.

В мае 2018 г. Также существует проект Caffe2, который включает в себя новые возможности, в частности, рекуррентные нейронные сети. команды Caffe2 и PyTorch объединились, код Caffe2 был перенесен в репозиторий PyTorch (звезд: 24 075, форки: 5 707).

MXNet
Звезды: 16 157, форки: 5 824

Для большей производительности MXNet позволяет смешивать императивные и символические методы программирования. Легкая, компактная, гибко распределенная среда глубокого обучения для Python, R, Julia, Scala, Go, JavaScript и др. Проект также содержит руководства по созданию других систем глубокого обучения.

Data Science IPython Notebooks
Звезды: 14 747, форки: 4 410

Если говорить о глубоком обучении, то охватываются TensorFlow, Theano, Caffe и другие инструменты. Коллекция блокнотов iPython, включающая большие данные, Hadoop, scikit-learn, библиотеки, предназначенные для научных вычислений, и др.

ConvNetJS
Звезды: 9 510, форки: 1 982

Проект на данный момент не поддерживаемый, но всё ещё заслуживающий внимания. ConvNetJS представляет собой реализацию нейронных сетей и их общих модулей на JavaScript. Позволяет обучать свёрточные (или обычные) сети прямо в браузере.

Deeplearning4j
Звезды: 10 227, форки: 4 570

Интегрируется с Hadoop и Spark. Библиотека глубокого обучения для Java и Scala. Кроме того, имеются средства для работы с библиотекой на Python. Deeplearning4j также позволяет проводить вычисления на графических процессорах с поддержкой CUDA. Репозиторий содержит всю необходимую документацию и учебники.

LISA Lab Deep Learning Tutorials
Звезды: 3 673, форки: 2 045

Представленные здесь материалы знакомят с некоторыми наиболее важными алгоритмами глубокого обучения, а также демонстрируют принцип работы с Theano. Сборник учебников Университета Монреаля. Theano — это Python-библиотека, которая упрощает запись моделей глубокого обучения и дает возможность обучать их на GPU.

В следующий раз поговорим о проектах для машинного обучения и открытых датасетах. Этим списком количество интересностей на Гитхабе не исчерпывается. Если у вас есть свои примеры интересных репозиториев, поделитесь ими в комментариях.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Интересные факты об истории Китайской лунной программы и космической миссии «Чанъэ-4»

Многое скрыто за заборами полигонов и стенами лабораторий Китайской академии космических технологий при реализации лунных научно-исследовательских космических программ, но часть информации потом все равно любезно предоставляется в открытый доступ.В продолжении этой публикации. Ранее опубликованные материалы о «Чанъэ-4»: Краткая Китайская история ...

Путеводитель по программе JPoint 2019

Благо, всего месяц остался до JPoint 2019 — международной Java-конференции, которая пройдёт в начале апреля в Москве. Последний месяц зимы подходит к концу, и просыпается здоровое желание сходить на какую-нибудь большую Java-конференцию. Программа почти стабилизировалась, и настало время раскрыть все ...