Хабрахабр

[Перевод] 14 open-source проектов для прокачки Data Science мастерства (easy, normal, hard)

Data Science для начинающих

1. Sentiment Analysis (Анализ настроений через текст)

image

Посмотрите полную реализацию проекта Data Science с использованием исходного кода — Sentiment Analysis Project в R.

Это тип классификации, при котором классы могут быть двоичными (положительными и отрицательными) или множественными (счастливыми, злыми, грустными, противными ...). Sentiment Analysis — это анализ слов для определения настроений и мнений, которые могут быть положительными или отрицательными. Мы будем использовать словари общего назначения, такие как AFINN, bing и loughran, выполнять внутреннее соединение, и в конце мы создадим облако слов, чтобы отобразить результат. Мы реализуем этот Data Science проект на языке R и будем использовать набор данных в пакете «janeaustenR».

Язык: R
Набор данных/Пакет: janeaustenR

EDISON Software - web-development
Статья переведена при поддержке компании EDISON Software, которая делает виртуальные примерочные для мультибрэндовых магазинов, а также тестирует программное обеспечение.

2. Fake News Detection (Обнаружение фейковых новостей)

Поднимите свои навыки на новый уровень, работая над проектом Data Science для начинающих — обнаружение поддельных новостей с помощью Python.

image

В этой идее проекта по Data Science мы будем использовать Python для построения модели, которая может точно определять, является ли новость реальной или фальшивой. Фальшивые новости — это ложная информация, распространяемая через социальные сети и другие сетевые СМИ для достижения политических целей. Мы будем использовать набор данных формы 7796 × 4 и выполнять все в Jupyter Lab. Мы создадим TfidfVectorizer и используем PassiveAggressiveClassifier для классификации новостей на «реальные» и «поддельные».

Язык: Python

Набор данных/Пакет: news.csv

3. Detecting Parkinson’s Disease (Обнаружение болезни Паркинсона)

Продвигайтесь вперед, работая над идеей проекта Data Science Project Idea — выявление болезни Паркинсона с помощью XGBoost.

image

Итак, в этой идее проекта по Data Science мы научимся выявлять болезнь Паркинсона с помощью Python. Мы начали использовать Data Science для улучшения здравоохранения и услуг — если мы можем предсказать заболевание на ранней стадии, то у нас будет много преимуществ. Это влияет на продуцирующие дофамин нейроны в головном мозге, и каждый год, это затрагивает более 1 миллиона человек в Индии. Это нейродегенеративное, прогрессирующее заболевание центральной нервной системы, которое влияет на движение и вызывает дрожь и скованность.

Язык: Python

Набор данных/Пакет: UCI ML Parkinsons dataset

Data Science проекты средней сложности

4. Speech Emotion Recognition(Распознавание эмоции из речи)

Ознакомьтесь с полной реализацией примера проекта Data Science — распознавание речи с помощью Librosa.

image

Этот Data Science проект использует librosa для распознавания речи. Давайте теперь научимся использовать разные библиотеки. Поскольку мы используем тон и высоту тона для выражения эмоций голосом, SER актуален. SER — это процесс определения человеческих эмоций и аффективных состояний по речи. Мы будем использовать функции mfcc, chroma и mel и использовать набор данных RAVDESS для распознавания эмоций. Но так как эмоции субъективны, аннотирование звука является сложной задачей. Мы создадим MLPC-классификатор для этой модели.

Язык: Python

Набор данных/Пакет: RAVDESS dataset

5. Gender and Age Detection (Обнаружение пола и возраста)

Поразите работодателей с помощью новейшего проекта Data Science — определение пола и возраста с помощью OpenCV.

image

Используя только одно изображение, вы научитесь предсказывать пол и возраст человека. Это интересный Data Science с Python. Мы построим сверточную нейронную сеть и будем использовать модели, обученные Талом Хасснером и Джилом Леви для набора данных Adience. В этом мы познакомим вас с Computer Vision и его принципами. По пути мы будем использовать некоторые файлы .pb, .pbtxt, .prototxt и .caffemodel.

Язык: Python

Набор данных/Пакет: Adience

6. Uber Data Analysis (Анализ данных Uber)

Посмотрите полную реализацию проекта Data Science с исходным кодом — Uber Data Analysis Project в R.

image

Мы будем использовать набор данных Uber Pickups в Нью-Йорке и создавать визуализации для различных временных рамок года. Это проект визуализации данных с ggplot2, в котором мы будем использовать R и его библиотеки и анализировать различные параметры. Это говорит нам о том, как время влияет на поездки клиентов.

Язык: R

Набор данных/Пакет: Uber Pickups in New York City dataset

7. Driver Drowsiness detection (Обнаружение сонливости водителя)

Прокачайте свои навыки, работая над Top Data Science Project — системой обнаружения сонливости с OpenCV & Keras.

image

В этом проекте на Python мы создадим систему, которая сможет обнаруживать сонных водителей, а также оповещать их звуковым сигналом. Сонное вождение чрезвычайно опасно, и каждый год происходит около тысячи аварий из-за того, что водители засыпают во время вождения.

Мы будем использовать OpenCV для обнаружения лица и глаз, а с помощью Keras мы будем классифицировать состояние глаза (Открытое или Закрытое) с использованием методов глубокой нейронной сети. Этот проект реализован с использованием Keras и OpenCV.

8. Chatbot

Создайте чат-бота с помощью Python и сделайте шаг вперед в своей карьере — Chatbot с NLTK & Keras.

image

Многим предприятиям приходится предлагать услуги своим клиентам, и для их обслуживания требуется много рабочей силы, времени и усилий. Чат-боты являются неотъемлемой частью бизнеса. В основном есть два типа чат-ботов: Domain-specific и Open-domain. Чат-боты могут автоматизировать большую часть взаимодействия с клиентами, отвечая на некоторые частые вопросы, которые задают клиенты. Таким образом, вам нужно настроить его для эффективной работы в вашей сфере. Domain-specific чат-бот часто используется для решения конкретной проблемы. Open-domain чат-ботам можно задавать любые вопросы, поэтому для их обучения требуется огромное количество данных.

Набор данных: Intents json file

Язык: Python

Продвинутые Data Science проекты

9. Image Caption Generator(Генератор описания изображения)

Проверьте полную реализацию проекта с исходным кодом — Image Caption Generator с CNN & LSTM.

image

Это трудная задача для компьютеров. Описание того, что есть на изображении, является легкой задачей для людей, но для компьютеров, изображение — это просто набор цифр, которые представляют собой значение цвета каждого пикселя. Этот проект использует методы глубокого изучения, в которых мы реализуем Конволюционную нейронную сеть (CNN) с рекуррентной нейронной сетью (LSTM) для создания генератора описания изображения. Понять, что находится в изображении, а затем создать описание на естественном языке(например, на английском), является другой трудной задачей.

Набор данных: Flickr 8K

Язык: Python

Фреймворк: Keras

10. Credit Card Fraud Detection(Определение мошенничества с кредитными картами)

Сделайте все возможное, работая над идеей проекта Data Science — обнаружение мошенничества с кредитными картами с помощью машинного обучения.

image

Давайте перейдем к некоторым продвинутым проектам в области науки о данных. К настоящему времени вы начали понимать методы и концепции. Мы будем использовать набор данных операций с картами, чтобы классифицировать транзакции по кредитным картам как мошеннические и подлинные. В этом проекте мы будем использовать язык R с такими алгоритмами, как деревья решений, логистическая регрессия, искусственные нейронные сети и классификатор градиентного бустинга. Мы подберем для них разные модели и построим кривые производительности.

Язык: R

Набор данных/Пакет: Card Transactions dataset

11. Movie Recommendation System(Cистема рекомендаций по фильмам)

Изучите реализацию лучшего Data Science проекта с Исходным кодом — Movie Recommendation System на языке R

image

Система рекомендаций рассылает предложения пользователям через процесс фильтрации, основанный на предпочтениях других пользователей и истории просмотров. В этом Data Science проекте мы будем использовать R, чтобы выполнить рекомендации фильма посредством машинного обучения. Это позволяет клиентам взаимодействовать с платформой. Если A и B нравится Home Alone, а B любит Mean Girls, то можно предложить A — им это тоже может понравиться.

Язык: R

Набор данных/Пакет: MovieLens dataset

12. Customer Segmentation(Сегментация покупателей)

Произведите впечатление на работодателей с помощью Data Science проекта (включая исходный код) — Сегментация клиентов с помощью машинного обучения.

image

Используя кластеризацию, компании определяют сегменты клиентов для работы с потенциальной базой пользователей. Сегментация покупателей является популярным приложением неконтролируемого обучения (unsupervised learning). Мы будем использовать K-means clustering, а также визуализировать распределение по полу и возрасту. Они делят клиентов на группы в соответствии с общими характеристиками, такими как пол, возраст, интересы и привычки расходования средств, чтобы они могли эффективно продавать свою продукцию каждой группе. Затем мы проанализируем их годовые доходы и уровень расходов.

Язык: R

Набор данных/Пакет: Mall_Customers dataset

13. Breast Cancer Classification (Классификация рака молочной железы)

Посмотрите полную реализацию проекта Data Science в Python — Классификация рака молочной железы с помощью глубокого обучения.

image

Мы будем использовать набор данных IDC_regular для выявления инвазивной карциномы протоки, наиболее распространенной формы рака молочной железы. Возвращаясь к медицинскому вкладу науки данных, давайте научимся выявлять рак молочной железы с помощью Python. В этой идее научного проекта по сбору данных мы будем использовать Deep Learning и библиотеку Keras для классификации. Он развивается в молочных протоках, проникающем в волокнистую или жирную ткань молочной железы снаружи протока.

Язык: Python

Набор данных/Пакет: IDC_regular

14. Traffic Signs Recognition (Распознавание дорожных знаков)

Достижение точности в технологии самостоятельного вождения автомобиля с помощью проекта Data Science по распознаванию дорожных знаков с использованием CNN с открытым исходным кодом.

image

Чтобы следовать правилу, сначала нужно понять, как выглядит дорожный знак. Дорожные знаки и правила дорожного движения очень важны для каждого водителя, чтобы избежать несчастных случаев. Но сейчас количество автономных транспортных средств растет, и в ближайшем будущем человек уже не будет самостоятельно управлять машиной. Человек должен выучить все дорожные знаки, прежде чем ему дадут права на управление любым транспортным средством. Набор контрольных данных распознавания дорожных знаков Германии (GTSRB) используется для построения глубокой нейронной сети для распознавания класса, к которому относится дорожный знак. В проекте «Распознавание дорожных знаков» вы узнаете, как программа может распознать тип дорожных знаков, принимая изображение в качестве входного сигнала. Мы также создаем простой графический интерфейс для взаимодействия с приложением.

Язык: Python

Набор данных: GTSRB (German Traffic Sign Recognition Benchmark)

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть