Hi-Tech

13 книг для аналитиков: об анализе и обработке данных, работе на языках R и Python

Конспект материала сайта для предпринимателей, маркетологов, программистов и аналитиков Coriers.

В закладки

Книги об анализе и обработке данных

Но проблема в том, что данными можно манипулировать. По мнению автора, при помощи данных аналитик должен давать компании представление о том, как увеличить чистую прибыль или валовый объём продаж. Она напоминает известную «Как лгать при помощи статистики». Поэтому каждому аналитику стоит прочитать книгу «Голая статистика».

В ней говорится, что на специалисте лежит огромная ответственность за полученные данные, и он всегда должен помнить — его результаты могут случайно исказить факты. По словам автора, «Голая статистика» современнее и описывает более сложные статистические моменты.

Поисковики, Big Data и интернет знают о вас всё». Похожая по тематике книга, которую автор рекомендует, — «Все лгут.

Автор книги утверждает: исследования и опросы дают ложные данные, потому что люди скрывают правду. В ней данные рассматриваются с позиции пользователей и аналитиков. Знание этого помогает аналитикам создавать точные модели. В интернете люди не скрываются, они ищут в Google идеи для свиданий и симптомы болезней, рассказывают интернету всё, что у них в голове.

Она полезна тем, что подсказывает читателям не только, что делать, но и чего делать нельзя. Автор статьи советует книгу «Как правильно подать данные». Например, целая глава посвящена тому, как избежать перегруженных диаграмм и моделей.

Для знакомства с общим анализом данных и машинным обучением автор рекомендует книгу «Основы машинного обучения для предсказательной аналитики», её можно скачать бесплатно.

В ней нет конкретного кода SQL или Pandas, но это, утверждает автор, лучше для понимания анализа данных, чем ограничения, которые устанавливает тот или иной язык. В ней говорится не столько об использовании языка, сколько об общих проблемах анализа.

Книги о языке программирования R

Лучше иметь общее представление об анализе данных, чем загонять себя в рамки одного языка. Автор считает, что спор «R или Python» не имеет смысла, так как обычно работа определяет язык.

Первая — классическая «Введение в статистическое обучение с примерами на языке R». Тем не менее он включает в подборку несколько книг о языке R.

Но для начинающих она может показаться перегруженной математическими терминами. По словам автора, это одна из любимых книг многих аналитиков. Автор пишет, что если человек не знаком с математическим моделированием, он не сможет разобраться в этой книге.

В ней подробно рассматриваются линейная регрессия, графики и анализ временных рядов. Новичкам автор советует прочитать книгу «Язык R: анализ данных, статистика, составление графиков». Автор отмечает, что в книге содержится и другая информация, но без углубления в статистику и математику.

Автор считает книгу не особо полезной, потому что аналитики редко разрабатывают симуляции, но для тех, кто занимается их разработкой, она будет хорошим подспорьем. Помимо этих книг в статье упоминается «Практическое программирование на R: разработка функций и симуляций».

Книги о языке программирования Python

В подборке автор собрал книги о библиотеках Python, которые могут помочь в анализе данных и машинном обучении.

Упоминается библиотека Pandas, её можно изучить с помощью книги «Python и анализ данных».

В книге сказано, что она поможет разобраться в «манипуляции, преобразовании, чистке и обработке данных с помощью Python». Эта книга, по мнению автора, хороша тем, что не только даёт базовые знания о группировании данных и временных рядах, но и упражнения, которые помогут применить Pandas в реальности.

Для работы с ней автор рекомендует книгу «Машинное обучение и Python. Автор также упоминает другую библиотеку, на которую стоит обратить внимание, — scikit-learn. Практические решения для всего: от предварительной обработки данных до глубокого обучения».

TensorFlow

Концепции, инструменты и техники для создания интеллектуальных систем». Для работы с этой библиотекой автор рекомендует прочитать книгу «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow. В ней менее подробно описывается машинное обучение, но вторая половина книги посвящена нейросетям: свёрточным нейросетям, автокодировщикам, методу исключения и так далее.

Книги о больших данных

Однако, утверждает автор, хотя бы знакомство с ними может принести пользу, особенно тем, кто работает в стартапах. Аналитику, работающему в крупной компании, обычно не требуется знание таких инструментов обработки больших данных, как Kafka, Hadoop или Cassandra.

Первая — «Hadoop. Автор обращает внимание на две книги, знакомящие с Hadoop. Она касается всех вопросов, необходимых для создания кластера Hadoop, и подходит скорее тем, кто хочет ознакомиться с темой, чтобы поддержать разговор. Подробное руководство».

Программирование, масштабирование, поддержка». Для использования Hadoop для больших данных автор рекомендует прочитать «Высоконагруженные приложения.

По мнению автора, именно понимания этого недостаёт многим, кто хочет использовать Hadoop. Книга хороша тем, что обращает внимание на принципы разработки и поиска компромиссных решений. Например, какие базы данных использовать: NoSQL или реляционные, надо ли нанимать отдельного сотрудника для управления Hadoop, на эти и другие вопросы отвечает книга.

Автор выражает надежду, что эта подборка поможет читателям стать аналитиками или улучшить навыки анализа данных, и приводит ещё несколько материалов для чтения и видео об анализе данных, SQL и Python для ознакомления:

#библиотека

Показать больше

Похожие публикации

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»