Закрыто

Основы Data Science и Big Data. Python и наука о данных

Тема в разделе "Электронные книги", создана пользователем retret11, 25 янв 2017.

Цена: 1075р.
Взнос: 80р.-92%
100%

Основной список: 124 участников

Резервный список: 26 участников

Статус обсуждения:
Комментирование ограничено.
  1. 25 янв 2017
    #1
    retret11
    retret11 ЧКЧлен клуба

    Основы Data Science и Big Data. Python и наука о данных

    [​IMG]Основы Data Science и Big Data. Python и наука о данных
    large_49602517.jpg

    Data Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных.
    Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.
    Обработка и анализ данных — одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.

    Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    Благодарности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    О книге . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    Структура книги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    Для кого написана эта книга . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    Условные обозначения и загружаемые файлы . . . . . . . . . . . . . . . . . . . . . . . . . 15

    Об авторах . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    От издательства . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    Глава 1. Data science в мире больших данных . . . . . . . . . . . . . . . . . 18

    1.1. Область применения data science и больших данных и их преимущества . . 19

    1.2. Грани данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    1.2.1. Структурированные данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    1.2.2. Неструктурированные данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    1.2.3. Данные на естественном языке . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    1.2.4. Машинные данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    1.2.5. Графовые, или сетевые, данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    1.2.6. Аудио, видео и графика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    1.2.7. Потоковые данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    1.3. Процесс data science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    1.3.1. Назначение цели исследования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    1.3.2. Сбор данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    1.3.3. Подготовка данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    1.3.4. Исследование данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    1.3.5. Моделирование данных или построение модели . . . . . . . . . . . . . . . . . 27

    1.3.6. Отображение и автоматизация . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    1.4. Экосистема больших данных и data science . . . . . . . . . . . . . . . . . . . . . . . . 28

    1.4.1. Распределенные файловые системы . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    1.4.2. Инфраструктура распределенного программирования . . . . . . . . . . . . . 30

    1.4.3. Инфраструктура интеграции данных . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    1.4.4. Инфраструктуры машинного обучения . . . . . . . . . . . . . . . . . . . . . . . . 31

    1.4.5. Базы данных NoSQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    1.4.6. Инструменты планирования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    1.4.7. Инструменты сравнительного анализа . . . . . . . . . . . . . . . . . . . . . . . . . 33

    1.4.8. Развертывание системы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    1.4.9. Программирование служб . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    1.4.10. Безопасность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    1.5. Вводный пример использования Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    1.6. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    Глава 2. Процесс data science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    2.1. Обзор процесса data science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    2.1.1. Не будьте рабом процесса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    2.2. Этап 1: Определение целей исследования и создание

    проектного задания . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    2.2.1. Выделите время на то, чтобы разобраться в целях и контексте

    исследования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    2.2.2. Создайте проектное задание . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    2.3. Этап 2: Сбор данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    2.3.1. Начните с данных, хранимых в компании . . . . . . . . . . . . . . . . . . . . . . 48

    2.3.2. Не бойтесь покупок во внешних источниках . . . . . . . . . . . . . . . . . . . . 49

    2.3.3. Проверьте качество данных сейчас, чтобы предотвратить

    проблемы в будущем . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    2.4. Этап 3: Очистка, интеграция и преобразование данных . . . . . . . . . . . . . . . 50

    2.4.1. Очистка данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    2.4.2. Исправляйте ошибки как можно раньше . . . . . . . . . . . . . . . . . . . . . . . 58

    2.4.3. Комбинирование данных из разных источников . . . . . . . . . . . . . . . . . 59

    2.4.4. Преобразование данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    2.5. Этап 4: Исследовательский анализ данных . . . . . . . . . . . . . . . . . . . . . . . . 66

    2.6. Этап 5: Построение моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    2.6.1. Выбор модели и переменных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    2.6.2. Выполнение модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    2.6.3. Диагностика и сравнение моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    2.7. Этап 6: Представление результатов и построение приложений

    на их основе . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

    Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    Глава 3. Машинное обучение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    3.1. Что такое машинное обучение, и почему оно важно для вас? . . . . . . . . . . . 82

    3.1.1. Применение машинного обучения в data science . . . . . . . . . . . . . . . . . 83

    3.1.2. Применение машинного обучения в процессе data science . . . . . . . . . . 84

    3.1.3. Инструменты Python, используемые в машинном обучении . . . . . . . . . 85

    3.2. Процесс моделирования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    3.2.1. Создание новых показателей и выбор модели . . . . . . . . . . . . . . . . . . . . . 88

    3.2.2. Тренировка модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    3.2.3. Проверка адекватности модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    3.2.4. Прогнозирование новых наблюдений . . . . . . . . . . . . . . . . . . . . . . . . . 91

    3.3. Типы машинного обучения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    3.3.1. Контролируемое обучение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    3.3.2. Неконтролируемое обучение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

    3.4. Частично контролируемое обучение . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

    3.5. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

    Глава 4. Работа с большими данными на одном компьютере . . . 114

    4.1. Проблемы при работе с большими объемами данных . . . . . . . . . . . . . . . . 115

    4.2. Общие методы обработки больших объемов данных . . . . . . . . . . . . . . . . 116

    4.2.1. Правильный выбор алгоритма . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

    4.2.2. Правильный выбор структуры данных . . . . . . . . . . . . . . . . . . . . . . . . 126

    4.2.3. Правильный выбор инструментов . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

    4.3. Общие рекомендации для программистов при работе с большими

    наборами данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

    4.3.1. Не повторяйте уже выполненную работу . . . . . . . . . . . . . . . . . . . . . 131

    4.3.2. Используйте все возможности оборудования . . . . . . . . . . . . . . . . . . 132

    4.3.3. Экономьте вычислительные ресурсы . . . . . . . . . . . . . . . . . . . . . . . . . 133

    4.4. Пример 1: Прогнозирование вредоносных URL-адресов . . . . . . . . . . . . . . 134

    4.4.1. Этап 1: Определение цели исследования . . . . . . . . . . . . . . . . . . . . . 134

    4.4.2. Этап 2: Сбор данных URL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

    4.4.3. Этап 4: Исследование данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

    4.4.4. Этап 5: Построение модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

    4.5. Пример 2: Построение рекомендательной системы внутри

    базы данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

    4.5.1. Необходимые инструменты и методы . . . . . . . . . . . . . . . . . . . . . . . . 139

    4.5.2. Этап 1: Вопрос исследования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

    4.5.3. Этап 3: Подготовка данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

    4.5.4. Этап 5: Построение модели . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

    4.5.5. Этап 6: Отображение и автоматизация . . . . . . . . . . . . . . . . . . . . . . . 148

    4.6. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

    Глава 5. Первые шаги в области больших данных . . . . . . . . . . . . 151

    5.1. Распределение хранения и обработки данных в инфраструктурах . . . . . . 152

    5.1.1. Hadoop: инфраструктура для хранения и обработки больших

    объемов данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

    5.1.2. Spark: замена MapReduce с повышенной производительностью . . . . . 156

    5.2. Учебный пример: Оценка риска при кредитовании . . . . . . . . . . . . . . . . . . 157

    5.2.1. Этап 1: Цель исследования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

    5.2.2. Этап 2: Сбор данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

    5.2.3. Этап 3: Подготовка данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

    5.2.4. Этап 4: Исследование данных и Этап 6: построение отчета . . . . . . . . 169

    5.3. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

    Глава 6. Присоединяйтесь к движению NoSQL . . . . . . . . . . . . . . . . 183

    6.1. Введение в NoSQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

    6.1.1. ACID: базовые принципы реляционных баз данных . . . . . . . . . . . . . . 186

    6.1.2. Теорема CAP: проблема баз данных, распределенных

    по многим узлам . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

    6.1.3. Принципы BASE баз данных NoSQL . . . . . . . . . . . . . . . . . . . . . . . . . . 190

    6.1.4. Типы баз данных NoSQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

    6.2. Учебный пример: Диагностика болезней . . . . . . . . . . . . . . . . . . . . . . . . . 199

    6.2.1. Этап 1: Назначение цели исследования . . . . . . . . . . . . . . . . . . . . . . 201

    6.2.2. Этапы 2 и 3: Сбор и подготовка данных . . . . . . . . . . . . . . . . . . . . . . 202

    6.2.3. Этап 4: Исследование данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

    6.2.4. Этап 3 (снова): Подготовка данных для профилирования

    болезни . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220

    6.2.5. Этап 4 (повторно): Исследование данных

    для профилирования болезни . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

    6.2.6. Этап 6: Отображение и автоматизация . . . . . . . . . . . . . . . . . . . . . . . 224

    6.3. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

    Глава 7. Графовые базы данных . . . . . . . . . . . . . . . . . . . . . . . . . . . 227

    7.1. Связанные данные и графовые базы данных . . . . . . . . . . . . . . . . . . . . . . 227

    7.1.1. Когда и почему используются графовые базы данных? . . . . . . . . . . . 231

    7.2. Neo4j: графовая база данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

    7.2.1. Cypher: язык запросов к графам . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

    7.3. Пример использования связанных данных: рекомендательная система . . . 242

    7.3.1. Этап 1: Определение цели исследования . . . . . . . . . . . . . . . . . . . . . 242

    7.3.2. Этап 2: Сбор данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244

    7.3.3. Этап 3: Подготовка данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

    7.3.4. Этап 4: Исследование данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

    7.3.5. Этап 5: Моделирование данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

    7.3.6. Этап 6: Отображение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254

    7.4. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

    Глава 8. Глубокий анализ текста . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

    8.1. Глубокий анализ текста в реальном мире . . . . . . . . . . . . . . . . . . . . . . . . . 259

    8.2. Методы глубокого анализа текста . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

    8.2.1. Набор слов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264

    8.2.2. Выделение основы и лемматизация . . . . . . . . . . . . . . . . . . . . . . . . . 266

    8.2.3. Классификатор на базе дерева принятия решений . . . . . . . . . . . . . . 267

    8.3. Учебный пример: классификация сообщений Reddit . . . . . . . . . . . . . . . . . 269

    8.3.1. NLTK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270

    8.3.2. Обзор процесса data science и этап 1: назначение цели

    исследования . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272

    8.3.3. Этап 2: Сбор данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273

    8.3.4. Этап 3: Подготовка данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277

    8.3.5. Этап 4: Исследование данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280

    8.3.6. Этап 3 (повторно): Подготовка данных (адаптированная) . . . . . . . . . 283

    8.3.7. Этап 5: Анализ данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287

    8.3.8. Этап 6: Отображение и автоматизация . . . . . . . . . . . . . . . . . . . . . . . 291

    8.4. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293

    Глава 9. Визуализация данных для конечного пользователя . . . 295

    9.1. Способы визуализации данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296

    9.2. Crossfilter, библиотека MapReduce для JavaScript . . . . . . . . . . . . . . . . . . . 300

    9.2.1. Подготовка необходимых компонентов . . . . . . . . . . . . . . . . . . . . . . . 300

    9.2.2. Использование Crossfilter для фильтрации набора данных . . . . . . . . . 305

    9.3. Создание информационной панели с использованием dc.js . . . . . . . . . . . 309

    9.4. Средства разработки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315

    9.5. Итоги . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317

    Приложение А. Настройка Elasticsearch . . . . . . . . . . . . . . . . . . . . . 319

    А.1. Установка в Linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319

    A.2. Установка в Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321

    Приложение Б. Установка Neo4j . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325

    Б.1. Установка в Linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325

    Б.2. Установка в Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

    Приложение В. Установка сервера MySQL . . . . . . . . . . . . . . . . . . . 328

    В.1. Установка в Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328

    В.2. Установка в Linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330

    Приложение Г. Установка Anaconda в виртуальной среде ....... 332

    Г.1. Установка в Linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332

    Г.2. Установка в Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332

    Г.3. Настройка среды . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333

    Ориг.название: Introducing Data Science: Big Data, Machine Learning, and more, using Python tools
    Автор: Силен Дэви, Мейсман Арно, Мохамед Али
    Тема: Библиотека программиста
    Год: 2017
    Страниц: 336
    Обложка: Обл Ц
    Формат: 70х100/16
    Баркод: 9785496025171
    ISBN: 978-5-496-02517-1



    Цена: 1075 руб.

     
    Последнее редактирование модератором: 4 май 2017
    3 пользователям это понравилось.
  2. Последние события

    1. skladchik.com
      Складчина закрыта.
      19 июл 2017
    2. skladchik.com
      Складчина доступна.
      4 май 2017
    3. skladchik.com
      Складчина закрыта.
      17 фев 2017
    4. zakke
      zakke участвует.
      11 фев 2017

    Последние важные события

    1. skladchik.com
      Складчина закрыта.
      19 июл 2017
    2. skladchik.com
      Складчина доступна.
      4 май 2017
    3. skladchik.com
      Складчина закрыта.
      17 фев 2017
    4. skladchik.com
      Взнос составляет 40р.
      5 фев 2017
Статус обсуждения:
Комментирование ограничено.

Поделиться этой страницей