Hi-Tech

«В сфере машинного обучения сильный разброс. У Google не будет всех данных в мире»

Партнер фонда Andreessen Horowitz Бенедикт Эванс объясняет, почему успехи Google и Facebook в освоении искусственного интеллекта не делают их лидерами в этой области.

В закладки

Перевод издания «Идеономика».

Поскольку основа машинного обучения — это данные, много-много данных, то довольно часто можно услышать опасения, что компании, уже обладающие множеством данных, станут еще сильнее. Машинное обучение, вероятно, самая фундаментальная тенденция современных технологий. В этом есть доля правды, но в довольно узком смысле, и в связи с тем, что в области машинного обучения наблюдается значительный разброс возможностей, возможны как централизация, так и децентрализация.

Благодаря академической культуре, из которой происходит машинное обучение, почти все новое, что появляется в этой сфере, публикуется сразу после создания. Во-первых, что значит — «машинное обучение опирается на данные»? Но что вы создаете? Эти статьи можно читать и пользоваться ими.

Чтобы распознать кошку на картинке, нужно сформулировать правила, позволяющие найти шерсть, лапы, глаза, заостренные уши и так далее, соединить все это и надеяться, что сработает. В прошлом, если разработчик программного обеспечения хотел создать систему для распознавания чего-либо, он выстраивал логические шаги («правила»). Теоретически — возможно, а на практике это все равно, что пытаться сделать механическую лошадь: дело настолько сложное, что становится нецелесообразным.

Поэтому в машинном обучении вместо написания правил статистическому алгоритму дают примеры (множество примеров), и этот алгоритм генерирует модель, которая умеет различать категории. Мы не можем описать все логические шаги, необходимые человеку, чтобы ходить или распознавать кошек. Вы предлагаете ему 100 тысяч картинок, помеченные как «кошка», и 100 тысяч картинок, помеченные «нет кошки», и машина распознает разницу.

Самое очевидное — это компьютерное зрение, язык и речь, но варианты использования гораздо шире. Машинное обучение заменяет задаваемые вручную логические этапы автоматически определяемыми паттернами в данных и работает намного лучше для очень широкого класса вопросов. Есть разработки, позволяющие машинному обучению работать с относительно небольшим набором данных, но на данный момент (очень) больше данных почти всегда — лучше.

Как далеко заходит эффект «победитель получает все»? Отсюда вопрос: если машинное обучение позволяет вам делать новые и важные вещи, и оно тем лучше, чем больше у вас данных, означает ли это, что компании, которые уже добились лидерских позиций и имеют много данных, становятся еще сильнее?

Отсюда напрашиваются выводы типа «у Google/Facebook/Amazon есть все данные в мире» или даже «у Китая есть все данные в мире». Легко представить, что замкнутый круг делает победителя сильнее: «Больше данных = более точная модель = более качественный продукт = больше пользователей = больше данных». Они олицетворяют страх, что сильнейшие технологические компании станут еще сильнее, равно как и страны с большим населением и «разрешительным» отношением к централизованному использованию данных.

Ну, все не совсем так.

У GE много телеметрических данных с газовых турбин, у Google много поисковых данных, а у Amex много данных о мошенничестве с кредитными картами. Во-первых, хотя вам и нужно много данных для машинного обучения, все они относятся к конкретной узкой проблеме, которую вы пытаетесь решить. То есть машинное обучение — это технология общего назначения. Нельзя использовать данные о турбинах как примеры для обнаружения мошеннических транзакций, или веб-поиск, чтобы найти газовые турбины, которые могут выйти из строя. Каждый из созданных инструментов умеет делать что-то одно. Можно использовать ее для обнаружения мошенничества или распознавания лиц — но приложения, которые создаются на ее основе, не универсальны.

И приложения, которые мы создаем, и наборы данных, которые для этого требуются, специфичны для конкретной задачи, которую мы пытаемся решить (хотя опять же, предпринимаются попытки сделать так, чтобы алгоритмы машинного обучения могли переключаться с одного набора данных на другой). Это почти то же самое, как и все предыдущие волны автоматизации: стиральная машина умеет стирать одежду, а не мыть посуду или готовить еду, шахматная программа не может платить налоги, система машинного перевода не распознает кошек.

У Google не будет «всех данных в мире» — у Google будут все данные Google. Это означает, что в сфере машинного обучения будет сильный разброс. И это разные вещи, созданные разными компаниями. У Google будут более релевантные результаты поиска, у GE будет улучшенная телеметрия, а у Vodafone — более качественный анализ паттернов в телефонных звонках и планирование сети. Google становится лучше в своей нише, но это не значит, что компания каким-то образом становится лучше во всем.

Но здесь опять все сложнее: есть много разных интересных вопросов о том, кто именно владеет данными, насколько они уникальны, на каких уровнях они уникальны, и где может быть правильная точка агрегации и анализа. Далее, отталкиваясь от этого, можно утверждать, что крупные компании в каждой отрасли становятся сильнее: у Vodafone, GE и Amex есть «все данные» в их сфере, и это мешает свободной конкуренции.

Покупаете ли вы готовый продукт, который уже обучен на основе данных других компаний? К примеру: будучи промышленной компанией, храните ли вы свои собственные данные и создаете ли системы машинного обучения для их анализа или же платите подрядчику, делающему это за вас? Нужны ли вообще поставщику ваши данные, или имеющихся данных уже достаточно? Добавляете ли вы свои данные к ним или к алгоритмам, основанным на них? Ответы будут отличаться в разных частях вашего бизнеса, в разных отраслях и для разных вариантов использования.

Если вы создаете компанию, чтобы решать реальные проблемы с помощью машинного обучения, существуют два основных вопроса касательно данных: откуда взять первичные данные для обучения моделей, чтобы получить первого клиента, и сколько данных на самом деле нужно? Взглянем на это с другой стороны.

И если это так, то есть ли сетевой эффект, приносящий выгоду? Конечно, второй вопрос разбивается на множество других: решается ли проблема при помощи относительно небольшого объема данных, которые вы можете довольно легко получить (но и многие конкуренты тоже могут), или вам нужно гораздо больше данных, которые получить трудно? Обязательно ли продукт становится лучше с большим количеством данных, или имеет место S-образная кривая? Наблюдается ли динамика, при которой победитель получает все?

Когда как.

  • Некоторые данные уникальны для бизнеса или продукта или дают сильное специализированное преимущество. Телеметрия двигателей GE может быть не очень полезна для анализа двигателей Rolls Royce, но если бы она была полезна, компания не стала бы делиться этими данными. Это может быть как возможностью для создания нового бизнеса, так и местом, где разворачивается множество внутренних ИТ-проектов крупных компаний и подрядчиков.
  • Некоторые данные будут применяться в довольно общих сценариях, которые возникают во многих компаниях или даже во многих отраслях. «В этом запросе есть что-то странное» — такой диагноз могут поставить некой операции практически все компании-эмитенты кредитных карт. Вывод «клиент, кажется, сердит» может быть сформулирован применительно к работе любой компании, у которой есть колл-центр. Множество компаний создаются для решения проблем во многих других компаниях или даже в различных отраслях, и здесь имеет место сетевой эффект.
  • Но также будут случаи, когда после определенного момента продавцу даже не понадобятся данные каждого следующего клиента — продукт и так уже работает.

Наша портфельная компания Everlaw производит программное обеспечение для анализа юридической информации: если вы предъявляете кому-то иск, а вам присылают в ответ кипу бумаг, программа помогает ее обобщить. На практике, поскольку машинное обучение распространяется практически на все, один стартап может взять несколько направлений.

И наоборот, можно выполнять кластерный анализ («покажите письма, которые примерно одинаковы с этим») ваших конкретных данных, не выходя за пределы вашего кейса. Благодаря машинному обучению можно проанализировать эмоциональный тон миллиона электронных писем («покажите тревожные письма»), не обучая эту модель на основе ваших конкретных данных, потому что примеры настроений не обязательно должны исходить из конкретного иска (или любого другого иска).

Система обучается на данных (много-много признаков спущенных и не спущенных шин), конечно, но эти данные несложно получить. Я недавно разговаривал с производителем очень больших автомобилей, который использует машинное обучение, чтобы получить более точный детектор спущенных шин.

Но это только технические вопросы. Как я сказал ранее, перед стартапом, занимающимся машинным обучением, стоят два вопроса: как получить данные, и сколько их нужно? То есть довольно скоро не будет никаких «стартапов», которые занимаются искусственным интеллектом вообще — это будут компании, занимающиеся конкретно анализом промышленных процессов, или юридические платформы, или компании по оптимизации продаж. Также нужно решить, как выходить на рынок, определить целевой рынок, понять, насколько ценна для клиентов проблема, которую вы решаете — и так далее, и так далее.

Распространение машинного обучения означает не только, что Google становится сильнее, но и то, что различные стартапы могут создавать продукты с помощью этой передовой науки гораздо быстрее, чем раньше.

Если вы им не пользуетесь, как это делают ваши конкуренты, вы будете отставать. Машинное обучение — это важный структурный элемент, который делает возможными новые и важные вещи, и который будет везде, как сегодня базы данных на основе SQL. Но сегодня, если вы начинаете вести розничную торговлю и говорите «…и мы будем использовать базы данных», это не делает ваш бизнес выдающимся и интересным — SQL проник повсюду, а затем растворился в бизнесе. Некоторые люди будут создавать совершенно новые компании — частично успех Walmart объясняется использованием баз данных для более эффективного управления запасами и логистикой. То же самое произойдет с машинным обучением.

Статьи по теме:

#машинноеобучение #искусственныйинтеллект

Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть