Книга о «Параграфе» на Хабре. Глава о хренятинах, распознавании и высадке в Америке
Продолжаю делиться с вами главами книги о «Параграфе» — первом стартапе из России, покорившем мир.
После предыдущей публикации на «Хабре» прошло порядочно времени — почти два месяца. Тут я видимо должен извиниться. В качестве оправдания скажу, что для меня главное — работа над книгой. Публикация — пока что второстепенна. Выкладываю, только когда остается время после работы над рукописью.
Кроме того, за это время произошло еще одно важное событие: у книги появилось финальное название: «Пионеры Кремниевой долины». За эти два месяца я написал еще пару глав, увеличив объем черновика до 230 тысяч знаков (из целевых 400 тысяч).
Но — к делу.
Сегодня я хочу поделиться главой, которая, как я надеюсь, должна особенна заинтересовать читателей «Хабра». Ведь в ней рассказывается о принципе работе распознавателя рукописного текста, созданного «Параграфом».
Ну и есть экшн — наши герои впервые попадают в Америку, и на авансцене появляются агенты ФБР.
Ссылки на скачивания придут в приветственном письме. Напоследок напомню, что можно получить все 11 готовых глав книги, просто подписавшись на рассылку.
Жду отзывов и комментариев. Конструктивная критика поможет сделать книгу лучше.
Поехали!
Восемь хренятин
«Скажите, где тут можно получить политическое убежище?» — первым делом спросил Пачиков, когда самолет приземлился в США.
Вопрос был задан по-русски и обращен к представителю советской авиакомпании, который стоял у люка и провожал пассажиров, покидающих самолет.
Когда-то за такую шутку в адрес официального лица гражданина СССР ждали бы большие неприятности.
Желание жить в какой-то другой стране считалось предательством родины. Скорее всего, он бы попал под колпак КГБ, и его постарались бы побыстрее вернуть домой, где шутника вполне могли осудить за покушение на госизмену.
В менее кровавые времена остряка как минимум навсегда лишили бы возможности выезжать за рубеж.
Теперь можно было говорить все что угодно — и никого это по большому счету уже не интересовало. За время Перестройки, впрочем, многое изменилось. Услышав провокационный вопрос, сотрудник авиакомпании только оскалился: «Вам там покажут».
Дела в «Параграфе» шли как нельзя лучше. У Степана Пачикова имелись все основания для того, чтобы ступать на американскую землю в приподнятом настроении и шутить с бортпроводниками.
Международный статус, новая техника, валюта от американского партнера Скотта Клососки вкупе с поддержкой Академии Наук и неуемной энергией основателя предприятия — все это позволило привлечь к сотрудничеству новых разработчиков.
И утилиту для склеивания сканированных изображений до полноценного офисного пакета. Чего только не продавало это единственное в СССР софтверное «эспэ». И шахматную базу данных. И программу, которая предсказывала исход американских выборов. И программу для обучения русскому как иностранному. И систему психологического самоанализа. И электронный компьютерный журнал… И несколько компьютерных игр собственного сочинения.
Но по мере развития бизнеса все больше и больше программ дорабатывалось до ума под крышей «Параграфа». Какие-то разработки родились на свет без участия Пачикова — эспэ просто взяло их на продажу. Какие-то решения и вовсе именно в «Параграфе» проходили путь от голой идеи до готового продукта.
Впрочем, большая часть этих разработок особых денег не приносила, хотя и позволяла затащить в параграфские сети передовых программистов и ученых.
Финансовое благополучие предприятия держалось всего на трех продуктах — русификаторе Чижова, офисном пакете Веселова, а также комплекте русских шрифтов, разработанных в «Параграфе» под руководством Андрея Скалдина (впоследствии он отделится и создаст «Паратайп» — одно из самых известных шрифтовых бюро).
Кроме того, команда постигала азы продуктового маркетинга, объединяя набор разрозненных решений в программные пакеты. Новый статус помог «Параграфу» наладить более-менее регулярные продажи программ в различные госучреждения.
В то время никто в мире даже не покушался на распознавание слитного рукописного текста. Еще больше повода для оптимизма давала Пачикову затея с распознаванием рукописного текста.
Сами того не зная, участники «Параграфа» взялись за одну из сложнейших задач в области искусственного интеллекта. Амбиции других команд, работавших в этой области, не шли дальше распознавания печатных букв — или букв, написанных от руки, но раздельно.
Однако его ученикам Леониду Кузнецову и Григорию Дзюбе потребовалась всего пара месяцев, чтобы сделать работающий прототип распознавателя. Никто в «Параграфе» не знал, оправдаются ли расчеты ученого Шели Губермана, который сформулировал принципы распознавания в теоретической статье, опубликованной еще в семидесятых.
Между собой для простоты и за отсутствием более подходящего термина эти элементы в «Параграфе» стали называть хренятинами (на математическом языке они назывались XR-элементы). Каждую букву программа разделяла на отдельные элементы — кружочки, палочки, петельки.
В прототипе использовалось восемь хренятин, с помощью которых авторы умудрились описать все тридцать три буквы русского алфавита.
В результате получалось несколько наиболее вероятных наборов хренятин. Алгоритм высчитывал степень похожести каждого элемента на ту или иную хренятину, принимая во внимание их последовательность.
В итоге выбирался наиболее похожий вариант, после чего распознаватель переходил к следующей букве — и следующему набору хренятин. Затем программа сравнивала каждую из этих последовательностей со своей базой идеальных букв, описанных в наборах «эталонных» хренятин.
Как только распознавателю попадалось слово, написанное посторонним человеком, он выдавал абракадабру. К немалому удивлению самих разработчиков, программа иногда вполне сносно распознавала отдельные слова — правда только если их писали сами авторы программы.
К совершенствованию программы подключился Илья Лосев, который работал в Институте проблем передачи информации Академии Наук, где занимался фундаментальными научными исследованиями, связанными с машинными интеллектом.
Кроме того, при курсиве какие-то элементы письма могут выглядеть почти нечитаемыми, а значит, распознаватель должен уметь «догадываться» о наличии непрописанной хренятины. Лосев предложил доработать алгоритм, научив его сравнивать наборы хренятин разной длины — ведь лучший набор из трех хренятин может оказаться «хуже» лучшего набора из пяти (то есть менее похожим на эталон).
При этом иногда набор из пяти хренятин даже со штрафом за пропуск набирал больше «баллов» чем набор из четырех точно идентифицированных хренятин. На практике это достигалось с помощью «пропусков», за которые алгоритм платил «штрафы».
Чтобы повысить точность распознавания, алгоритм начал проверять, какие буквы могут следовать за уже идентифицированными — это значительно сокращало число вариантов. Еще одним важным шагом стало подключение словаря.
Конечно, при таком подходе многое зависело от точности идентификации первой буквы — поэтому для нее алгоритм перебирал несколько вариантов и их ответвлений.
Вскоре счет пошел на десятки… Наконец, по мере работы над программой стало очевидно, что восьми хренятин недостаточно — стали добавлять новые.
Чтобы воплотить его в коде, к проекту подключили молодого, но одаренного программиста Александра Пашинцева, который познакомился с основателями фирмы еще во времена детского компьютерного клуба. С каждым шагом алгоритм становился все более сложным.
Так сложился костяк команды, которая работала над распознавателем: Губерман, Кузнецов, Дзюба, Лосев, Пашинцев…
Однако Пачиков довольно быстро понял, что эта идея оторвана от реальности и не выгорит. Все их достижения, видимо, оказались бы напрасными, если бы компания следовала своей первоначальной идее и пыталась создать обучающую детскую программу.
К счастью, в то же время он выяснил, что технология распознавания и сама по себе имеет неплохой коммерческий потенциал.
0 и организатором популярных конференций для разработчиков. В свое время благодаря клубу «Компьютер» Пачиков познакомился с Эстер Дайсон, американским журналистом, автором технологического ньюзлеттера Release 1.
Она даже лично приезжала в Москву, чтобы посмотреть на все своими глазами. Эстер внимательно следила за изменениями в компьютерной индустрии, которые происходили в Восточной Европе в результате тектонических сдвигов в политике.
Завязалось знакомство, и когда директор клуба основал собственную софтверную компанию, Эстер пригласила его выступить на конференции The East-West High-Tech Forum в Будапеште. Разумеется, Дайсон не могла избежать посещения единственного в советской столице детского компьютерного клуба, который открыл Пачиков.
Пачиков следил за трендами, читая западные компьютерные журналы, но только на этой конференции понял, что упустил из виду самый, может быть, главный.
И на сцене, и в кулуарах все только и говорили что о новой эре, которая должна была вот-вот наступить благодаря появлению pen computers — компьютеров с электронной ручкой вместо клавиатуры.
Энтузиасты верили, что они произведут революцию на рынке, сделав компьютеры более похожими на обычные блокноты, а значит и более понятными для простого человека.
В то время считалось, что идеальным переносным компьютерам требовался интерфейс ввода, который бы совмещал преимущества двух типов данных — аналогового и цифрового. До изобретения тачскрина и айфона оставалось еще больше пятнадцати лет.
В аналоговом пользователям было бы удобнее вводить информацию — то есть писать от руки, как в обычном блокноте — но полноценный компьютер должен был уметь хранить и обрабатывать введенную информацию в цифровом виде.
Загвоздка состояла в том, что пока еще не существовало решения, которое позволяло бы распознавать человеческие каракули и переводить их в понятные компьютеру символы.
Именно над таким решением и работала пока еще никому не известная советская компания «Параграф».
То есть, основываясь на совершенно ошибочных предположениях, Степан Пачиков и команда сами того не зная взялись за создание технологии, которая могла стать ключом к новой многомиллиардной индустрии.
В современном атласе достижения успеха удача остается спорной территорией. Одни полностью отрицают удачу и любят цитировать одного из отцов-основателей США Томаса Джефферсона: «Чем больше я работаю, тем удачливее становлюсь».
«Очень сложно распознать удачу — часто она выглядит точно как то, что ты заслужил», — говорил американский конгрессмен Франк Кларк. Другие, более скромные мыслители, отдают удаче должное — так же как и всем, кто пахал всю свою жизнь, но так и не стал миллионером.
И фортуна, кажется, не собиралась покидать своего нового фаворита. Степан Пачиков мог считать себя счастливчиком хотя бы за то, что он получил возможность делать бизнес в СССР — совместное предприятие «Параграф» появился на свет благодаря не только его энергии, но и капризу судьбы.
В марте 1990 года делегация «Параграфа» — Пачиков, Чижов, Лосев, Скалдин — отправилась в Ганновер на крупную отраслевую выставку «Цебит», чтобы заявить о себе и показать всю обширную линейку своих программных продуктов, включая прототип распознавателя.
Но так вышло, что она оказалась за рубежом в самое подходящее время, какое только можно было выбрать. Команда советского стартапа начала покорять западный мир, как только появилась возможность.
За пять лет у власти Михаила Горбачева внешняя политика СССР сделала поворот на сто восемьдесят градусов.
Из Афганистана выведены советские войска. Холодная война с Западом официально была закончена. Варшавский блок распущен, а страны Восточной Европы получили право самостоятельно выбирать свою дорогу, не оглядываясь на Москву. Берлинская стена разрушена.
Все советское вызывало любопытство. Разумеется, преображение СССР из опасного и зловещего врага в великодушного, хоть и экзотического и несколько наивного друга западный мир воспринял на ура. Многие люди на Западе с удивлением обнаружили для себя, что в стране коммунистов тоже живут люди — и некоторые из них вполне нормальные.
На стенде они стояли ряженые то ли в арестантов, то ли в солдат стройбата — в ватниках, подпоясанных советскими армейскими ремнями со звездой на бляхе. Команда «Параграфа» беззастенчиво эксплуатировала этот интерес.
Но, кажется, тогда советским посланцам в цивилизованном мире готовы были простить еще и не такой цирк. Позже Пачиков будет говорить, что ему стыдно за то, как они себя вели — и, был бы он поумнее, таких выходок бы себе не позволял.
Отработав на выставке, команда «Параграфа» взяла в аренду минивэн и отправилась в путешествие по Германии, чтобы своими глазами увидеть незнакомый им, свободный, мир.
Перейдя в Западную часть, прогуляли там всю ночь — вместе с толпами местных жителей, которые до сих пор пребывали в эйфории и праздновали уже неминуемо надвигающееся воссоединение Германии. Доехав до Берлина, пошли собирать камни от разрушенной стены.
По мере того, как веселье становилось все более безудержным, под ногами росла гора мусора — бумажки, бутылки, окурки… Рано утром на берлинских тротуарах показались уборочные машинки, которые быстро устранили все последствия ночных гулянок.
Жители СССР привыкли считать так: в жизни бывает либо одно, либо другое. На советских граждан такое сочетание свободы, с одной стороны, и порядка, с другой, произвело сильное впечатление.
Но было ясно, что для настоящего прорыва «Параграфу» надо ехать в Америку, где работали крупнейшие компьютерные фирмы. Впервые показать себя в Европе — уже было немало.
И вот спустя пару месяцев — в июне 1990 года — делегация «Параграфа» высадилась в США, чтобы показать бета-версию распознавателя на крупнейшей международной компьютерной выставке «Комдекс».
Как раз незадолго до «Комдекса» состоялся первый визит Михаил Горбачева в США. В Штатах эйфории из-за окончания холодной войны была не меньше, чем в Европе. Советский президент был на пике своей мировой популярности — и в полушаге от получения Нобелевской премии.
Американский бизнес тем временем делал свои первые шаги по освоению нового, неведомого, но интригующего рынка — в самой Москве к тому моменту уже открылся первый «Макдоналдс».
За бигмаками и картошкой фри выстраивались многочасовые очереди советских граждан, желающих попробовать диковинные блюда, придуманные в стране бывшего потенциального противника.
Впрочем, несмотря на формальное окончание холодной войны, те, кому это положено, сохраняли бдительность: пока команда «Параграфа» в Москве налаживала продажи софта и возилась со своими хренятинами, американскому со-основателю фирмы Скотту Клососки у себя в Оклахоме пришлось объясняться с ФБР.
Однажды два агента нагрянули к предпринимателю в офис и попросили проехать с ними. Они отвезли его в мотель, завели в номер и усадили за стол. Один из агентов выложил на стол пистолет — то ли чтобы удобнее было сидеть, то ли чтобы собеседник понял всю серьезность своего положения.
После этого они принялись допрашивать его об обстоятельствах поездки в СССР и дальнейшем сотрудничестве с коммунистами.
Тем более что его пока ни в чем не обвиняли. Несмотря на угрожающую мизансцену, Скотт не сильно испугался — он был уверен, что не сделал ничего противозаконного, и поэтому даже не подумал об адвокате.
Часть беседы была посвящена ликбезу: как стоит вести себя с русскими, чтобы не попасть в неприятности. Скорее даже наоборот: агенты ФБР говорили, что хотят его защитить.
Именно через них, предостерегали агенты, к нему и попробует добраться КГБ. Прежде всего следовало избегать отношений с русскими женщинами — каким бы невыносимо сложным ни казался такой бесчеловечный запрет.
Скотт и сам понимал, что в СССР нужно быть предельно осторожным, поэтому поблагодарил за совет.
Покинув номер после многочасового допроса — не последнего за время сотрудничества с коммунистами — Скотт не только вышел из сумрака дешевого мотеля на божий свет, он вернулся из мира подозрительности и вражды в новый, пусть и иллюзорный, но столь чарующий мир международного сотрудничества.
На волне «горбомании» первая советская компьютерная фирма, оказавшаяся на «Комдексе», была обречена на успех.
Все оборудование для стенда отправили службой доставки, и она его потеряла. Команда «Параграфа» почувствовала поддержку американцев, едва только приехала на выставку. В итоге технику для стенда собирали всем миром — многие американцы хотели помочь советской фирме.
К счастью, сами программы, необходимые для демонстрации, сотрудники компании привезли в личном багаже на дискетах.
Пачиков отвечал, что в теории — да, а на практике — пока нет. Многие спрашивали, можно ли их технологию распознавания «Параграфа» использовать для текста, введенного с помощью пера.
Цифровая ручка была игрушкой не только очень дорогой, но и дефицитной. Потому что нет у них электронной ручки, чтобы заняться этим направлением. Все, чем располагал «Параграф» в Москве, это был ручной сканер, подаренный одним из гостей компьютерного клуба — представителем фирмы «Лоджитек».
Значение этого дара сложно было переоценить: благодаря такому подарку «Параграф» мог теперь заняться адаптацией своей технологии к новому перспективному рынку. Не требуя ничего взамен, советским программистам теперь подарили и перо.
Оно содержало информацию о движении руки во времени — и тем самым позволяло точнее идентифицировать хренятины. В отличие от сканера, перо оперировало не статичным, а динамичным изображением.
Об интервью попросил даже новостной канал CNN. Вокруг стенда «Параграфа» постоянно крутились журналисты — первое в истории «Комдекса» советско-американское совместное предприятие было событием для выставки.
Возможно, это было чистой случайностью, но Пачиков предположил, что его компаньон опасался за плохой английский партнера. Это, впрочем, привело к первым разногласиям между партнерами совместного предприятия.
Скотт устроил все так, что съемочная группа появилась у стенда, когда Степана там не было.
Нельзя было исключить, что им также двигало и вполне объяснимое желание оказаться на авансцене и использовать этот шанс для личного продвижения.
«Да, жаль, я как раз хотел рассказать, как компьютеры уничтожили коммунизм», — сказал Степан. Когда Пачиков вернулся к стенду «Параграфа», съемочная группа уже паковала оборудование.
«Жаль, мы уже закончили», — сказал репортер из вежливости, продолжая собирать вещи.
Они снова поставили камеру, свет и записали интервью с Пачиковым. Репортер тут же дал коллегам сигнал распаковываться. Степан выдал свою любимую речь о том, что авторитаризм невозможен без контроля за информацией, а распространение персональных компьютеров лишили власть СССР такого контроля.
В 1986 году он даже написал статью-обращение к американскому президенту Рональду Рейгану, в котором призывал отменить ограничения на поставки техники в СССР. Эту идею основатель «Параграфа» продвигал еще с самого начала Перестройки.
Американец, впрочем, вместе с письмом взял семьсот долларов, чтобы открыть счет в США на имя одного из знакомых Степана. Пачиков даже пытался опубликовать статью на Западе, передав ее за границу через знакомого американца, который часто приезжал в Москву.
Судьба и денег, и письма остались Пачикову неизвестными. Советские граждане слабо представляли, как устроена западная банковская система, и поэтому думали, что с такой операцией не будет никаких сложностей. Больше он этого американца не видел.
Речь о Рейгане, персональных компьютерах и контроле за информацией хорошо вписывалась в текущую новостную повестку — в ходе своего визита в США Горбачеву как раз удалось добиться от Рейгана смягчения ограничений, наложенных на экспорт технологий в СССР.
В общем, CNN не просто упомянуло «Параграф» в репортаже о выставке или выдало одну-две цитаты — телеканал выпустил об американско-советской фирме десятиминутый сюжет.
Он должен был бы догадаться, что в сложившейся обстановке не стоило прятать от журналистов советского партнера. После этого Пачиков задумался о том, что Скотт все-таки еще слишком молод.
Учитывая обстановку, ход вышел эффектный и привлекал внимание. Клососки и сам отдавал должное маркетинговой находчивости партнера — тот, например, придумал штамповать на советских банкнотах контактные данные фирмы и раздавать рубли в качестве визиток.
Послушав, как Клососки дает интервью, Пачиков спросил с обидой: «Скотт, а почему ты все время называешь наши разработки самоварными?»... Опасения Скотта за английский Степана тоже имели под собой основания.
Американец даже сначала не понял, о чем идет речь. «Ну ты все время говоришь: samovar-technology, samovar-technology…» — объяснил Степан. На самом деле Скотт говорил some of our technologies — «некоторые из наших технологий».
Несмотря на проблемы с коммуникациями, и Скотт, и Степан оставались довольны друг другом, прекрасно понимая, что их встреча была большой удачей для обоих предпринимателей.
Внимание прессы, интервью на крупнейших телеканалах, первые контакты с влиятельными компьютерными фирмами, да и сама Америка с ее магазинами, полными товаров в красочных упаковках, стремительными хайвеями и людьми совершенно разных национальностей — все эти новые впечатления, разумеется, будоражили воображение не слишком искушенных советских ученых.
Однако что делать дальше и как перейти от разговоров к реальным контрактам — как построить тут бизнес на разработке и продаже высоко интеллектуального продукта?
Все это команде «Параграфа» еще только предстояло выяснить. Этого не знал ни Скотт Клососки, простой торговец из Оклахомы, ни тем более Степан Пачиков, вчерашний старший научный сотрудник Академии Наук СССР.
Все готовые главы: Пионеры Кремниевой долины.
«Погоди-ка», — сказал Мжаванадзе
Глава 2. Глава 1. Компьютерные человечки
Глава 4. Ученый-вахтер
Глава 3. «Можем решить любую задачу»
Глава 6. Бета
Глава 5. Восемь хренятин
Глава 8. Дикий Восток
→ Глава 7. Арматура в гусеницы
Глава 10. Я — морж
Глава 9. Язык D Американец
Глава 11.Получить все главы и подписаться на новые