Главная » Хабрахабр » [Перевод] Призраки в Юникоде

[Перевод] Призраки в Юникоде

В 1978 году Министерство экономики, торговли и промышленности Японии установило кодировку, которую позже назовут JIS X 0208. Она до сих пор является основой всех японских кодировок. Но после выхода стандарта JIS люди заметили нечто странное: некоторые из добавленных символов не имели очевидных источников. Никто не мог сказать, что они означают и как их произносить. Никто не был уверен, откуда они появились. Эти символы теперь известны как призраки (幽霊文字).

via NDL
Долгое время символы-призраки оставались необъяснимым и практически забытым курьёзом, но в 1997 году началось расследование их происхождения.
Будьте осторожны с тем, что вы пишете. Хотя для всех символов в стандарте JIS должен быть указан источник, но даже в случае наличия такой записи она не очень конкретна: обычно просто указан документ, откуда получен символ.

Но важно уточнить, что одним из наиболее распространённых «источников2 для призраков был «Обзор национальных административных районов» (国土行政区画総覧), полный список всех японских топонимов. Вы можете подумать, что название облегчит поиск происхождения символов. Но нет, последнее издание справочника — это семитомник, в каждом из которых примерно девятьсот страниц. Как и я поначалу предполагал, вы можете представить своего рода атлас, небольшую книгу с несколькими сотнями страниц. Представьте себе поиск одного символа без ссылки на страницу.

Исследователи опросили каталогизаторов, участвовавших в создании стандарта, и выяснили, что некоторые символы случайно изобретены как ошибки в процессе каталогизации. Несмотря на трудности, расследование символов-призраков поиск происхождения символов оказался успешном — в основном. Данная фраза встречается в названии определённого места и, таким образом, подходила для включения в стандарт JIS, но поскольку тогда ещё невозможно было напечатать целый составной символ, каталогизаторы напечатали 山 и 女 по отдельности, вырезали их и состыковали на листе бумаги. Например, 妛 — это ошибка, возникшая при попытке записать «山 над 女». Корректный символ () добавили в JIS и Юникод гораздо позже — и он до сих пор не отображается на большинстве сайтов. Но при копировании место стыка двух маленьких кусочков бумаги выглядело как чёрточка — и её по ошибке добавили к символу.


Основные символы-призраки: 妛挧暃椦槞蟐袮閠駲墸壥彁

Наиболее вероятное объяснение, что он создан как неправильное прочтение символа 彊, но не удалось обнаружить ни одного конкретного инцидента. В итоге только для одного символа не нашли ни точного источника, ни какого-либо исторического прецедента: это символ 彁.

После общего принятия стандарта JIS все эти символы попали в Юникод, у которого а так был собственный отдельный набор символов-призраков со времён унификации CJK.

Ошибки оставались незамеченными достаточно долго, чтобы символы укоренились в стандарте, так что теперь эти призраки, по крайней мере, теоретически, проникли в каждый компьютер на планете, скрываясь в тёмных углах таблиц символов. Подводя итог: в 1978 году в результате серии мелких ошибок несколько символов появились из ниоткуда.

Ψ Вполне вероятно, что они останутся с человечеством навсегда.

Справочные материалы / ссылки:


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

KDD 2018, день второй, семинары

Побывал на двух таких тусовках. Сегодня на KDD 2018 день семинаров — вместе с большой конференцией, которая начнется завтра, несколько групп собрали слушателей по некоторым специфичным темам. Анализ временных рядов С утра хотел пойти на семинар по анализу графов, но ...

Zabbix на стероидах: как устроена единая платформа мониторинга Сбертеха

Привет, Хабр! Меня зовут Сергей Прутских, я руковожу направлением мониторинга компании «Сбербанк-Технологии». Основная задача нашей организации — разработка и тестирование программных продуктов для Сбербанка. Для этого в компании сосредоточена крупная ИТ-инфраструктура — 15 тысяч серверов разделены примерно на 1500 тестовых ...