Главная » Хабрахабр » [Перевод] Призраки в Юникоде

[Перевод] Призраки в Юникоде

В 1978 году Министерство экономики, торговли и промышленности Японии установило кодировку, которую позже назовут JIS X 0208. Она до сих пор является основой всех японских кодировок. Но после выхода стандарта JIS люди заметили нечто странное: некоторые из добавленных символов не имели очевидных источников. Никто не мог сказать, что они означают и как их произносить. Никто не был уверен, откуда они появились. Эти символы теперь известны как призраки (幽霊文字).

via NDL
Долгое время символы-призраки оставались необъяснимым и практически забытым курьёзом, но в 1997 году началось расследование их происхождения.
Будьте осторожны с тем, что вы пишете. Хотя для всех символов в стандарте JIS должен быть указан источник, но даже в случае наличия такой записи она не очень конкретна: обычно просто указан документ, откуда получен символ.

Но важно уточнить, что одним из наиболее распространённых «источников2 для призраков был «Обзор национальных административных районов» (国土行政区画総覧), полный список всех японских топонимов. Вы можете подумать, что название облегчит поиск происхождения символов. Но нет, последнее издание справочника — это семитомник, в каждом из которых примерно девятьсот страниц. Как и я поначалу предполагал, вы можете представить своего рода атлас, небольшую книгу с несколькими сотнями страниц. Представьте себе поиск одного символа без ссылки на страницу.

Исследователи опросили каталогизаторов, участвовавших в создании стандарта, и выяснили, что некоторые символы случайно изобретены как ошибки в процессе каталогизации. Несмотря на трудности, расследование символов-призраков поиск происхождения символов оказался успешном — в основном. Данная фраза встречается в названии определённого места и, таким образом, подходила для включения в стандарт JIS, но поскольку тогда ещё невозможно было напечатать целый составной символ, каталогизаторы напечатали 山 и 女 по отдельности, вырезали их и состыковали на листе бумаги. Например, 妛 — это ошибка, возникшая при попытке записать «山 над 女». Корректный символ () добавили в JIS и Юникод гораздо позже — и он до сих пор не отображается на большинстве сайтов. Но при копировании место стыка двух маленьких кусочков бумаги выглядело как чёрточка — и её по ошибке добавили к символу.


Основные символы-призраки: 妛挧暃椦槞蟐袮閠駲墸壥彁

Наиболее вероятное объяснение, что он создан как неправильное прочтение символа 彊, но не удалось обнаружить ни одного конкретного инцидента. В итоге только для одного символа не нашли ни точного источника, ни какого-либо исторического прецедента: это символ 彁.

После общего принятия стандарта JIS все эти символы попали в Юникод, у которого а так был собственный отдельный набор символов-призраков со времён унификации CJK.

Ошибки оставались незамеченными достаточно долго, чтобы символы укоренились в стандарте, так что теперь эти призраки, по крайней мере, теоретически, проникли в каждый компьютер на планете, скрываясь в тёмных углах таблиц символов. Подводя итог: в 1978 году в результате серии мелких ошибок несколько символов появились из ниоткуда.

Ψ Вполне вероятно, что они останутся с человечеством навсегда.

Справочные материалы / ссылки:


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Сегодня MIPS стал Open Source, против RISC/V и ARM. Как Россия повлияла на стратегию американской процессорной компании

То, о чем говорили сторонники Open Source с 1980-х — свершилось! Сегодня архитектура процессоров MIPS стала Open Source. Учитывая, что такие компании как Broadcom, Cavium, китайский ICT и Ingenic платили MIPS за архитектурную лицензию (право сделать совместимую по системе команд ...

Вышла новая версия Unity 2018.3

Вышла новая версия Unity, которая уже доступна для пользователей. Unity 2018.3 содержит более 2000 новых функций, исправлений и улучшений, включая улучшенный воркфлоу префабов, Visual Effect Graph (Preview) и обновленную систему Terrain, которые дают разработчикам возможность повысить производительность и создавать многогранные ...