Топ-100 Что такое кодировка и как выбрать правильную - Разработка сайтов на WordPress
Что такое кодировка и как выбрать правильную

Когда кириллица становится “абракадаброй” …

Вы когда-нибудь встречали страницу с непонятными символами (например, � 筠 � 戟 龜 克), которые должны быть кириллицей? Эта проблема связана с различными кодировками, используемыми автором страницы и вашим браузером соответственно. Часто, вы все равно можете прочитать страницу, если вручную измените кодировку страницы – выберите в меню «Вид» в браузере, затем кодировку и, наконец, опробуйте все типы кодирования, которые можно использовать в кириллице, такие как Windows-1251 и UTF-8, пока вы не получите правильный результат. Вам наверняка захочется сохранить посетителей вашего сайта в этом меню. В этом случае, рекомендуется использовать правильную кодировку для ваших страниц.

 

Кодировка – переводчик между людьми и компьютерами

Проблема с кодированием начинается с того, как люди и компьютеры воспринимают графические символы, такие как буквы и цифры. Компьютеры могут обрабатывать только цифры, и для каждого символа – «a», «5» или «$» представлены определенным кодовым номером.

Кодировка – это просто указание того, какой номер (код) соответствует символу. Поэтому, когда вы набираете, например, электронное письмо с клавиатуры, на экране появляются буквы, но они сохраняются в виде строки цифр в памяти компьютера. Например, сообщение Hello! соответствует следующему коду ASCII: 72 101 108 108 111 33

Эти цифры будут использоваться, например, когда вы отправите письмо онлайн другу. Его компьютер снова будет использовать кодирование, но на этот раз в обратном направлении, и превратит строку чисел (кодов) в читаемые человеком символы. Проблема начинается, когда оба компьютера используют разные кодировки, и один и тот же код соответствует совершенно разным символам. Чтобы избежать этой проблемы, необходимо выровнять кодирование и ввести некоторый стандарт.

ASCII – стандартная кодировка, но только на латыни

Один из самых старых стандартов для такого представления графических символов с номерами называется ASCII – американский стандартный код для обмена информацией и логически отражает потребности англоговорящих людей, которые его создали. В ASCII есть 128 кодов, которые соответствуют номерам 0-9, строчным и заглавным буквам английского алфавита и некоторым часто используемым символам, таким как «+», «-», «,», «%». Эти 128 символов могут быть закодированы 7 битами (2 ^ 7 = 128), но компьютеры обычно обрабатывают байты с 1 байтом, содержащим 8 битов, и поэтому могут кодировать 256 символов. Это означает, что половина потенциала ASCII не была использована.

Наконец-то стандарт для кириллицы, но …

Именно эти оставшиеся 128 символов начинают использоваться людьми за пределами англоязычного мира для включения таких символов, как кириллица, не указанных в ASCII. Поскольку этот процесс хаотичен, и разные люди указывают разные символы для соответствия 129-256, у нас сегодня так много кодировок. Это причина того, что один и тот же код соответствует совершенно разным символам в разных кодировках, и логически, когда компьютер отображает сообщение, используя другую кодировку для записи сообщения, получается непонятный беспорядок.

Обратите внимание, что почти все кодировки на основе ASCII сохраняют первые 128 символов. Это означает, что сообщение, написанное на латыни, имеет большие шансы прибыть в понятной форме, даже если кодировка несовместима (вам никогда не удавалось прочитать письмо, написанное на латыни?). Тем не менее, пользователи кириллицы не могут сэкономить на определении правильной кодировки.

От хаоса к единству в многообразии: UTF-8

В попытке отразить этот хаос была введена кодировка UTF-8, которая использует от 1 до 4 байтов и, следовательно, может кодировать миллионы символов – вполне достаточно для большинства языков, включая те, которые используют большое количество символов (китайский, японский, корейский язык). UTF-8 постепенно становится более востребованным и в настоящее время перемещает ASCII с позиции наиболее популярного кодирования. Современные интернет-стандарты требуют поддержки UTF-8, и это относится как к веб-страницам, так и к сообщениям электронной почты.

Как указать кодировку в HTML

Чтобы страницы были доступны для чтения всем посетителям, необходимо указать кодировку, использованную при их написании. Это делается в разделе заголовка HTML-документа следующим образом:

<mеta http-equiv = "Content-Type" content = "text / html; charset = Windows-1251" />

Вместо «Windows-1251» укажите фактическую кодировку, которую вы использовали. Если вы написали страницу в Word, ваш текст, скорее всего, был закодирован точно так же, как Windows-1251.

Смена кодировки в Word

С растущей поддержкой UTF-8, а также возможностью использовать любой язык и символы на вашем сайте, все больше и больше людей выбирают UTF-8 в качестве кодировки для своих сайтов. Вы можете изменить кодировку файла Word в UTF-8 следующим образом:

  • В Word для Windows -> в меню ИНСТРУМЕНТЫ выберите ОПЦИИ
  • В Word 2001 или более ранней версии -> в меню ФАЙЛ выберите ОПЦИИ
  • Для Word X и 2004 -> в меню WORD выберите ОПЦИИ

Следующие шаги одинаковы для Mac и Windows.

На вкладке ОБЩИЕ выберите ПАРАМЕТРЫ WEB
Нажмите на ENCODING и выберите UTF-8 из выпадающего меню.
Если вы хотите сохранить все последующие страницы в этой кодировке, выберите ВСЕГДА СОХРАНИТЬ ВЕБ-СТРАНИЦЫ В КОДЕКЕ ПО УМОЛЧАНИЮ.
Нажмите ОК.

Другие текстовые редакторы также обычно имеют опции для изменения кодировки, но их место в меню может немного отличаться.

Я надеюсь, что после прочтения у вас не возникнет проблем с использованием правильной кодировки для ваших страниц, и ваши сообщения будут беспрепятственно доходить до посетителей вашего сайта. Успехов!

Акция! Сайт + логотип + продвижение всего за 29000!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Получить предложение

Pin It on Pinterest