Как правильно писать тексты для сайта. Копирайтинг

Занятие было достаточно сложным. очень много новых понятий и матстатистики. Но — было интересно. Честно говоря — мне понадобилось время, чтобы переварить всю информации — и то, я не уверена, что  могу свободно рассуждать на эту тему. И так — каким должен быть код и текст на сайте? 1. Грамотным (с точки зрения русского языка)  — я думаю с этим никто спорить не будет. Грамотность можно проверить на сервисе http://api.yandex.ru/speller/

2. Тексты должны быть естественными — т.е.написаны человеком для человека, не не "бредотекст" .

3. Нормальное количество ключевых слов на страницу — 3-5% (но это общая рекомендация, каждый случай лучше, все-таки рассматривать отдельно и персонально — лучше в этом вопросе ориентироваться на успешных конкурентов).

4. Минимальная длина текста — 1000 символов. (это где-то пол-страницы текста формата А4) . Дело в том, что Яндекс не любит короткие статьи,  если на сайте много малоинформативных страниц — такой сайт может быть забанен…

5. Ну и конечно — текст должен быть полезным для пользователя — очень, конечно,  субъективный критерий… но все-таки…

Ну а теперь — самое "крутое" …

При анализе текста на сайте конкурентов и составления ТЗ для того, кто будет нам писать тексты, нам очень понадобится (и это круто!)

Статистическая мера TF-IDF TF  (term frequency — частота слова)

частота прямого вхождения слова документ — определяется как отношение числа вхождения слов к числу слов всего документа. IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторый запрос встречается в документах коллекции.  

Учёт IDF уменьшает вес широкоупотребительных запросов.

Например: слово "учебный" встречается в документе 3 раза, а весь документ у нас состоит из 100 слов.

Значит частота слова "учебный" в документе (TF) будет 0,03 (3/100).

Один из вариантов вычисления частоты документа (IDF) определяется как количество документов содержащих слово «учебный», разделенное на количество всех документов. Таким образом, если запрос «учебный» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10000000).

Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «учебный» в коллекции документов будет 300 (0,03/0,0001).

Законы Зипфа

Все созданные человеком тексты построены по единым правилам! Никому не удается обойти их. Какой бы язык ни использовался, кто бы ни писал — классик или графоман, — внутренняя структура текста останется неизменной. Известный математик Дж. Зипф (O.K. Zipf) показал, что все созданные человеком тексты подчиняются некоторым общим закономерностям. Зипф предположил, что природная лень человеческая (впрочем, это свойство любого живого существа) ведет к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф в 1946—1949 годах вывел два универсальных закона:

Рассмотрим формулировки и смысл этих законов. Если взять любой текст, то можно подсчитав, какие слова применяются в нем и сколько раз они встречаются. Количество повторов слова в тексте можно назвать частотой этого слова. Чаще всего встречающемуся слову можно приписать ранг 1, следующему по частоте — ранг 2 и т. д. Если несколько разных слов имеют  одинаковые частоты, то учитывается только одно из них. Если разделить частоту повторения слова / на общее количество значащих слов в тексте S, то получим относительную частоту или вероятность встречи этого слова в тексте.

1-й закон Зипфа

Первый закон связывает частоту появления (вхождения) того или иного слова с рангом этой частоты.

Суть закона заключатся в том , что наблюдательный товарич Зипф заметил, что ежели умножить вериятность обнаружения слова в тексте на ранг частоты — то эта величина постоянная.. (вам че-нить понятно?)

  •  Наиболее часто встречающимся словам присваивается ранг, равный единице.
  •  Тем словам, что встречаются реже – ранг, равный двойке и т.п.
  •  Зипф обнаружил, что произведение частоты вхождения слова и его ранга является постоянной величиной.
  • Такая зависимость обычно отображается гиперболой.
  • Значение константы Зипфа для разных языков различно, но внутри одной языковой группы оно остается неизменным.

Первый закон Зипфа

Интересные цифры: Для русского и украинского языков коэффициенты Зипфа составляют приблизительно 0,06-0,07.
Английский язык:  С — 0,1 (русский язык богаче)

Формула: С= (Частота вхождения слов х Ранг частоты)/Чило слов

 Ха! нашла в Википедии!!!!!!!!:

Американский биолог Ли Вэньтянь попытался опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к семантике текста. И все же результат этот сам по себе нельзя не признать крайне интересным и проливающим хотя бы какой-то свет на природу открытой Ципфом закономерности.

2-й Закон Зипфа

  • Частота вхождения слов и количество слов, входящих в текст с данной частотой, тоже взаимосвязаны.
  • Получившая кривая будет сохранять свои параметры для всех текстов в пределах одного языка.
  • С другой стороны, на каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной.
  • Отличаться будут лишь коэффициенты.

Следствия законов Зипфа

• Законы Зипфа универсальны. Они применимы не только к текстам.
• В аналогичную форму выливается, например, зависимость между количеством городов и числом проживающих в них жителей.
• Характеристики популярности ресурсов интернета отвечают законам Зипфа.
• В законах Зипфа отражается «человеческое» происхождение объектов – т.е. можно отличать искусственное от природного – например распределение кратеров на Луне.
• Известный математик Бенуа Мандельброт математическим путѐм пришѐл к аналогичной
первому закону Зипфа зависимости f*re = c , где e — близкая к единице переменная величина,
которая может изменяться в зависимости от свойств текста и языка

Стоп-слова

Для того, чтобы безошибочно сузить диапазон значимых слов, создается словарь «бесполезных» слов или «стоп-слов».

Словарь этих слов («стоп-лист») содержит, например, артикли и предлоги, частицы и личные местоимения (а, без, более, бы, был, была, были, было, быть, в, вам, вас, весь, во, вот, все, всего, всех, вы, где, да, даже, для, до, его, ее, если, есть, ещё, же, за, здесь, и, из, из-за, или, им, их, к, как, как-то, ко, когда, кто, ли, либо, мне, может, мы, на, надо, наш, не, него, неё, нет, ни, них, но, ну, о, об, однако, он, она, они, оно, от, очень, по, под, при, с, со, так, также, такой, там, те, тем, то, того, тоже, той, только, том, ты, у, уже, хотя, чего, чей, чем, что, чтобы, чьё, чья, эта, эти, это, я), а также целый ряд других слов. Их конкретный перечень может состоять от нескольких сот до нескольких тысяч слов и различен для разных поисковых машин..

Для уменьшения размера индекса поисковой системы стоп-слова не включаются в индекс и не учитываются при поиске.

Предыдущее занятие — HTML для SEO Следующее занятие —  Внутренняя оптимизация сайта

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *