ݺߣ

ݺߣShare a Scribd company logo
Лексическая статистика в оценке качества
         коммерческих текстов

             Ирина Борисова

                 Wikimart


                18.02.2012
О чем пойдет речь?




    1. Задачи лингвистики в e-commerce: пример Wikimart
    2. Сложности с коммерческими текстами
    3. Лексикостатистические метрики в оценке качества текста и
       уровня спама
    4. Извлечение пользовательских предпочтений для
       улучшения качества текста
Лингвистика в e-commerce
Wikimart в Рунете




    Онлайн торговый центр
         1752 магазина
         собственный ритейл
         6000+ заказов в сутки
    Активность за 14.02.2012:
         652,154 просмотров
         160,027 уникальных посетителей
Лингвистика в e-commerce
Wikimart для лингвиста




    Данные:
    Большой объем текстовых данных (7 миллионов страниц
    моделей и предложений)
    Корпуса коммерческих тематических текстов:
         торговые описания
         информация о производителе
         пользовательский контент
              поисковые запросы
              отзывы
Лингвистика в e-commerce
Wikimart для лингвиста




    Задачи:
      1. Оценка качества текста
      2. Анализ поисковых запросов
          2.1 Определение тематики поискового запроса
          2.2 Оценка коммерческих тенденций в поисковых запросах
      3. Извлечение пользовательских предпочтений из отзывов
Коммерческие тексты: где зарыта собака?




   Текст низкого качества:
       тематически нерелевантный
       стиль
       грамматика
       орфография
       оформление
Пример
Вступление к описанию модели антирадара




    Какой же человек не любит быстрой езды... Но законы
    российской Федерации этого не позволяют. Да лихачество
    приветствовать не стоит, но бывают моменты, когда человек
    опаздывает и может совсем незначительно превысить скорость.
    Ну и последствия всем прекрасно известны, штраф, а может
    дойти и до лишения прав. Но благодаря разработкам ученых,
    всего этого можно избежать.
Коммерческие тексты: где зарыта собака?



   Спамосодержащий (спамный) текст:
       написан исключительно для задач поискового
       продвижения, а не для читателя
       перенасыщен
           поисковыми запросами по теме
           общечастотными словами из коммерческих запросов
           (купить, москва, отзывы, интернет, магазин и др.)
Пример
Вступление к описанию категории wi-fi роутеров

    Wireless считается одним из лучших точек доступа.
    Беспроводной роутер, он же wifi предназначен для
    подключения к сети или Интернету. Часто можно встретить
    объявления роутер купить или куплю роутер, потому что этот
    вид точек доступа очень популярен. К тому же, wimax в москве
    давно не редкость. К особенно надежным точкам доступа
    относят: 3g wifi роутер, adsl роутер, wifi ap solo, wifi роутер с
    usb. В комплект поставки кроме wifi устройства может входить
    usb 2.0 wlan, usb wifi фдаптер с антенной, wifi антенна, wifi
    антенна направленная внешняя и wifi контроллер. В условиях
    постоянного развитяи технического прогресса wifi устройство
    приобретают все большую популярность. В комплекте с wireless
    150 входит wireless lan 802.11 b g, wireless usb адаптер и wireless
    usb hub. Многие потребители часто задаютсмя вопросами
    какой роутер выбрать, какой роутер купить, какой роутер
    лучше.
Что и как оценивать?

     Формат: длина текста, абзаца, предложения, плотность
             знаков пунктуации
    Тематика: доля слов из семантического ядра категории,
              среднее гармоническое между повторами
     Лексика: уникальные и повторяющиеся уни-, би- и
              триграммы, расстояние между повторами,
              соотношение с общечастотной лексикой в корпусе
       Стиль: разнообразие частей речи, вводные слова,
              уникальные стоп-слова
           38 метрик
     Корпусы: Википедия, категории Викимарта, корпус
              тематических текстов очень низкого качества
              (spam_rev)
Пример spam_rev


  Действие данного обогревателя была возможность ощутить в
  подруги. Была зима, и она включила данный обогреватель.
  Практически за несколько минут мы почувствовали должный
  эффект от него. Он очень полезен в те моменты, когда еще не
  включили отопление, но в квартире уже довольно холодно.
  Неоспоримым плюсом данной модели является то, что она не
  издает практически никакого шума. Я задумалась о
  приобретении именно этой модели. Также очень удобным
  является и то, что в обогревателе есть специальный термостат,
  который помогает следить за уровнем температуры и при
  необходимости дает возможность отрегулировать её.
Результаты
Число слов без стоп-слов




    Wikipedia
         ave 775.36
         st.dev. 23.79
    Wikimart
         ave 818.38
         st.dev. 55.94
    Spam reviews
         ave 642.67
         st.dev. 36.67
Результаты
Число предложений




    Wikipedia
        ave 76.06
        st.dev. 11.76
    Wikimart
        ave 86.19
        st.dev. 19.04
    Spam reviews
        ave 67
        st.dev. 6
Результаты
Число слов с заглавной буквы




    Wikipedia
         ave 167.88
         st.dev. 36.03
    Wikimart
         ave 168.18
         st.dev. 47.11
    Spam reviews
         ave 61
         st.dev. 5
Результаты
Число слов на латинице




    Wikipedia
         ave 39.6
         st.dev. 29.52
    Wikimart
         ave 93.38
         st.dev. 73.13
    Spam reviews
         ave 4.83
         st.dev. 3.44
Результаты
Число слов в предложении




    Wikipedia
         ave 13.83
         st.dev. 2.13
    Wikimart
         ave 13.6
         st.dev. 3.6
    Spam reviews
         ave 14.62
         st.dev. 1.26
Результаты
TTR: число уникальных слов к общему числу словоупотреблений




    Wikipedia
         ave 0.41
         st.dev. 0.04
    Wikimart
         ave 0.3
         st.dev. 0.1
    Spam reviews
         ave 0.28
         st.dev.0.02
Результаты
Доля слов из топ-200 самых частотных слов всего корпуса




    Wikipedia
         ave 0.53
         st.dev. 0.05
    Wikimart
         ave 0.38
         st.dev. 0.07
    Spam reviews
         ave 0.74
         st.dev. 0.03
Результаты
Среднее расстояние между повторяющимися словами




    Wikipedia
        ave 113.12
        st.dev. 19.39
    Wikimart
        ave 164.91
        st.dev. 29.68
    Spam reviews
        ave 134.41
        st.dev. 20.33
Результаты
Число словоупотреблений на часть речи




    Wikipedia
         ave 48.41
         st.dev. 5.84
    Wikimart
         ave 39.87
         st.dev. 11.31
    Spam reviews
         ave 35.73
         st.dev. 2.84
Результаты
Число уникальных стоп-слов




    Wikipedia
         ave 0.09
         st.dev. 0.02
    Wikimart
         ave 0.1
         st.dev. 0.04
    Spam reviews
         ave 0.07
         st.dev. 0.01
Спам-санкции!


  Ручная оценка текстов
  Поиск максимально эффективных метрик
  Формат:
      длина текста (более 500 слов)
      название брендов и слов из коммерческих запросов в теге
      strong
      плотность брендов
          корпус названий брендов и производителей
          синонимы
          пословное совпадение (36 000 единиц)
      плотность неуникальных биграмм и триграмм в тексте
Превышение порога плотности биграмм в тексте
Плотность неуникальных биграмм - 0,282
    Козье молоко — бесценный косметический продукт, полностью
    восстанавливающий здоровье и функциональную активность
    клеток кожи. Еще в древние времена люди знали целебную
    силу козьего молока и его омолаживающие свойства. В
    настоящее время ученые полностью подтверждают
    уникальность состава козьего молока: это ценные
    аминокислоты <...> Температура плавления козьего масла
    ниже 37 С, поэтому биостимуляторы и питательные вещества
    легко проникают в глубокие слои кожи, насыщая ее
    натуральными контролерами увлажненности (пантенол,
    мочевина, рибофлавин). Отсюда уникальная результативность
    козьего молока: устранение раздражения, отечности, купероза,
    отбеливание, увлажнение, питание кожи. Лактоантиоксиданты
    козьего молока делают кожу нежной и эластичной,
    предотвращая ее старение.
    Серия «Козье молоко» изготовлена на основе цельного козьего
    молока.
Превышение порога плотности брендов в тексте
Плотность названий брендов - 0, 058

    Впервые Por Larranaga Panetelas была выпущена в 1834 году на
    фабрике La Corona, это одна из старейших марок сигар. В
    разное время производилась на разных фабриках. Табак для
    неё выращивают в провинции Pinar del Rio на знаменитых на
    весь мир плантациях Vuelta Abajo. Своё имя сигары Larranaga
    Por Panetelas получили от основателя бренда испанца Ignacio
    Larranaga (Игнасио Лараньяга), и носят его до сих пор. С
    самых первых дней своего существования, благодаря высокому
    качеству и красоте, эти сигары приобрели широчайшую
    известность. А из-за своей более чем доступной и
    демократичной цены — ещё и огромную популярность.
    Panetelas Por Larranaga относятся к классу Mild-medium, то есть
    мягко-средней крепости. В незажженном состоянии у
    PanetelasLarranaga Por достаточно интенсивный аромат, в
    котором на первый план выходят пряные и животные
    составляющие.
Эффективность в подсчете метрик



  Скорость:
      0, 01-0,15 с/текст (500-1000 символов)
      30% времени - фильтр стоп-слов
  17% описаний
  Точность по выборке - 92%
  Полнота (?) - автоматическая оценка поисковой машины =
  выход из-под санкций
Улучшение качества текстов: коллокации




      Синтактические единицы, представляющие собой
      семантическое целое
      Би- и триграммы
      PMI
      Корпус отзывов (категорийный)
Извлечение пользовательских предпочтений
Основные типы
    Функциональность: регулятор крепости кофе, долго держит
               заряд, лоток для овощей
                Сочетаемость: есть все разъемы, со всеми
                           форматами, со старыми играми
                «Коммуникабельность»: инструкция для сборки,
                           на русском языке, интуитивно
                           понятный интерфейс
       Условия использования: на мокром льду, за МКАДом, при
               недостаточном освещении
         Опыт использования: лежит в руке, приятный на ощупь,
               совсем не шумный, крепится к стеклу
       Личное: это мой первый, по сравнению с, до этого был, на
               мой взгляд
    Экономическое: за эти деньги, соотношение цена-качество
    Эмоциональное: я очень доволен, танцы с бубном, довольна
               как слон
Использование в задачах e-commerce




      Определение специфики категории и покупателя
      Рекомендации к использованию в описаниях модели или
      категории
      SEM / SMM
      Теги в категориях
Заключение и перспективы



      Эффект лексической статистики в оценке качества текста:
      спамный текст = плохо написанный текст
      Интеграция данных в систему модерации на сайте (фидбек
      службе управления контентом)
      Интеграция метрик в ML
      Расширение корпусов коммерческих текстов
      (Wikimart) Mechanical Turk
Ad

Recommended

"Современное SEO" и "Многорукие бандиты", Optimization 2015
"Современное SEO" и "Многорукие бандиты", Optimization 2015
mikeslivinsky
A Guide to ݺߣShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to ݺߣShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
ݺߣShare
2015 Upload Campaigns Calendar - ݺߣShare
2015 Upload Campaigns Calendar - ݺߣShare
ݺߣShare
What to Upload to ݺߣShare
What to Upload to ݺߣShare
ݺߣShare
How to Make Awesome ݺߣShares: Tips & Tricks
How to Make Awesome ݺߣShares: Tips & Tricks
ݺߣShare
Getting Started With ݺߣShare
Getting Started With ݺߣShare
ݺߣShare
Наблюдения в поисковой выдаче, #seoconf 2015, Казань
Наблюдения в поисковой выдаче, #seoconf 2015, Казань
mikeslivinsky
Заметки на полях. Bynetweek.by, 15.04.2015.
Заметки на полях. Bynetweek.by, 15.04.2015.
mikeslivinsky
2024 Trend Updates: What Really Works In SEO & Content Marketing
2024 Trend Updates: What Really Works In SEO & Content Marketing
Search Engine Journal
Storytelling For The Web: Integrate Storytelling in your Design Process
Storytelling For The Web: Integrate Storytelling in your Design Process
Chiara Aliotta
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
OECD Directorate for Financial and Enterprise Affairs
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
SocialHRCamp
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC

More Related Content

Featured (20)

2024 Trend Updates: What Really Works In SEO & Content Marketing
2024 Trend Updates: What Really Works In SEO & Content Marketing
Search Engine Journal
Storytelling For The Web: Integrate Storytelling in your Design Process
Storytelling For The Web: Integrate Storytelling in your Design Process
Chiara Aliotta
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
OECD Directorate for Financial and Enterprise Affairs
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
SocialHRCamp
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
2024 Trend Updates: What Really Works In SEO & Content Marketing
2024 Trend Updates: What Really Works In SEO & Content Marketing
Search Engine Journal
Storytelling For The Web: Integrate Storytelling in your Design Process
Storytelling For The Web: Integrate Storytelling in your Design Process
Chiara Aliotta
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
SocialHRCamp
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray

Лексическая статистика в оценке качества коммерческих текстов

  • 1. Лексическая статистика в оценке качества коммерческих текстов Ирина Борисова Wikimart 18.02.2012
  • 2. О чем пойдет речь? 1. Задачи лингвистики в e-commerce: пример Wikimart 2. Сложности с коммерческими текстами 3. Лексикостатистические метрики в оценке качества текста и уровня спама 4. Извлечение пользовательских предпочтений для улучшения качества текста
  • 3. Лингвистика в e-commerce Wikimart в Рунете Онлайн торговый центр 1752 магазина собственный ритейл 6000+ заказов в сутки Активность за 14.02.2012: 652,154 просмотров 160,027 уникальных посетителей
  • 4. Лингвистика в e-commerce Wikimart для лингвиста Данные: Большой объем текстовых данных (7 миллионов страниц моделей и предложений) Корпуса коммерческих тематических текстов: торговые описания информация о производителе пользовательский контент поисковые запросы отзывы
  • 5. Лингвистика в e-commerce Wikimart для лингвиста Задачи: 1. Оценка качества текста 2. Анализ поисковых запросов 2.1 Определение тематики поискового запроса 2.2 Оценка коммерческих тенденций в поисковых запросах 3. Извлечение пользовательских предпочтений из отзывов
  • 6. Коммерческие тексты: где зарыта собака? Текст низкого качества: тематически нерелевантный стиль грамматика орфография оформление
  • 7. Пример Вступление к описанию модели антирадара Какой же человек не любит быстрой езды... Но законы российской Федерации этого не позволяют. Да лихачество приветствовать не стоит, но бывают моменты, когда человек опаздывает и может совсем незначительно превысить скорость. Ну и последствия всем прекрасно известны, штраф, а может дойти и до лишения прав. Но благодаря разработкам ученых, всего этого можно избежать.
  • 8. Коммерческие тексты: где зарыта собака? Спамосодержащий (спамный) текст: написан исключительно для задач поискового продвижения, а не для читателя перенасыщен поисковыми запросами по теме общечастотными словами из коммерческих запросов (купить, москва, отзывы, интернет, магазин и др.)
  • 9. Пример Вступление к описанию категории wi-fi роутеров Wireless считается одним из лучших точек доступа. Беспроводной роутер, он же wifi предназначен для подключения к сети или Интернету. Часто можно встретить объявления роутер купить или куплю роутер, потому что этот вид точек доступа очень популярен. К тому же, wimax в москве давно не редкость. К особенно надежным точкам доступа относят: 3g wifi роутер, adsl роутер, wifi ap solo, wifi роутер с usb. В комплект поставки кроме wifi устройства может входить usb 2.0 wlan, usb wifi фдаптер с антенной, wifi антенна, wifi антенна направленная внешняя и wifi контроллер. В условиях постоянного развитяи технического прогресса wifi устройство приобретают все большую популярность. В комплекте с wireless 150 входит wireless lan 802.11 b g, wireless usb адаптер и wireless usb hub. Многие потребители часто задаютсмя вопросами какой роутер выбрать, какой роутер купить, какой роутер лучше.
  • 10. Что и как оценивать? Формат: длина текста, абзаца, предложения, плотность знаков пунктуации Тематика: доля слов из семантического ядра категории, среднее гармоническое между повторами Лексика: уникальные и повторяющиеся уни-, би- и триграммы, расстояние между повторами, соотношение с общечастотной лексикой в корпусе Стиль: разнообразие частей речи, вводные слова, уникальные стоп-слова 38 метрик Корпусы: Википедия, категории Викимарта, корпус тематических текстов очень низкого качества (spam_rev)
  • 11. Пример spam_rev Действие данного обогревателя была возможность ощутить в подруги. Была зима, и она включила данный обогреватель. Практически за несколько минут мы почувствовали должный эффект от него. Он очень полезен в те моменты, когда еще не включили отопление, но в квартире уже довольно холодно. Неоспоримым плюсом данной модели является то, что она не издает практически никакого шума. Я задумалась о приобретении именно этой модели. Также очень удобным является и то, что в обогревателе есть специальный термостат, который помогает следить за уровнем температуры и при необходимости дает возможность отрегулировать её.
  • 12. Результаты Число слов без стоп-слов Wikipedia ave 775.36 st.dev. 23.79 Wikimart ave 818.38 st.dev. 55.94 Spam reviews ave 642.67 st.dev. 36.67
  • 13. Результаты Число предложений Wikipedia ave 76.06 st.dev. 11.76 Wikimart ave 86.19 st.dev. 19.04 Spam reviews ave 67 st.dev. 6
  • 14. Результаты Число слов с заглавной буквы Wikipedia ave 167.88 st.dev. 36.03 Wikimart ave 168.18 st.dev. 47.11 Spam reviews ave 61 st.dev. 5
  • 15. Результаты Число слов на латинице Wikipedia ave 39.6 st.dev. 29.52 Wikimart ave 93.38 st.dev. 73.13 Spam reviews ave 4.83 st.dev. 3.44
  • 16. Результаты Число слов в предложении Wikipedia ave 13.83 st.dev. 2.13 Wikimart ave 13.6 st.dev. 3.6 Spam reviews ave 14.62 st.dev. 1.26
  • 17. Результаты TTR: число уникальных слов к общему числу словоупотреблений Wikipedia ave 0.41 st.dev. 0.04 Wikimart ave 0.3 st.dev. 0.1 Spam reviews ave 0.28 st.dev.0.02
  • 18. Результаты Доля слов из топ-200 самых частотных слов всего корпуса Wikipedia ave 0.53 st.dev. 0.05 Wikimart ave 0.38 st.dev. 0.07 Spam reviews ave 0.74 st.dev. 0.03
  • 19. Результаты Среднее расстояние между повторяющимися словами Wikipedia ave 113.12 st.dev. 19.39 Wikimart ave 164.91 st.dev. 29.68 Spam reviews ave 134.41 st.dev. 20.33
  • 20. Результаты Число словоупотреблений на часть речи Wikipedia ave 48.41 st.dev. 5.84 Wikimart ave 39.87 st.dev. 11.31 Spam reviews ave 35.73 st.dev. 2.84
  • 21. Результаты Число уникальных стоп-слов Wikipedia ave 0.09 st.dev. 0.02 Wikimart ave 0.1 st.dev. 0.04 Spam reviews ave 0.07 st.dev. 0.01
  • 22. Спам-санкции! Ручная оценка текстов Поиск максимально эффективных метрик Формат: длина текста (более 500 слов) название брендов и слов из коммерческих запросов в теге strong плотность брендов корпус названий брендов и производителей синонимы пословное совпадение (36 000 единиц) плотность неуникальных биграмм и триграмм в тексте
  • 23. Превышение порога плотности биграмм в тексте Плотность неуникальных биграмм - 0,282 Козье молоко — бесценный косметический продукт, полностью восстанавливающий здоровье и функциональную активность клеток кожи. Еще в древние времена люди знали целебную силу козьего молока и его омолаживающие свойства. В настоящее время ученые полностью подтверждают уникальность состава козьего молока: это ценные аминокислоты <...> Температура плавления козьего масла ниже 37 С, поэтому биостимуляторы и питательные вещества легко проникают в глубокие слои кожи, насыщая ее натуральными контролерами увлажненности (пантенол, мочевина, рибофлавин). Отсюда уникальная результативность козьего молока: устранение раздражения, отечности, купероза, отбеливание, увлажнение, питание кожи. Лактоантиоксиданты козьего молока делают кожу нежной и эластичной, предотвращая ее старение. Серия «Козье молоко» изготовлена на основе цельного козьего молока.
  • 24. Превышение порога плотности брендов в тексте Плотность названий брендов - 0, 058 Впервые Por Larranaga Panetelas была выпущена в 1834 году на фабрике La Corona, это одна из старейших марок сигар. В разное время производилась на разных фабриках. Табак для неё выращивают в провинции Pinar del Rio на знаменитых на весь мир плантациях Vuelta Abajo. Своё имя сигары Larranaga Por Panetelas получили от основателя бренда испанца Ignacio Larranaga (Игнасио Лараньяга), и носят его до сих пор. С самых первых дней своего существования, благодаря высокому качеству и красоте, эти сигары приобрели широчайшую известность. А из-за своей более чем доступной и демократичной цены — ещё и огромную популярность. Panetelas Por Larranaga относятся к классу Mild-medium, то есть мягко-средней крепости. В незажженном состоянии у PanetelasLarranaga Por достаточно интенсивный аромат, в котором на первый план выходят пряные и животные составляющие.
  • 25. Эффективность в подсчете метрик Скорость: 0, 01-0,15 с/текст (500-1000 символов) 30% времени - фильтр стоп-слов 17% описаний Точность по выборке - 92% Полнота (?) - автоматическая оценка поисковой машины = выход из-под санкций
  • 26. Улучшение качества текстов: коллокации Синтактические единицы, представляющие собой семантическое целое Би- и триграммы PMI Корпус отзывов (категорийный)
  • 27. Извлечение пользовательских предпочтений Основные типы Функциональность: регулятор крепости кофе, долго держит заряд, лоток для овощей Сочетаемость: есть все разъемы, со всеми форматами, со старыми играми «Коммуникабельность»: инструкция для сборки, на русском языке, интуитивно понятный интерфейс Условия использования: на мокром льду, за МКАДом, при недостаточном освещении Опыт использования: лежит в руке, приятный на ощупь, совсем не шумный, крепится к стеклу Личное: это мой первый, по сравнению с, до этого был, на мой взгляд Экономическое: за эти деньги, соотношение цена-качество Эмоциональное: я очень доволен, танцы с бубном, довольна как слон
  • 28. Использование в задачах e-commerce Определение специфики категории и покупателя Рекомендации к использованию в описаниях модели или категории SEM / SMM Теги в категориях
  • 29. Заключение и перспективы Эффект лексической статистики в оценке качества текста: спамный текст = плохо написанный текст Интеграция данных в систему модерации на сайте (фидбек службе управления контентом) Интеграция метрик в ML Расширение корпусов коммерческих текстов (Wikimart) Mechanical Turk