mediakritika.by
Опубликовано на mediakritika.by (https://mediakritika.info)

Главная > Убить трех зайцев. Как редакции работать с данными и к чему это приводит

Вы здесь

  • Главная [1]
  • Убить трех зайцев. Как редакции работать с данными и к чему это приводит

Убить трех зайцев. Как редакции работать с данными и к чему это приводит

13.12.2017 Ремесло [2]

Есть десятки способов найти информацию: комментарий эксперта, исследование, заявление чиновника, личное участие корреспондента в каком-либо мероприятии, наконец, можно просто взять какую-то тему у конкурента, переписать или развить ее. Но самое сложное — это научиться анализировать собственные данные или большие массивы данных, к которым имеют доступ все СМИ. Как это можно сделать — рассуждает руководитель проекта Кино Mail.Ru Катя Староверова [3]

Я имею в виду разные цифры от местных органов власти, министерств или Росстата. У большинства авторов эти огромные таблицы ничего, кроме ужаса, не вызывают. Но и это не главная проблема — у редакций порой просто не хватает времени на креатив, работу с данными. Ну а главную роль играет привычный уклад: нарушать и придумывать что-то новое — болезненно и страшно.

Я расскажу про то, как сделать это максимально безболезненно. Главное — найти энтузиаста (ха-ха!), который будет готов к анализу данных и вдохновит редакцию на креатив. Возможно, мои мысли будут полезны не только СМИ, но и сервисам, интернет-магазинам и даже администрациям-министерствам.

 

Анализируй это

Для начала давайте посмотрим на то, что у вас есть. Может быть, вы готовы провести какой-то актуальный опрос, на который ответит приличное количество пользователей. Причем не обязательно делать это на сайте издания — используйте соцсети (например, городские группы). Но вдруг вам повезло и у вас (как у нашего проекта Кино Mail.Ru) есть куча информации и вы даже не задумываетесь, на какой горе золота вы сидите (да, я настаиваю, что это именно золото!).

Это могут быть просмотры, оценки, отзывы, комментарии, покупки, интерес к определенным покупкам или услугам, просто статистика от местных властей.

Данные можно использовать для создания собственных статей, инфографики, расследования или даже редакционного проекта. А можно предложить их другим изданиям — пусть они наконец-то напишут про вас!

 

Расскажу про наши кейсы

Кейс 1 — как мы заигрались в статистику

Каждый декабрь мы подводим итоги года — смотрим, какие фильмы и сериалы смотрели больше всего, у каких — самые высокие оценки. В какой-то момент мы осознали, что нам нужны какие-то инструменты, которые позволят быстро смотреть статистику по фильмам, сериалам, телешоу. И главное, чтобы мы могли видеть разделение по соцдему и регионам.

В этом нам помогла аналитическая СУБД ClickHouse. Эта технология для работы с большими данными позволяет работать с запросами, оперативно получать нужную информацию и даже строить простейшие графики. Летом мы сделали рейтинг фильмов за первое полугодие. Причем с разделением по регионам и полу (что лучше оценивали мужчины, а что — женщины).

Получилось достаточно много любопытных данных, из которых самые интересные мы предложили сразу нескольким СМИ. В результате вышло более 200 материалов про лучшие и худшие фильмы полугодия.

Но главное — мы увидели особенность оценивания у наших пользователей. Какие фильмы, сериалы и телешоу кому нравятся, что оценивают много, но крайне низко. А что действительно пользуется популярностью и действительно нравится пользователям. Это было полезно для редакции и понимания интереса к определенным темам.

Кейс 2 — как мы смотрели ужастики

К Хэллоуину мы решили сделать не просто список лучших ужастиков по оценкам наших пользователей. А придумали индекс успешности фильмов. В базе данных выбрали фильмы ужасов и фильмы с двумя жанрами «ужас» и «триллер», выгрузили их оценки, год выпуска, бюджет. На сайте [4] взяли кассовый сборы и уже тогда посчитали рейтинг. Он состоит из окупаемости фильма, года, средней оценки и бюджета.

Для визуализации данных я использовала один из алгоритмов кластеризации в Python. Оси здесь — это индекс и средний балл. На картинке видно, что лучшими фильмами можно признать «Оно» и «Изгоняющий дьявола», также неплохие результаты — у фильмов «Сплит», «Заклятье», «Астрал», «Не дыши», «Мама». Интересно, что классические фильмы ужасов — «Психо», «Сияние», «Нечто», «Кэрри» и «Восставший из ада» «схлопнулись» в один кластер. А супердешевые в производстве и собравшие неплохую кассу «Паранормальное явление» и «Ведьма из Блэр: Курсовая с того света» — в другой. По данному индексу мы сделали небольшую заметку на сайте [5].

А вот так выглядит визуализация данных с разбиением на кластеры. Почитать про кластеры можно тут [6].

А также отдали топ лучших и худших ужастиков в некоторые СМИ и получили пару десятков публикаций.

В этот раз мы не стали визуализировать данные, как уже делали с фильмами и сериалами [7] — напомню, что это группировка фильмов и сериалов по схожести того, как их оценивали пользователи. Или даже делать какую-то относительно простую инфографику, как например, тут [8].

Но зато мы поняли, какие ужастики могли бы порекомендовать друзьям — из таблички это видно не так явно. Приходится выбирать или сортировку по оценке, или сортировку по индексу.

В случае с ужастиками у нас было только несколько десятков фильмов, первичная обработка данных позволила выкинуть кино с плохими оценками или фильмы, которые провалились в прокате. А что-то придумать с сэмплом из 50 фильмов уже несложно. Но представьте, если у вас сет из несколько сотен или тысяч данных? Вот, например, кластеризация из 10 тысяч сериалов)

Визуализация — это самое лучшее, что можно сделать с данными, чтобы быстро увидеть суть. Пробуйте делать простые гистограммы, графики. Анализировать пики, считать индексы и видеть зависимости. Даже если у вас нет возможности сделать красивую инфографику визуализация поможет вам увидеть суть и найти новые темы.

Medium [9]

Оценить материал:
Голосов еще нет
Частичное либо полное копирование материалов, размещенных на сайте Mediakritika.by разрешается только с указанием прямой гиперссылки на текст.

Источник: https://mediakritika.info/article/4825/ubit-treh-zaycev-kak-redakcii-rabotat-s-dannymi-i-k-chemu-eto-privodit

Ссылки
[1] https://mediakritika.info/
[2] https://mediakritika.info/category/remeslo
[3] https://www.facebook.com/staroverova
[4] http://www.boxofficemojo.com/
[5] https://kino.mail.ru/cinema/news/49021/
[6] http://scikit-learn.org/stable/modules/clustering.html
[7] https://kino.mail.ru/recommend/map
[8] http://so-l.ru/news/y/2016_02_15_best_in_show
[9] https://medium.com/@mediamrg/ubit-treh-zaicev-kak-redakcii-rabotat-s-dannimi-i-k-chemu-eto-privodit-b1fe074cd8e0