Какие данные можно использовать для задач дата-майнинга?
Результаты дата-майнинга сегодня все чаще становятся базой для принятия различного рода решений. Для того, чтобы эти решения были обоснованы и вели в конечном итоге к увеличению прибыли, в процессе анализа используется широкий спектр данных. Это, в первую очередь, закрытая информация о клиентах, которую накапливает каждая компания: сколько лет покупателю, его семейное положение, какие товары и как часто он покупает, в каких акциях участвует и т.п. На основании исторических данных о похожих клиентах компании оценивают риски и прогнозируют жизненную ценность новых клиентов, по которым у них нет никаких данных. Здесь могут быть как очевидные, так и совершенно непредсказуемые скрытые связи между влияющими и результирующим факторами.
Пример очевидной связи — банковский сектор.
Сейчас почти у каждого взрослого человека есть банковская карта, привязанная к счету в банке. Чаще всего карточек даже две: зарплатная и кредитная, у которой есть определенный кредитный лимит. Все знают, что это максимальный порог занимаемых у банка средств, но далеко не все имеют представление о том, как производится расчет кредитного лимита.
Итак, кредитный лимит в большинстве случаев основывается на общей кредитной истории, но может быть увеличен при выполнении следующих условий:
- предоставлении справки о доходах;
- наличии зарплатного счета в данном банке;
- своевременном возмещении занятых средств по карте.
Фактически при первичном оформлении кредитной карты большинство банков оперирует всего двумя инструментами: справкой о доходах и кредитной историей, которой может и не быть. В последнем случае большинство решений о размере кредитного лимита будет однотипно минимальным, а прогноз наличия вероятных проблем с клиентом невозможен. Конечно, в ряде банков также оценивается семейное положение, трудовой стаж на последнем рабочем месте, наличие автомобиля и другие показатели стабильности, но это скорее исключение (которое к тому же не позволяет точно ответить на вопрос: «Увеличить кредитный лимит или нет?»). К счастью, современные технологии анализа больших данных могут помочь и в этом нелегком деле: корреляция на основе большой выборки данных может выявить потенциально неблагонадежных клиентов.
Понятие «кредитная оценка заемщика» было введено американской софтверной компанией Fair Isaac Company (или FICO) еще в 50-х годах XX века. Интересно, что та же компания в 2011 году предложила схожее понятие для медицинской области — «оценка приверженности лечению». Оценка показывает склонность пациента к соблюдению прописанного фармакологического курса. В этом направлении выводы компании куда менее очевидны, но позволяют, как и в банковской сфере, добиться хорошего результата.
В частности, выяснилось, что вероятность соблюдения предписаний врача зависит от наличия автомобиля, семейного статуса, частоты смены мест жительства и работы. Это знание экономит время и средства медицинских сотрудников, которые знают, кому следует делать напоминания и назначать дополнительные анализы, а кому нет. Разумеется, между владением автомобилем и систематическим приемом лекарств нет причинно-следственной связи, однако высокий уровень корреляции исторических данных позволяет строить прогнозы с высокой точностью. Аналогично данная информация может использоваться при расчете стоимости страховки пациента или же влиять на размер увеличения кредитного лимита, т.к. принимается в расчет вероятность болезни или смерти заемщика.
В последнее время в дата-майнинговых проектах все больше внимание уделяется открытым данным, в центре интереса — аккаунты пользователей социальных сетей: Facebook, Twitter, Vkontakte и др.
В 2014 году в социальной сети Facebook было свыше 850 миллионов активных пользователей, а число связей между ними превышало 100 миллиардов. Данный социальный граф соответствует 10% населения земного шара. Сегментируя и сопоставляя данные, можно получить практически любую социальную информацию. Упомянутая выше компания FICO в своем алгоритме оценки потенциальных заемщиков использует 15 переменных из данной социальной сети. Более того, один анонимный стартап разрабатывает систему прогнозирования вероятности выплаты заемщиком кредита исключительно на основе поведения друзей в аналогичной ситуации. Данный анализ может проходить в режиме онлайн на основе самых свежих данных, что может быть использовано менеджером банка для возможного повышения кредитного лимита.
Не менее интересно могут быть использованы данные Twitter. Более 100 млн человек отправляют порядка 250 млн твитов, которые представляют собой краткие фразы, часто не связанные между собой. Сотрудничество Twitter c DataSift и Grip позволило датифицировать данную информацию и организовать продажу совокупной информации. Конечно, доступ ко всем твитам бесплатен, однако сбор, комплексная обработка и выборка совокупной информации по отдельным направлениям невозможна. Данное сотрудничество позволяет компаниям получить обобщенные отзывы потребителей товара или услуги, а также оценить, насколько эффективно проходит рекламная компания.
Отдельно хотелось бы упомянуть и об обратной стороне медали — конфиденциальности. Большая часть информации, передаваемой гражданами в коммерческие и некоммерческие организации, защищена законами, договорами и другими нормативными актами. Получить дополнительную информацию о конкретном человеке из таких источников законным способом может быть сложно или даже невозможно. Социальные сети не предоставляют подобной защиты. Как результат, для отдельных лиц может возникнуть вероятность отказа по кредиту, медстраховке и т.п. после проведения анализа его профайлов специальными алгоритмами, которые могут спрогнозировать риск получения сердечного приступа, невыполнения долговых обязательств или даже вероятности совершения преступления. В таких случаях может быть нарушена презумпция невиновности, когда бездушный алгоритм даст негативную оценку человеку за возможный поступок, который он еще не совершил. Отсюда появляется дилемма: что важнее — клиентоориентированность или защита от возможных рисков, связанных с конфиденциальностью?
Аналогичная ситуация наблюдалась несколько столетий назад, когда возникла необходимость в принятии законов, ограничивающих свободу печати. Они стали необходимы после повсеместного распространения печатных станков, до появления которых не было и данной проблемы.
Однозначного ответа на данный вопрос дать нельзя, однако совершенно точно можно говорить о необходимости введения правовых норм обработки (с одной стороны) и защиты (с другой) информации в эпоху больших данных.