はじめに
こんにちは。 ATOM事業部でデータエンジニアをしている小宮です。
2023年6月までは事業部横断のデータ部署(以下データ戦略室)にいたのですが、 色々あって弊社SaaSのATOM事業部専任でデータを扱うことになりました。
異動後の約半年間で、 データ戦略室に居た頃には見えなかった気づきを得ることができたので今回はそれらを共有したいと思います。
データ戦略室でやっていたこと
まず前提として、データ活用推進のために以下のことを行っていました。
- 社内の点在したデータを1箇所に集める(データ基盤の構築)
- データ基盤を安定的に保守・運用する
- データを活かして事業部に貢献する
データ基盤を作るところからスタートし、実際のデータ利用者にヒアリングを行い、データが活用できるように働きかけをおこなっていました。
データ基盤の概要
大まかなデータ基盤の概要です。
図ではデータが左から右に流れ、最終的にどのKGI, KPIに寄与するのかを示しています。
データソースはS3, 外部DBやスプレッドシートなど多岐に渡り、 それらのデータをGCSに連携しBigQueryから外部テーブルとして参照しています。
EL(Extract, Load)はCloudRunで、T(Transform)はdbtを利用しています。 ELTのジョブ管理はCloud Workflowを使用しています。
IaCはTerraformで、CI/CDはGitHub Actionを主に利用しています。
感じていた課題
ある程度のスケールに対応できるデータ基盤は整いましたが、その先のデータ活用が思っていたよりもうまく進まないと感じていました。
データを集めることが目的になったり、 実際のデータ利用者のユースケースに沿わないレポートを作成して結局使われなかったり。
データ活用の教科書に書いてあるようなことが例に漏れず起こっていました。
異動後に得られた気づき
実際にデータの利用現場の中に入り込んで仕事をしていく中で、感じていた課題を解決するために大切なことが見えてきました。
1. 目的からデータを集める
今まではまずデータを集めて活用方法は後で考えるというアンチパターンに陥っていました。
事業部専任になってからは、ビジネス側の方々とコミュニケーションを重ね、どういうデータが見れたら嬉しいのか、事業拡大のために何が課題となっているのかをより深く理解しました。
今はKGI, KPIの設定やユースケースの設定に時間をかけ、逆算してデータを集めることで開発コストや運用コストを下げ、データをよりアクションに繋げられるようになってきています。
2. データの上流〜下流までの流れを理解する
今まではデータをいかに遅延なく取得できるかや、継続的なデータ基盤の運用を優先的に考えていて、データ生成者や利用者の業務実態まで理解できていませんでした。
データ活用において、データ生成者(上流)とデータの利用者(下流)は同一人物ではないことが多いです。
データがどのように作られ、どのように利用されるのか。その先のどんな課題を解決できるのかまで理解することで、データの価値を最大化することができると思います。
そのためにはステークホルダーに対して地道なヒアリングやフィードバックを重ねることが大切だと感じました。
3. データソースでデータの品質を担保する
データは常に正しいデータが入ってくるとは限りません。
データソースに問題があった場合、時にはデータクレンジングで対応することもありますが、上流の問題を下流でカバーしてもリスクを抱え続けることになり根本解決にはなりません。
マスタデータを用意したり、データ生成者とのコミュニケーションを取ったり、データソースが正しくなるように働きかけるようにしています。
ここはツールを使ったり社内で正しいデータが入るような仕組みを作っていく必要があります。現状はマンパワーに頼っている部分があり、これだとスケールしないためまだまだ課題があります。
おわりに
データ関連で再三言われていることですが、日々の業務に追われているとなかなか気づけなかったと思いました。また、所属している部署によって働くインセンティブが異なるため「わかっちゃいるけどできない」ことも多くあるなと感じました。
現在は事業部に入り込みデータ活用を行うことで、以前よりもスピーディーにデータ活用が進んでいる実感があります。 エンジニアをしているとどうしてもどうやって実現するか(How)に行きがちですが、なぜやるのか(Why)を理解することでよりデータを活用できる道筋が見えた気がします。
それではまたいつか。