当前位置:首页 > 技术文章 > 正文内容

推荐产品经理必知必会①:数据处理

arlanguage4周前 (04-10)技术文章13

策略产品经理如何对数据进行处理?这篇文章里,作者做了方法介绍以及相应的内容梳理,一起来看看吧。

在正式介绍推荐策略之前,我们需要了解推荐策略产品经理如何对数据进行处理,一切策略都离不开数据。重点在于:

  1. 理清公司已有数据;
  2. 了解公司有哪些数据表;
  3. 判断数据表内的数据质量如何。

一、常见的底层数据表

电商领域常见的7张离线Hive表:

切片表:按照时间分区,将每天的新数据放在一个独立的时间分区里,例如:7月1日与7月2日的不同。

增量表:汇总所有数据,新增数据直接在原始表内添加,不增加新分区,订单表与卖点数据均是增量表,因为其需要选择某个时段or历史所有数据,直接截取即可,如果存在不同分区,截取就会很麻烦。

二、数据表加工

ETL(extract-transform-load,抽取——转换——加载):从底层数据表抽取数据,然后再清洗加工,最终得到上层表,这一过程不断进行。

三、数据归一化与标准化

不同类型的数据需要转化为同一量纲才能进行比较,需要归一化/标准化,本质上是一种线性变换(缩放+平移)。(归一化≠标准化)

1. 归一化

Min-Max(最小最大值)归一化(最常用的方式):

x* = ( x - min ) / ( max - min )

归一化后的数值处于[0,1]之间,实际数据中存在无解释度的极大(小)值,故需要挑选合适的最大(小)值。

适用场景:数据分布集中。

均值归一化:

x* = ( x - mean ) / ( max - min )

归一化后的数值处于[-1,1]之间

适用场景:数据存在极值,但在业务视角这一极值是合理的。

Log对数函数归一化:

归一化后的数值处于[0,1]之间,非线性的归一化方式,缩小数据间的差距,使之分布均衡。

适用场景:样本数据跨度大,头部极值出现频率相对高。

2. 标准化

归一化/标准化可以消除不同数据之间量纲差异巨大带来的无可比拟性:

  • 若异常值和噪声较多,使用标准化数据处理方式可以消除不同特征差异权重的影响,使之权重趋同(归一化保留了潜在权重关系)。
  • KNN和K-Means等涉及距离的业务中,若各特征变量对最终距离影响一致,需要用标准化处理,其余应用根据业务需求进行。

以上介绍的数据处理方法在策略产品工作中会经常用到,一定要熟悉哦!

本文由 @策略产品经理规划 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

扫描二维码推送至手机访问。

版权声明:本文由AR编程网发布,如需转载请注明出处。

本文链接:http://www.arlanguage.com/post/3958.html

分享给朋友:

“推荐产品经理必知必会①:数据处理” 的相关文章

2020全网最全的Nginx 性能调优实战

1、Nginx运行工作进程数量Nginx运行工作进程个数一般设置CPU的核心或者核心数x2。如果不了解cpu的核数,可以top命令之后按1看出来,也可以查看/proc/cpuinfo文件 grep ^processor /proc/cpuinfo | wc -l[root@lx~]# vi/usr/...

nginx限制php程序“跨站”访问 nginx限制只能域名访问

我秀站外合作有一个需求:需在一台web服务器上增加一个虚拟主机用来做图片资源站,所用程序为第三方,担心有后门程序,因此希望最好隔断与原机器其他服务的关系。思考了一下,确实有一些风险存在。目前我们服务器上都统一使用nobody用户启动nginx和php,包括web目录,这些机器上部分有多个域名在一起运...

Linux系统非root用户下安装Nginx

通常使用Nginx或者Apache作为Web服务器时,默认监听80端口,因此默认会使用root用户去安装,而且,使用yum命令安装时,通常会安装到默认的路径下,默认路径通常是root用户才有执行权限的。如果不需要使用Nginx监听1024以下的端口,且对权限和网络管理比较严格时,能用非root权限解...

在 Ubuntu 或 Debian 系统上安装以及配置 nginx-1.20.1.tar.gz

安装和配置 Nginx 的步骤如下:下载 Nginx:1、首先,你需要从 Nginx 的官方网站下载源代码包。在你的服务器上执行以下命令,下载 Nginx 1.20.1 版本的源代码包:wget http://nginx.org/download/nginx-1.20.1.tar.gz2、解压源代码...

网页上出现503 Service Unavailable Error应该如何处理?

本头条号每天坚持更新原创干货技术文章,欢迎关注本头条号"Linux学习教程",公众号名称“Linux入门学习教程"。如需学习视频,请复制以下信息到手机浏览器或电脑浏览器上:zcwyou.com1. 前言在浏览网页时,最常见的错误之一是“503 Service Unavaila...

Nginx安全相关配置常用教程 nginx安全策略

1. 限制请求速度设置 Nginx、Nginx Plus 的连接请求在一个真实用户请求的合理范围内。比如,如果你觉得一个正常用户每两秒可以请求一次登录页面,你就可以设置 Nginx 每两秒钟接收一个客户端 IP 的请求(大约等同于每分钟30个请求)。limit_req_zone $binary_re...