结构化查询语言(SQL)是一种广泛使用的工具,用于管理和操作数据库。基本的SQL查询简单易学,但掌握高级SQL技术可以将您的数据分析和管理能力提升到新的高度。

高级SQL技术是指一系列功能和函数,使您能够对数据执行复杂操作,例如聚合、连接、子查询、窗口函数和递归查询。

通过深入了解SQL的高级特性和技巧,您可以更有效地进行数据分析和管理,为您的工作带来更大的价值。

图片

本文将详细介绍以下技术,并使用具体且易于理解的示例。

  • 窗口函数
  • 公共表达式(CTE)
  • 聚合函数
  • 透视表
  • 子查询
  • 交叉连接
  • 临时表
  • 具体化视图

1 窗口函数

窗口函数支持在与当前行相关的一组行上执行计算,可以根据指定的窗口定义进行聚合、排序和分析操作。这种计算方式可以提供更灵活和精确的数据分析能力。

例如;有一个名为orders的表,其中包含以下列:order_idcustomer_idorder_dateorder_amount。您想要计算每个客户的销售总额,按其订单日期排序。您可以使用SUM窗口函数来实现这一点:

SELECT order_id, customer_id, order_date, order_amount,
  SUM(order_amount) OVER (
    PARTITION BY customer_id
    ORDER BY order_date
    ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
  ) AS running_total
FROM orders;

在此示例中,SUM函数应用于order_amount列,并按customer_id列进行分区。这意味着每个客户的累计销售额将分别计算。

ORDER BY子句指定应使用订单日期来确定每个分区内行的顺序。这意味着将按客户订单的顺序计算累计销售额。

ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW子句指定计算的窗口框架应包括从分区开始到当前行为止的所有行。这意味着将从每个客户的第一笔订单开始计算累计销售额,直到包括当前订单。

查询的结果将是一个包含与orders表相同列的表,以及一个名为running_total的附加列,其中包含每个客户的累计销售额,按其订单日期排序。

通过在SQL中使用窗口函数,您可以对数据执行复杂计算,并深入了解业务。此示例演示了如何为每个客户计算累计销售额,但是您可以使用窗口函数执行许多其他类型的计算,例如计算移动平均值、排名数据等。

2 公共表达式(CTEs)

公共表达式(CTEs)支持您在SQL查询中定义一个临时结果集,并将其命名为一个表,以便在后续的SQL语句中引用和使用该临时结果集。这种方式可以提高查询的可读性和可维护性,并使查询逻辑更加模块化和灵活。

假设有一个名为employees的表,其中包含以下列:employee_idemployee_namedepartment_idsalary。您想要计算每个部门的平均工资,然后找到其工资高于部门平均工资的员工。为此,您可以使用CTE首先计算每个部门的平均工资,然后在第二个查询中使用该CTE查找其工资高于部门平均工资的员工。

WITH department_avg_salary AS (
  SELECT department_id, AVG(salary) AS avg_salary
  FROM employees
  GROUP BY department_id
)

SELECT employee_id, employee_name, salary, department_avg_salary.avg_salary
FROM employees
INNER JOIN department_avg_salary ON employees.department_id = department_avg_salary.department_id
WHERE salary > department_avg_salary.avg_salary;

在此示例中,第一个查询定义了一个名为department_avg_salary的CTE。该CTE使用AVG函数和GROUP BY子句计算每个部门的平均工资,将员工按其部门分组。

然后,第二个查询将department_avg_salary CTE视为表格,并将其与employees表格在department_id列上连接。结果由WHERE子句过滤,仅包括其工资高于其部门平均工资的员工。在这种情况下使用CTE的优点在于它允许您将问题分解为两个步骤:首先计算每个部门的平均工资,然后选择其工资高于其部门平均工资的员工。通过将计算分成两个步骤,查询更易于阅读和维护。

CTEs也可以用于许多其他情况,例如递归查询、复杂连接等。通过使用CTE,您可以使SQL查询更易于阅读和理解。

3 聚合函数

聚合函数是用于对一组值进行计算并返回单个结果值的函数。它们可以在表的多行或多列之间执行计算,并且能够以有意义的方式对数据进行汇总。在SQL中,最常见的聚合函数包括SUM(求和)、AVG(平均值)、MIN(最小值)、MAX(最大值)和COUNT(计数)。这些函数在数据分析和报告中非常实用,可以帮助我们快速获得对数据集的总结统计信息。

例如,有一个名为sales的表,其中包含以下列:sale_idproduct_idsale_datesale_amountregion。您想要计算每个产品的总销售额和平均销售额,以及每个地区的畅销产品。为此,您可以使用聚合函数按产品和地区分组销售,并计算总销售额和平均销售额,以及找到每个地区的畅销产品。

SELECT 
  product_id, 
  AVG(sale_amount) AS avg_sale_amount, 
  SUM(sale_amount) AS total_sale_amount, 
  region, 
  RANK() OVER (PARTITION BY region ORDER BY SUM(sale_amount) DESCAS rank
FROM sales
GROUP BY product_id, region;

在此示例中,查询有三个聚合函数:AVGSUMRANK

AVG函数计算每个产品和地区的平均销售额,而SUM函数计算每个产品和地区的总销售额。GROUP BY子句按产品和地区分组销售。

RANK函数用于查找每个地区的畅销产品。OVER子句指定应单独对每个地区进行排名,而PARTITION BY子句指定要对数据进行分区的列(在本例中为region)。ORDER BY子句指定排名应基于每个地区中每种产品的销售金额总和,并按降序排列。

查询结果包括product_idregiontotal_sale_amountavg_sale_amountrank列。rank列指示每个地区中每种产品基于总销售额的排名,排名第一的畅销产品在每个地区都是1。

使用聚合函数,在这种情况下,优点在于它们允许您对数据进行分组和汇总,并计算有用的指标,例如总销售额和平均销售额。RANK函数还允许您查找每个地区的畅销产品,这对于识别趋势和改进机会非常有用。

聚合函数也可以用于许多其他情况,例如计算最小值和最大值、计数记录等。通过使用聚合函数,您可以使SQL查询更加强大和灵活。

4 透视表

透视表是一种用于从较大的表格中进行数据汇总和聚合,以便更方便进行分析的表格。它可以将数据从行转换为列,并以更有意义的方式展示数据。

在SQL中,我们可以使用PIVOT运算符创建透视表。该运算符可以根据指定的列对数据进行汇总,并以表格的形式呈现结果,使数据更易于理解和分析。透视表为我们提供了一种灵活且直观的方式来汇总和展示数据,从而帮助我们更好地理解数据的关系和趋势。

例如:

SELECT 
  customer_id, 
  [1AS Product1, 
  [2AS Product2, 
  [3AS Product3, 
  [4AS Product4, 
  [5AS Product5
FROM (
  SELECT 
    customer_id, 
    product_id, 
    order_quantity
  FROM orders
) p
PIVOT (
  SUM(order_quantity)
  FOR product_id IN ([1], [2], [3], [4], [5])
AS pvt;

在上面的示例中,查询使用PIVOT运算符按产品ID旋转数据,每个客户都有一个列。SUM函数用于计算每个客户订购的每种产品的总数量。

子查询p用于从orders表中提取必要的列。然后将PIVOT运算符应用于子查询,使用SUM函数计算每个客户订购的每种产品的总数量。FOR子句指定了透视列(在本例中为product_id),而IN子句指定了要透视的值(在本例中为[1]、[2]、[3]、[4]、[5])。

查询的结果是一个透视表,显示了每个客户订购的每种产品的总数量,每种产品都有一列,每个客户都有一行。

透视表也可以用于许多其他情况,例如汇总销售数据、分析调查结果等。通过使用透视表,您可以使SQL查询更加强大和灵活。