刚看到了duckdb的介绍,非常强,可以支持任意和嵌套的相关子查询、窗口函数、排序规则、复杂类型(数组、结构、映射). 下面是一个获取你的github账户的repo的所有star的语句.

WITH repo_data AS (
    SELECT *
    FROM read_json_auto('https://api.github.com/users/karminski/repos')
)
SELECT 
    SUM(stargazers_count) as total_stars,
    COUNT(*) as total_repos
FROM repo_data;

可以直接在live demo中体验:live demo

项目地址:https://github.com/duckdb/duckdb/tree/main

2
message-square
2
  • hqshi
    6 days ago

    自带webETL的数据库其实还不少吧,好像excel都有低配的功能。之前处理一些网页数据的时候见过,对其针对数据处理领域特化的压缩算法感到震惊。就是这个压缩算法的压缩效果导致数据膨胀了几倍XD

  • Proton
    6 days ago

    我这里直接 df = duckdb.query('SELECT xxx FROM “s3:///xxx/yyy.parquet"').to_df() 然后 df.to_parquet("s3://xxx/zzz.parquet"), 爽歪歪