用 C++ 写了个简单的词频统计，为啥比 DuckDB 还慢一半呢。。 - C/C++ - 论坛

登录立即注册

首页 > 绿虎论坛 > 软件开发 > 编程语言 > C/C++ (发帖)

标题: 用 C++ 写了个简单的词频统计，为啥比 DuckDB 还慢一半呢。。

作者: 无名啊 @Ta

时间: 2024-04-20

点击: 39711

步骤

生成 1亿个长度为 15 的随机字符串（为了 SSO 优化）。内容是 1~1KW 的随机数字，并补足前导 0。
用 DuckDB 统计前 1000 的高频词，用时 20 秒。
自己写个 C++ 程序，统计高频词，用时 30 秒。
改为生成长度为 16 的随机字符串，再用刚写的 C++ 程序统计，用时 40 秒。。

截图

截图_20240420202339.webp（59.29 KB）

`C++` 代码

#include <queue>
#include <string>
#include <vector>
#include <iostream>
#include "ankerl/unordered_dense.h"

const auto TOP_NUM = 1000;

int main() {
    std::cin.tie(nullptr);
    std::ios::sync_with_stdio(false);

    std::string word;
    ankerl::unordered_dense::map<std::string, size_t> dict;
    dict.reserve(10000000);

    // 逐词计算频次
    while (std::cin >> word)
        ++dict[word];

    using dict_item_type = decltype(dict)::value_type;
    auto comp = [](const auto* lhs, decltype(lhs) rhs) {
        return lhs->second > rhs->second;
    };

    std::priority_queue<
            const dict_item_type*,
            std::vector<const dict_item_type*>,
            decltype(comp)> words(comp);

    // 找出排名靠前的词频
    for (const auto& item: dict) {
        if (words.size() < TOP_NUM)
            words.push(&item);
        else if (item.second > words.top()->second) {
            words.pop();
            words.push(&item);
        }
    }

    // 并排序好这些高频词
    std::deque<const dict_item_type*> result;
    while (!words.empty()) {
        auto top = words.top();
        result.push_front(top);
        words.pop();
    }

    // 再逐一输出
    for (auto&& i: result)
        std::cout << i->second << '\t' << i->first << '\n';
}

[隐藏样式|查看源码]

『回复列表(9|隐藏机器人聊天)』

1 .

你充分利用多核CPU了吗？把任务分成多个部分跑在不同的CPU核心上，应该会比单线程快很多。就算各个部分得出结果之后还得合并再筛选一次，也应该比整体在单个CPU核心上运行更快。

(老虎会游泳/@Ta/2024-04-21 00:25/样/源)

2 .

@老虎会游泳，DuckDB 也设成单线程的了。对比起来应该算公平的？

DuckDB 双线程时 14 秒，3+线程爆（笔记本 8GB 板载）内存了。。

老虎看这代码，有啥不合理的地方，才拖累性能，打不过 DuckDB 吗？

(无名啊/@Ta/2024-04-21 02:01/样/源)

3 .

@无名啊，std::cin >> word这个io可能比较慢，把文件mmap到内存然后使用char*指针直接访问每行的内容可能更快，跳转到下一行就是上一行的指针加上一行的字节数。

(老虎会游泳/@Ta/2024-04-21 02:50/样/源)

4 .

@无名啊，你可以自行统计一下分段用时，看看输入、计算和输出各占比多少。也许输入输出是大头（因为stdio是同步锁定的）。

(老虎会游泳/@Ta/2024-04-21 02:54/样/源)

5 .

层主 @艾木友尔尔巴于 2024-04-21 07:25 删除了该楼层。

(艾木友尔尔巴/@Ta/2024-04-21 07:25/样/源

被锁定

)

6 .

@老虎会游泳，

std::cin >> word这个io可能比较慢

确实，我改成 std::getline(std::cin, word) 后，就由 28 秒 → 25 秒了。

你可以自行统计一下分段用时，看看输入、计算和输出各占比多少。

我简单测了测，读取 1 亿 15 长度字符串用时。

std::cin >> word：5.1 秒
std::getline(std::cin, word)：2.2 秒
手动开 64KB 缓冲区，每次 std::cin.read() 填充，std::memchr 找 \n，str.append() 构造：1.4 秒

感觉输入上，这速度也可以了。

而且，我 strace 了一下 DuckDB，它也是要读到缓冲区里的，且缓冲区贼大，32MB。。且一定要填充完整 32MB，才干活。。

怪不得我说，一边解压大文本/脚本实时生成内容，一边喂给 DuckDB，怎么耗时会变长。。明明 writer 产生内容的速度还挺快的呀。。

也许输入输出是大头（因为stdio是同步锁定的）

我取消与 stdio 同步了：std::ios::sync_with_stdio(false);。

这个确实很耗时间。不取消的话，总时间直接翻倍。。

把文件mmap到内存然后使用char*指针直接访问

如果想解压大文本，再通过管道喂给程序时，好像不能 mmap 了吧。。

(无名啊/@Ta/2024-04-23 00:26/样/源)

7 .

@老虎会游泳，上一楼，想每段隔多几行回复来着。咋连续多行，被压缩成一行了。。

(无名啊/@Ta/2024-04-23 00:26/样/源)

8 .

@无名啊，github的markdown解析器应该也是这样啊，用空行隔开的段落会被转换为<p></p>，无论中间有多少空行都只会生成一对<p></p>。

所以实际上根本没有生成换行，你在这里看到的隔行效果只是<p></p>的边距。

如果你就是想要多个换行，可以使用[br]。

这是[br]叠加<p></p>的效果。

(老虎会游泳/@Ta/2024-04-23 01:41/样/源)

9 .

膜拜大佬！
https://域名已失效

(卷心菜/@Ta/2024-04-23 13:05/样/源)

回复需要登录。

8月1日 02:38 星期六

[首页] [回顶] [Jhin主题] [Next主题]

本站由hu60wap6驱动

备案号: 京ICP备18041936号-1