dataframe某一列求和 dataframe统计某列元素出现频次

圆圆2025-08-02 16:01:13次浏览条评论

使用 pandas 统计 dataframe 字典列中列表首个元素的非空值数量

本文介绍了如何使用Pandas处理包含字典和列表的DataFrame列，并统计特定列表（例如'list_A'）中首个元素的非空值数量。通过notna函数、列表推导式以及explode和groupby方法，展示了两种高效的实现方式，并提供了详细的代码示例，帮助读者掌握处理复杂数据结构的技巧。

在数据分析中，会经常遇到DataFrame的个别列包含复杂的数据结构，例如字典，而字典的值又包含列表。如果需要对这些列表中的元素进行统计分析，就需要掌握一些特定的Pandas技巧。本文将介绍如何统计DataFrame中字典列的特定列表（例如方法一：使用列表推导式和 notna 函数

这种方法的核心是使用列表推导式提取每个字典中 'list_A' 的第一个元素，然后使用 pd.notna 函数判断是否为空值，最后使用 sum import pandas as pddata = [{quot；list_Aquot；： [2.93， 4.18， 4.18， None， 1.57， 1.57， 3.92， 6.27， 2.09， 3.14， 0.42， 2.09]， quot；list_Bquot；： [820， 3552， 7936，无， 2514， 4035， 6441， 15379， 2167， 6147， 3322， 1177]}， {quot；list_Aquot；： [2.51， 3.58， 3.58，无， 1.34， 1.34， 3.36， 5.37， 1.79， 2.69， 0.36， 1.79]， quot;list_Bquot；： [820， 3552， 7936，无， 2514， 4035， 6441， 15379， 2167， 6147， 3322， 1177]}， {quot；list_Aquot；： [无， 5.94， 5.94，无， 2.23， 2.23， 5.57， 8.9， 2.97， 4.45， 0.59， 2.97]， quot；list_Bquot；： [820， 3552， 7936，无， 2514， 4035， 6441， 15379， 2167， 6147，第3322章，1177]}]#创建一个 DataFrame，其中包含一个名为 quot；column_dicquot；的列df = pd.DataFrame({quot；column_dicquot；： [data]})df['count_first_item'] = [pd.notna([y['list_A'][0] for y in x]).sum() for x in df['column_dic']]print(df)登录后复制

代码首先创建了一个DataFrame，其中column_dic列包含一个包含多个字典的列表。

然后，使用列表推导式 [y['list_A'][0] for y in x] 提取每个字典中 'list_A' 的第一个元素。pd.notna()函数判断这些元素是否为非空值，返回一个布尔值列表。最后，sum()函数将 True (非空值)的数量加总，得到非空值的总数，并将结果赋值给新的列 count_first_item。方法二使用：explode、str.get和 groupby 函数

方法利用了 Pandas 的爆炸函数将列表展开，然后使用 str.get 函数获取 'list_A' 列表，再使用 str[0] 获取列表的第一个元素，最后使用 groupby 函数按原始索引包并计算非空值。import pandas as pddata = [{quot；list_Aquot；： [2.93， 4.18， 4.18， None， 1.57， 1.57， 3.92， 6.27， 2.09， 3.14， 0.42， 2.09]， quot；list_Bquot；： [820， 3552， 7936，无， 2514， 4035， 6441， 15379， 2167， 6147， 3322， 1177]}， {quot；list_Aquot；： [2.51， 3.58， 3.58，无， 1.34， 1.34， 3.36， 5.37， 1.79， 2.69， 0.36， 1.79]， quot；list_Bquot；： [820， 3552， 7936，无， 2514， 4035， 6441， 15379， 2167， 6147， 3322， 1177]}， {quot；list_Aquot；： [无， 5.94， 5.94，无， 2.23， 2.23， 5.57， 8.9， 2.97， 4.45， 0.59， 2.97]， quot；list_Bquot；： [820， 3552， 7936， None， 2514， 4035， 6441， 15379， 2167， 6147， 3322， 1177]}]# 创建一个 DataFrame，其中包含一个名为 quot；column_dicquot；的列df = pd.DataFrame({quot；column_dicquot；： [数据]})df['count_first_item'] = (df['column_dic'].explode().str.get('list_A').str[0] .groupby(level=0).count())print(df)登录后复制

be代码首先使用explode()函数将column_dic列中的列表展开，将每个字典变成单独的行。然后，使用str.get('list_A')获取每个字典中的'list_A'列表。继续，使用 str[0] 获取每个列表的第一个元素。

最后，使用groupby(level=0)按照原始DataFrame的索引进行分组，并使用count()函数统计每个分组中非空值的数量。总结

本文介绍了两种使用Pandas统计DataFrame字典列中列表首个元素的非空值数量的方法。第一种方法使用列表推导和notna函数，代码简洁易懂。第二种方法使用explode、str.get和groupby函数，更加灵活，处理比较复杂的数据结构。在实际应用中，可以根据具体情况选择合适的方法。需要注意的是，在使用explode函数时，要保证列表中的元素类型一致，否则可能会出现错误。

以上就是使用Pandas统计DataFrame字典列中列表首元素的非空数量的详细内容，更多请关注乐常识哥网其他相关文章！

使用 Pandas

python 类的用法 python类里面的self