Tablesaw下载-数据科学可视化库 v0.38.1 官方版

　　Tablesaw提供数据分析和统计功能，可以通过这款软件建立多种统计表分析数据，支持偏度，峰值、中位数、乘积、平均值等多种数据统计分析功能，让用户在分析科学数据的时候获得可视化的图形统计结果，您可以直接从本地导入数据到软件分析，也可以将数据库的内容添加到Tablesaw分析，可以对表格数据排序，可以对表格数据筛选，可以使用逻辑运算符and,or,not来组合查询过滤器；Tablesaw结合了用于处理表和列的工具，并具有创建统计模型和可视化效果的能力，其中每一列都包含一个数据类型，而行可以包含多种类型，为用户可视化科学数据提供更多帮助，如果你需要这款软件就下载吧！

软件功能

　　Tablesaw是用于数据科学的Java。它包括一个数据框和一个可视化库，以及用于加载，转换，过滤和汇总数据的实用程序。记忆快速而谨慎。如果您使用Java处理数据，则可以节省您的时间和精力。Tablesaw还支持描述性统计，并与Smile机器学习库很好地集成。

　　Tablesaw功能：

　　数据处理与转换

　　从RDBMS，Excel，CSV，JSON，HTML或固定宽度文本文件导入数据，无论这些文件是本地文件还是远程文件（http，S3等）

　　将数据导出到CSV，JSON，HTML或固定宽度文件。

　　通过追加或合并表

　　添加和删除列或行

　　排序，分组，查询

　　映射/归约运算

　　处理缺失值

软件特色

　　可视化

　　Tablesaw通过为Plot.ly JavaScript绘图库提供包装器来支持数据可视化。

　　统计数据

　　描述性统计：平均值，最小值，最大值，中位数，总和，乘积，标准差，方差，百分位数，几何平均值，偏度，峰度等。

官方教程

　　Tablesaw入门

　　Java是一种很棒的语言，但是它并不是为数据分析而设计的。通过Tablesaw，可以轻松地使用Java进行数据分析。

　　本教程将帮助您入门和运行，并介绍Tablesaw的一些基本功能。

　　设置

　　首先，Tableasaw需要Java 8或更高版本。

　　其次，您需要将依赖项添加到pom文件中。它在Maven Central上可用。

　　设置完毕就可以了。上设计

　　表和列

　　如您所料，Tablesaw完全是关于表的，而表是由列组成的。我们将从列开始。

　　列

　　列是命名的一维数据集合。它可能是表的一部分，也可能不是。列中的所有数据必须具有相同的类型。

　　Tablesaw支持以下列：字符串，浮点数，双精度数，整数，短裤，多头，布尔值，LocalDates，LocalTimes，Instant和LocalDateTimes。日期和时间列与Java 8中引入的java.time类具有可比性。

　　要创建列，可以使用其静态create（）方法之一：

　　每列都有一个关联的基于0的索引。要获取单个值，请调用带有索引的get（）。

　　double three = nc.get(2);

　　返回3.0。

　　阵列运算

　　Tablesaw使列易于使用。例如，在标准Java中处理数字的操作通常在Tablesaw中处理数字列。要将一列中的每个值乘以4，我们使用乘法（）方法，该方法将返回一个与原始列相同的新列。

　　如您所见，这些值是原始值的4倍。新列的名称是通过合并原始“ Test”和操作（* 4）而得到的。如果您喜欢使用，可以更改它setName(aString)。

　　通常，Tablesaw中有许多列式操作，因此，如果发现自己编写了一个for循环来处理列或表，则可能会丢失某些内容。

　　对象和基元

　　许多Java程序和程序员仅使用对象，而不使用基元。在Tablesaw，因为他们使用我们经常使用的原语多比盒装的选择更少的内存。例如，即使字节的范围只有256个值，但Byte对象使用的内存与原始double一样多。

　　这种节俭是有代价的。使用原语时，您会放弃一些常见的Java功能，例如使用标准Java 8谓词。尽管Java深思熟虑地提供了一些专门的谓词接口（例如IntPredicate），但它们没有提供任何原始BiPredicate实现，它们的原始接口也没有涵盖所有原始类型。没有IntBiPredicate，我们将无法实现

　　这仅涵盖有关列的最基本信息。您可以在“列”部分中找到更多信息，或者在api包和columns包的Javadocs中找到更多信息。

　　选择项

　　在上表之前，我们应该谈谈选择。选择用于过滤表和列。它们通常在后台运行，但是您可以直接使用它们。例如，考虑我们DoubleColumn包含值{1、2、3、4}。您可以通过发送消息来过滤该列。例如：

　　nc.isLessThan(3);

　　此操作返回Selection。从逻辑上讲，它是与原始列相同大小的位图。上面的方法有效地返回1、1、0、0，因为该列中的前两个值小于3，而后两个值则不是。

　　您可能想要的不是Selection对象，而是一个DoubleColumn仅包含通过过滤器的值的新对象。为此，您可以使用where（aSelection）方法来应用选择：

　　分两步执行此操作可带来许多好处。首先，它使我们可以组合过滤器。例如：

　　DoubleColumn filteredPositive = nc.where(nc.isLessThan(3).and(nc.isPositive()));

　　如果方法直接返回列，则无法通过这种方式将它们组合在一起。这也使我们可以使用相同的方法来过滤表和列，如下所示。

　　按索引选择

　　这些示例说明了如何使用谓词进行选择。您还可以使用选择来检索一个或多个特定索引处的值。以下两项均受支持：

　　如果您有几列的长度与数据表中的长度相同，则可以选择其中一列，然后使用它来过滤另一列：

　　重点：请注意方法startsWith（aString），isLessThan（aNumber）和isPositive（）。这些是预定义的供您使用。有许多此类方法可用于构建查询。对于StringColumn，它们是在tech.tablesaw.columns.strings.StringFilters接口中定义的。它还包括endsWith（），isEmpty（），isAlpha（），containsString（）1等。每列都有一组相似的过滤器操作。它们都可以在位于tech.tablesaw.columns子文件夹中的过滤器接口中找到（例如，tech.tablesaw.columns.dates.DateFilters）。

　　地图功能

　　映射函数是在列上定义的方法，这些方法返回新的Columns作为结果。您已经看到一个：上面的column乘法（aNumber）方法是带有标量参数的映射函数。要在两列中乘以多个值，请使用乘法（aNumberColumn）：

　　nc1列中的每个值都乘以nc2中的对应值，而不是前面示例中的标量值。

　　各种列类型都有许多内置的映射函数。以下是StringColumn的一些示例：

　　如您所见，对于许多返回新String的String方法。StringColumn提供了一个等效的映射方法，该方法返回一个新的StringColumn。它还包括在Guava的String库和Apache Commons String库中找到的其他有用的方法。

　　关键点：每个列类型都有一组映射操作，例如乘法（aNumber）。对于StringColumn，这些方法在tech.tablesaw.columns.strings.StringMapFunctions接口中定义。除了上面显示的方法以外，它还包括许多方法。所有列类型的方法都可以在位于tech.tablesaw.columns的子文件夹的过滤器界面中找到（如tech.tablesaw.columns.dates.DateMapFunctions，它提供了最新的方法，如plusDays（ANINT），年（）和month（））。

　　减少（汇总）功能：汇总一列

　　有时您想要导出一个值，该值在某种意义上总结了列中的数据。聚合函数就是这样做的。每个这样的函数都会扫描列中的所有值，并作为结果返回单个标量值。所有列都支持一些聚合函数：min（）和max（），例如plus plus （），countUnique（）和countMissing（）。有些还支持特定于类型的功能。BooleanColumn，例如，支持所有（），它返回真，如果在所有的列中的值是真。函数any（）和none（），如果该列中的值分别为true或不为true，则返回true。函数countTrue（）和countFalse（）也可用。

　　NumberColumn具有更多的聚合函数。例如，要计算列中值的标准偏差，应调用：

　　double stdDev = nc.standardDeviation();

　　关键点： NumberColumn支持许多聚合功能，包括许多最有用的功能。其中可用的总和，计数，平均值，中位数，百分位数（n），范围，方差，sumOfLogs等。这些在NumericColumn类中定义。

　　当我们讨论下表时，我们将展示如何通过一个或多个分组列中的值来计算一个或多个数字列中的小计。

　　表

　　表是列的命名集合。尽管允许缺少值，但表中的所有列都必须具有相同数量的元素。一个表可以包含列类型的任何组合。

　　建立表格

　　您可以用代码创建一个表。在这里，我们创建一个表并向其中添加两个新列：