numpy小记

70个NumPy分级练习题：用Python一举搞定机器学习矩阵运算

import numpy as np
# 1. 替换满足条件的元素而不影响原始数组
arr = np.arange(10)
out = np.where(arr%2==1, -1, arr)
arr
Out[4]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
out
Out[5]: array([ 0, -1,  2, -1,  4, -1,  6, -1,  8, -1])

# 7. 获取两个数组元素匹配的索引号
a = np.array([1,2,3,2,3,4,3,4,5,6])
b = np.array([7,2,10,2,7,4,9,4,9,8])
np.where(a==b)
Out[33]: (array([1, 3, 5, 7], dtype=int64),)

 # 9. 将处理标量的python函数在numpy数组上运行
maxx = lambda x,y: x if x>=y else y
pair_max = np.vectorize(maxx, otypes=[float])
a = np.array([5,7,9,8,6,4,5])
 b = np.array([6,3,4,8,9,7,1])
pair_max(a,b)
Out[45]: array([6., 7., 9., 8., 9., 7., 5.])

 # 18. 导入含有数字和文本的数据集，并保持的文本完整性
 url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
 irirs_ld = np.genfromtxt(url, delimiter=',', dtype=None)

# 21. 计算softmax值
def softmax(x):
 ex = np.exp(x-np.max(x))
 return ex/ex.sum(axis=0)
     
# 29. 概率抽样
# 暂定

 # 33. 两个数组之间的欧氏距离
 arr = np.arange(5)
 brr = np.arange(4,9)
dist = np.linalg.norm(arr-brr)
dist
Out[176]: 8.94427190999916

# 38. 不连续的日期数组。通过填补缺失的日期，使其成为连续的日期序列
 # 39. 一维数组arr，使用步长生成一个二维数组，窗口长度为4，步长为2
def gen_strides(arr, stride_len=5, windows_len=5):
    n_strides = ((arr.size-windows_len)//stride_len)+1
    return np.array([arr[s:(s+windows_len)] for s in np.arange(0, n_strides*stride_len,stride_len)])
 gen_strides(np.arange(15), stride_len=2, windows_len=4)
Out[207]: 
array([[ 0,  1,  2,  3],
    [ 2,  3,  4,  5],
     [ 4,  5,  6,  7],
    [ 6,  7,  8,  9],
    [ 8,  9, 10, 11],
    [10, 11, 12, 13]])

移动平均值

cumsum ：计算轴向元素累加和，返回由中间结果组成的数组
cumprod ：计算轴向元素累乘积，返回由中间结果组成的数组

data = np.array([1] * 10)
acum = data.cumsum()
cump = acum.cumprod()

print(acum)
[ 1  2  3  4  5  6  7  8  9 10]

print(cump)
array([      1,       2,       6,      24,     120,     720,    5040,
         40320,  362880, 3628800])

# 37. 窗口大小为3的移动平均值
def moving_average(a, n=3):
    ret = np.cumsum(a, dtype=float)
    ret[n:] = ret[n:]-ret[:-n]
    return ret[n-1:]/n
np.random.seed(100)
Z = np.random.randint(10, size=10)
Z
Out[191]: array([8, 8, 3, 7, 7, 0, 4, 2, 5, 2])
moving_average(Z, n=3).round(2)
Out[192]: array([6.33, 6.  , 5.67, 4.67, 3.67, 2.  , 3.67, 3.  ])

第n个重复项的索引

# 36. 第n个重复项的索引
# 找出x中第1个重复n次的索引
arr = np.array([1,2,1,1,3,4,3,1,1,2,1,1,2])
n = 5
[ii for ii,kk in enumerate(arr) if kk==1][n-1]
Out[186]: 8
np.where(arr==1)[0][n-1]
Out[187]: 8

按列排序二维数组

# 31. 按列排序二维数组
arr = np.random.uniform(size=(3,4))
arr
Out[146]: 
array([[0.54040458, 0.29679375, 0.1107879 , 0.3126403 ],
 [0.45697913, 0.65894007, 0.25425752, 0.64110126],
 [0.20012361, 0.65762481, 0.77828922, 0.7795984 ]])
arr[arr[:,1].argsort()]
Out[147]: 
array([[0.54040458, 0.29679375, 0.1107879 , 0.3126403 ],
 [0.20012361, 0.65762481, 0.77828922, 0.7795984 ],
 [0.45697913, 0.65894007, 0.25425752, 0.64110126]])

pearsonr相关系数

# 25. 计算某两列的pearsonr相关系数
arr = np.random.uniform(size=(3,4))
arr
Out[114]: 
array([[0.59884338, 0.60380454, 0.10514769, 0.38194344],
 [0.03647606, 0.89041156, 0.98092086, 0.05994199],
 [0.89054594, 0.5769015 , 0.74247969, 0.63018394]])
from scipy.stats.stats import pearsonr
corr,p_value = pearsonr(arr[:,0], arr[:,2])
corr
Out[117]: -0.432641494562719

唯一值的数量

# 27. 查找numpy数组中的唯一值的数量
arr = np.random.uniform(size=(3,4))
np.unique(arr, return_counts=True)
Out[121]: 
(array([0.04486228, 0.14260031, 0.17808099, 0.23769421, 0.34019022,
  0.35479561, 0.37625245, 0.50543143, 0.5928054 , 0.62994188,
  0.9338413 , 0.94637988]),
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int64))

# 28. 将数值转换为分类（文本）数组
# 将iris_2d的花瓣长度（第3列）组成一个文本数组
# <3  -> '小'
# 3-5 -> '中'
# >=5 -> '大
from sklearn import datasets
iris = datasets.load_iris().data
petal_length_bin = np.digitize(iris[:,2].astype('float'), [0,3,5,10])
label_map = {1:'small', 2:'medium', 3:'large', 4:np.nan}
petal_length_cat = [label_map[x] for x in petal_length_bin]
petal_length_cat[:4]
Out[130]: ['small', 'small', 'small', 'small']

多个条件过滤numpy数组

# 24. 根据两个或多个条件过滤一个numpy数组
# 过滤具有arr（第3列）> 0.5和arr（第1列）<0.8的arr的行。
arr = np.random.uniform(size=(3,4))
arr
Out[110]: 
array([[0.81622475, 0.27407375, 0.43170418, 0.94002982],
 [0.81764938, 0.33611195, 0.17541045, 0.37283205],
 [0.00568851, 0.25242635, 0.79566251, 0.01525497]])
condition = (arr[:,2]>0.5) & (arr[:,0]<0.8)
arr[condition]
Out[112]: array([[0.00568851, 0.25242635, 0.79566251, 0.01525497]])

堆叠数组操作

# 2. 垂直堆叠两个数组
a = np.arange(10).reshape(2,-1)
b = np.repeat(1,10).reshape(2,-1)
a
Out[10]: 
array([[0, 1, 2, 3, 4],
[5, 6, 7, 8, 9]])
b
Out[11]: 
array([[1, 1, 1, 1, 1],
[1, 1, 1, 1, 1]])
np.concatenate([a,b], axis=0)
Out[12]: 
array([[0, 1, 2, 3, 4],
[5, 6, 7, 8, 9],
[1, 1, 1, 1, 1],
[1, 1, 1, 1, 1]])
np.vstack([a,b])
Out[13]: 
array([[0, 1, 2, 3, 4],
[5, 6, 7, 8, 9],
[1, 1, 1, 1, 1],
[1, 1, 1, 1, 1]])
np.r_[a,b]
Out[14]: 
array([[0, 1, 2, 3, 4],
[5, 6, 7, 8, 9],
[1, 1, 1, 1, 1],
[1, 1, 1, 1, 1]])

# 3. 水平堆叠两个数组
np.concatenate([a,b], axis=1)
Out[15]: 
array([[0, 1, 2, 3, 4, 1, 1, 1, 1, 1],
[5, 6, 7, 8, 9, 1, 1, 1, 1, 1]])
np.hstack([a,b])
Out[16]: 
array([[0, 1, 2, 3, 4, 1, 1, 1, 1, 1],
[5, 6, 7, 8, 9, 1, 1, 1, 1, 1]])
np.c_[a,b]
Out[17]: 
array([[0, 1, 2, 3, 4, 1, 1, 1, 1, 1],
[5, 6, 7, 8, 9, 1, 1, 1, 1, 1]])

提取范围内的所有数字

# 8. 提取给定范围内的所有数字
a = np.arange(15)
index = np.where((a>=5) & (a<=10))
a[index]
Out[36]: array([ 5,  6,  7,  8,  9, 10])
index = np.where(np.logical_and(a>=5, a<=10))
a[index]
Out[38]: array([ 5,  6,  7,  8,  9, 10])

交换数组行列

# 10. 交换2维numpy数组中的两个列
np.arange(9).reshape(3,3)[:,[1,0,2]]
Out[46]: 
array([[1, 0, 2],
[4, 3, 5],
[7, 6, 8]])

# 11. 交换2维numpy数组中的两个行
np.arange(9).reshape(3,3)[[1,0,2], :]
Out[47]: 
array([[3, 4, 5],
[0, 1, 2],
[6, 7, 8]])

反转2维数组行列

# 12. 反转2维数组的行
np.arange(9).reshape(3,3)[[1,0,2], :]
Out[51]: 
array([[3, 4, 5],
[0, 1, 2],
[6, 7, 8]])

# 13. 反转2维数组的列
np.arange(9).reshape(3,3)[:,::-1]
Out[48]: 
array([[2, 1, 0],
[5, 4, 3],
[8, 7, 6]])

数组打印

# 15. 打印三位小数的numpy数组
np.set_printoptions(3)
np.random.uniform(5,10,(5,3))
Out[59]: 
array([[5.427, 6.768, 6.71 ],
[7.243, 6.434, 7.314],
[6.692, 8.417, 7.965],
[8.718, 5.061, 5.936],
[5.918, 8.064, 7.431]])

# 16. 使用科学记数法（如1e10）漂亮的打印数组rand_arr
np.random.seed(100)
np.set_printoptions(suppress=True)
rand_arr = np.random.random([3,3])/1e3
rand_arr
Out[68]: 
array([[0.000543, 0.000278, 0.000425],
[0.000845, 0.000005, 0.000122],
[0.000671, 0.000826, 0.000137]])

# 17. 限制数组输出中打印元素的数量
np.set_printoptions(threshold=6)
arr = np.arange(15)
arr
Out[73]: array([ 0,  1,  2, ..., 12, 13, 14])

标准化一个数组至0到1之间

# 20. 标准化一个数组至0到1之间
arr = np.random.uniform(size=(3,4))
arr
Out[89]: 
array([[0.88959857, 0.64348368, 0.66692863, 0.41213651],
 [0.78437761, 0.75333385, 0.10293507, 0.7942196 ],
 [0.82432451, 0.11447181, 0.30328525, 0.41767367]])
s_max,s_min = arr.max(axis=0),arr.min(axis=0)
(arr-s_min)/(s_max-s_min)
Out[91]: 
array([[1. , 0.82805338, 1.  , 0.   ],
[0.  , 1.  , 0.  , 1.     ],
[0.37964781, 0. , 0.35523487, 0.01449204]])

缺失值相关

# 26. 找出数组是否有缺失的值
arr = np.random.uniform(size=(3,4))
np.isnan(arr).any()
Out[119]: False  
    
# 34. 删除所有nan值
arr = np.array([1,2,3,np.nan,5,6,7,np.nan])
arr[~np.isnan(arr)]
Out[167]: array([1., 2., 3., 5., 6., 7.])
    
# 23. 数据集的5个随机位插入np.nan值
arr = np.random.uniform(size=(3,4))
i,j = np.where(arr)
np.random.seed(100)
arr[np.random.choice((i),5), np.random.choice((j),5)] = np.nan
arr
Out[103]: 
array([[  nan, 0.57138137, 0.27694632, 0.06905881],
[0.25886229, nan,  nan, 0.0125819 ],
[ nan, 0.06872554,  nan, 0.28179248]])
np.where(np.isnan(arr))
Out[105]: (array([0, 1, 1, 2, 2], dtype=int64), array([0, 1, 2, 0, 2], dtype=int64))

数组交差集

# 5. 数组之间的共同元素
a = np.array([1,2,3,2,3,4,3,4,5,6])
b = np.array([7,2,10,2,7,4,9,4,9,8])
np.intersect1d(a,b)
Out[27]: array([2, 4])

# 6. 删除存在于另一个数组中的元素
a = np.array([1,2,3,4,5])
b = np.array([5,6,7,8,9])
np.setdiff1d(a,b)
Out[30]: array([1, 2, 3, 4])

数组产生

# 4. 生成自定义序列
a = np.array([1,2,3])
np.r_[np.repeat(a,3), np.tile(a,3)].reshape(2,-1)
Out[24]: 
array([[1, 1, 1, 2, 2, 2, 3, 3, 3],
[1, 2, 3, 1, 2, 3, 1, 2, 3]])

# 14. 二维数组，以包含5到10之间的随机浮点数
rand_arr = np.random.randint(low=5, high=10, size=(5,3)) + np.random.random((5, 3))
rand_arr
Out[56]: 
array([[5.37441948, 8.61709329, 8.24544657],
[6.79517054, 6.43953972, 5.01129723],
[9.662239  , 6.24575781, 6.51341089],
[8.01997704, 6.66118956, 8.18283188],
[8.02228762, 6.9609364 , 7.4676691 ]])
rand_arr = np.random.uniform(5,10, size=(5,3))
rand_arr
Out[58]: 
array([[7.13046251, 7.4977751 , 8.55210656],
[7.9222628 , 5.7828763 , 9.57743131],
[9.13648012, 5.71533963, 9.18622945],
[5.94241285, 8.08918632, 9.32716147],
[5.75027771, 8.83210586, 8.3991677 ]])

元素查找

# 19. 从一维元组数组中提取特定的列
iris_2d = np.array([row.tolist()[:4] for row in irirs_ld])
iris_2d[:4]
Out[78]: 
array([[5.1, 3.5, 1.4, 0.2],
 [4.9, 3. , 1.4, 0.2],
 [4.7, 3.2, 1.3, 0.2],
 [4.6, 3.1, 1.5, 0.2]])

# 22. 找到数组的百分位的值
# 第5位和第95百分位的值
arr = np.random.uniform(size=(3,4))
np.percentile(arr, q=[5,95])
Out[94]: array([0.31394255, 0.87443495])

# 30. 获得数组中第二大的元素值
arr = np.random.uniform(size=(3,4))
np.unique(np.sort(arr))[-2]
Out[132]: 0.9570126003527981

# 32. 首次出现的值大于给定值的位置
arr = np.random.uniform(size=(3,4))
arr
Out[150]: 
array([[0.61032815, 0.30900035, 0.69773491, 0.8596183 ],
 [0.62532376, 0.98240783, 0.97650013, 0.16669413],
 [0.02317814, 0.16074455, 0.92349683, 0.95354985]])
np.argmax(arr[:,2].astype('float') > 0.7)
Out[151]: 1
    
# 35. 一维数组所有局部最大值（或峰值）
arr = np.array([1,3,7,1,2,6,0,1])
doublediff = np.diff(np.sign(np.diff(arr)))
peak_locations = np.where(doublediff==-2)[0]+1
peak_locations
Out[180]: array([2, 5], dtype=int64)

上一页pandas小记下一页python_pipe包管道包学习

最后更新于2年前

hashtagnumpy小记

hashtag移动平均值

hashtag第n个重复项的索引

hashtag按列排序二维数组

hashtagpearsonr相关系数

hashtag唯一值的数量

hashtag多个条件过滤numpy数组

hashtag堆叠数组操作

hashtag提取范围内的所有数字

hashtag交换数组行列

hashtag反转2维数组行列

hashtag数组打印

hashtag标准化一个数组至0到1之间

hashtag缺失值相关

hashtag数组交差集

hashtag数组产生

hashtag元素查找

numpy小记

移动平均值

第n个重复项的索引

按列排序二维数组

pearsonr相关系数

唯一值的数量

多个条件过滤numpy数组

堆叠数组操作

提取范围内的所有数字

交换数组行列

反转2维数组行列

数组打印

标准化一个数组至0到1之间

缺失值相关

数组交差集

数组产生

元素查找