Метод hist pandas параметры
pandas.DataFrame.histВ¶
Make a histogram of the DataFrame’s.
data : DataFrame
The pandas object holding the data.
column : string or sequence
If passed, will be used to limit data to a subset of columns.
by : object, optional
If passed, then used to form histograms for separate groups.
grid : boolean, default True
Whether to show axis grid lines.
xlabelsize : int, default None
If specified changes the x-axis label size.
xrot : float, default None
Rotation of x axis labels. For example, a value of 90 displays the x labels rotated 90 degrees clockwise.
ylabelsize : int, default None
If specified changes the y-axis label size.
yrot : float, default None
Rotation of y axis labels. For example, a value of 90 displays the y labels rotated 90 degrees clockwise.
ax : Matplotlib axes object, default None
The axes to plot the histogram on.
sharex : boolean, default True if ax is None else False
In case subplots=True, share x axis and set some x axis labels to invisible; defaults to True if ax is None otherwise False if an ax is passed in. Note that passing in both an ax and sharex=True will alter all x axis labels for all subplots in a figure.
sharey : boolean, default False
In case subplots=True, share y axis and set some y axis labels to invisible.
figsize : tuple
The size in inches of the figure to create. Uses the value in matplotlib.rcParams by default.
layout : tuple, optional
Tuple of (rows, columns) for the layout of the histograms.
bins : integer or sequence, default 10
Number of histogram bins to be used. If an integer is given, bins + 1 bin edges are calculated and returned. If bins is a sequence, gives bin edges, including left edge of first bin and right edge of last bin. In this case, bins is returned unmodified.
**kwds
matplotlib.pyplot.hist Plot a histogram using matplotlib.
This example draws a histogram based on the length and width of some animals, displayed in three bins
pandas.DataFrame.histВ¶
Make a histogram of the DataFrame’s columns.
Parameters data DataFrame
The pandas object holding the data.
column str or sequence, optional
If passed, will be used to limit data to a subset of columns.
by object, optional
If passed, then used to form histograms for separate groups.
grid bool, default True
Whether to show axis grid lines.
xlabelsize int, default None
If specified changes the x-axis label size.
xrot float, default None
Rotation of x axis labels. For example, a value of 90 displays the x labels rotated 90 degrees clockwise.
ylabelsize int, default None
If specified changes the y-axis label size.
yrot float, default None
Rotation of y axis labels. For example, a value of 90 displays the y labels rotated 90 degrees clockwise.
ax Matplotlib axes object, default None
The axes to plot the histogram on.
sharex bool, default True if ax is None else False
In case subplots=True, share x axis and set some x axis labels to invisible; defaults to True if ax is None otherwise False if an ax is passed in. Note that passing in both an ax and sharex=True will alter all x axis labels for all subplots in a figure.
sharey bool, default False
In case subplots=True, share y axis and set some y axis labels to invisible.
figsize tuple, optional
The size in inches of the figure to create. Uses the value in matplotlib.rcParams by default.
layout tuple, optional
Tuple of (rows, columns) for the layout of the histograms.
bins int or sequence, default 10
Number of histogram bins to be used. If an integer is given, bins + 1 bin edges are calculated and returned. If bins is a sequence, gives bin edges, including left edge of first bin and right edge of last bin. In this case, bins is returned unmodified.
backend str, default None
New in version 1.0.0.
Whether to show the legend.
New in version 1.1.0.
Returns matplotlib.AxesSubplot or numpy.ndarray of them
Plot a histogram using matplotlib.
This example draws a histogram based on the length and width of some animals, displayed in three bins
Способы создания гистограмм с помощью Python
За последний год я сталкивалась с необходимостью рисования гистограмм и столбчатых диаграмм достаточно часто для того, чтобы появилось желание и возможность об этом написать. Кроме того, мне самой довольно сильно не хватало подобной информации. В этой статье приведен обзор 3 методов создания таких графиков на языке Python.
Начнем с того, чего я сама по своей неопытности не знала очень долго: столбчатые диаграммы и гистограммы — разные вещи. Основное отличие состоит в том, что гистограмма показывает частотное распределение — мы задаем набор значений оси Ox, а по Oy всегда откладывается частота. В столбчатой диаграмме (которую в англоязычной литературе уместно было бы назвать barplot) мы задаем и значения оси абсцисс, и значения оси ординат.
Для демонстрации я буду использовать избитый набор данных библиотеки scikit learn Iris. Начнем c импортов:
Преобразуем набор данных iris в dataframe — так нам удобнее будет с ним работать в будущем.
Из интересующих нас параметров data содержит информацию о длине чашелистиков и лепестков и ширине чашелистиков и лепестков.
Используем Matplotlib
Построение гистограммы
Cтроим обычную гистограмму, показывающую частотное распределение длин лепестков и чашелистиков:
Построение столбчатой диаграммы
Используем методы matplotlib-а, чтобы сравнить ширину листьев и чашелистиков. Это кажется удобнее всего делать на одном графике:
Для примера и в целях упрощения картинки возьмем первые 50 строк dataframe.
Используем методы seaborn
На мой взгляд, многие задачи по построению гистограмм проще и эффективнее выполнять с помощью методов seaborn (кроме того, seaborn выигрывает еще и своими графическими возможностями, на мой взгляд).
Я приведу пример задач, решающихся в seaborn с помощью одной строчки кода. Особенно seaborn выигрышный, когда надо построить распределение. Скажем, нам надо построить распределение длин чашелистиков. Решение этой задачи таково:
Если же вам необходим только график распределения, сделать его можно так:
Подробнее о построении распределений в seaborn можно почитать тут.
Здесь все просто. На самом деле, это оболочка matplotlib.pyplot.hist(), но вызов функции через pd.hist() иногда удобнее менее поворотливых конструкций matplotlib-a. В документации библиотеки pandas можно прочитать больше.
Спасибо, что прочитали до конца! Буду рада отзывам и комментариям!
Data Independent 
Learning Data Analysis One CSV At A Time
Pandas Histogram – DataFrame.hist()
Histograms are the backbone to understanding distribution within your series of data. Pandas Histogram provides an easy way to plot a chart right from your data.
Histogram plots traditionally only need one dimension of data. It is meant to show the count of values or buckets of values within your series.
Pandas DataFrame.hist() will take your DataFrame and output a histogram plot that shows the distribution of values within your series. The default values will get you started, but there are a ton of customization abilities available.
There are multiple ways to make a histogram plot in pandas. We are going to mainly focus on the first
Pseudo code: For each column in my DataFrame, draw a histogram showing the distribution of data points.
Pandas Histogram
Bins are the buckets that your histogram will be grouped by. On the back end, Pandas will group your data into bins, or buckets. Then pandas will count how many values fell into that bucket, and plot the result.
Histogram Parameters
Before we get into the histogram specific parameters, keep in mind that Pandas charts inherit other parameters from the general Pandas Plot function. These other parameters will deal with general chart formatting vs scatter specific attributes. We recommend viewing these for full chart flexibility. We’ll use some in our example below.
Графики в Pandas: Визуализация данных для начинающих
Содержание статьи
Темы, рассматриваемые в данном руководстве:
Есть вопросы по Python?
На нашем форуме вы можете задать любой вопрос и получить ответ от всего нашего сообщества!
Telegram Чат & Канал
Вступите в наш дружный чат по Python и начните общение с единомышленниками! Станьте частью большого сообщества!
Паблик VK
Одно из самых больших сообществ по Python в социальной сети ВК. Видео уроки и книги для вас!
Настройка среды в Python
Лучше всего разбирать код из этого руководства в Jupyter Notebook. Таким образом, вы сразу увидите графики и сможете поэкспериментировать с ними.
Вам также понадобится рабочая среда Python, включающая библиотеку pandas. Если у вас её еще нет, то есть несколько вариантов:
С уже настроенной средой, мы можем скачать тестовый набор данных. В данном руководстве мы проанализируем данные по специальностям выпускников колледжей, полученные в результате исследования American Community Survey 2010–2012, которое находится в общественном доступе. Работа послужила основой для гида по выбору колледжа Economic Guide To Picking A College Major, размещенного на сайте FiveThirtyEight.
Сначала скачиваем данные, для этого передаем URL для скачивания в pandas.read_csv() :
После вызова read_csv() создается DataFrame — главная структура данных, используемая в pandas.
На заметку: Можете воспользоваться данным руководством, даже если вы не знакомы со структурой DataFrame.
Создание простого Pandas графика в Python
Рассматриваемый набор данных содержит несколько столбцов, связанных с доходами выпускников по каждой специальности:
Начнем с графика, который отображает эти столбцы. Сначала вам потребуется настроить Jupyter Notebook для отображения графиков с помощью магической команды %matplotlib :
Магическая команда %matplotlib настраивает Jupyter Notebook для отображения графиков с помощью Matplotlib. По умолчанию используется стандартный графический бэкенд от Matplotlib, и ваши графики отображаются в отдельном окне.
К примеру, бэкенд inline популярен для Jupyter Notebooks, потому что он отображает график в самом блокноте сразу под ячейкой, которая создает график:
Есть число доступных бэкендов. Для более подробной информации ознакомьтесь с руководством Rich Outputs в документации IPython.
Стандартная оболочка Python отображает график следующим образом:
Обратите внимание, что перед вызовом plt.show() для отображения графика, нужно импортировать модуль pyplot из Matplotlib.
При рассмотрении графика можно сделать следующие выводы:
Первый график уже дает понять, что в датасетах можно найти много интересного. У некоторых специальностей есть широкий диапазон заработков, у других он довольно узкий. Для обнаружения этих различий будет использоваться другие типы графиков.
Библиотека Matplotlib в Python
Чтобы убедиться в этом, воспользуемся двумя фрагментами кода. Сначала создадим график с помощью Matplotlib, используя два столбца из структуры DataFrame :









