<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Braindump &#187; statistik</title>
	<atom:link href="http://www.braindump.ch/tag/statistik/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.braindump.ch</link>
	<description>(engl.; deutsch: Hirnauszug, „Gedächtnisprotokoll“, „das was hängengeblieben ist“)</description>
	<lastBuildDate>Mon, 02 Jan 2012 10:54:37 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3</generator>
		<item>
		<title>Warum der Böög besser Niederschlag als Temperatur vorhersagen sollte</title>
		<link>http://www.braindump.ch/2011/04/11/warum-der-boog-besser-niederschlag-als-temperature-vorhersagen-sollte/</link>
		<comments>http://www.braindump.ch/2011/04/11/warum-der-boog-besser-niederschlag-als-temperature-vorhersagen-sollte/#comments</comments>
		<pubDate>Mon, 11 Apr 2011 20:18:17 +0000</pubDate>
		<dc:creator>Markus Graf</dc:creator>
				<category><![CDATA[Braindump]]></category>
		<category><![CDATA[statistik]]></category>

		<guid isPermaLink="false">http://www.braindump.ch/?p=938</guid>
		<description><![CDATA[In einem Bericht von Meteo Schweiz heisst es: Die statistische Analyse ergibt einen Korrelationskoeffizienten von lediglich 0.08, der noch dazu über keinerlei statistische Signifikanz verfügt. Das heisst, eine Vorhersagequalität des Bööggs ist nicht nachweisbar. Nach dem ich dieses Jahr selbst das Sechseläuten mitverfolgt habe, konnte ich nicht wiederstehen, die Daten selbst mal durch zu rechnen. [...]]]></description>
			<content:encoded><![CDATA[<p>In einem <a href="http://www.meteoschweiz.admin.ch/web/de/klima/berichte_und_publikationen/boeoegg_prognose.html" target="_blank">Bericht</a> von Meteo Schweiz heisst es:</p>
<blockquote><p>Die statistische Analyse ergibt einen Korrelationskoeffizienten von  lediglich 0.08, der noch dazu über keinerlei statistische Signifikanz  verfügt. Das heisst, eine Vorhersagequalität des Bööggs ist nicht  nachweisbar.</p></blockquote>
<p>Nach dem ich dieses Jahr selbst das Sechseläuten mitverfolgt habe, konnte ich nicht wiederstehen, die Daten selbst mal durch zu rechnen. Grundlagen waren die <a href="http://www.meteoschweiz.admin.ch/web/de/klima/klima_heute/homogene_reihen.Par.0046.DownloadFile.ext.tmp/zuerich.txt" target="_blank">Wetter Daten von Meteo</a> Schweiz und die Angaben zur<a href="http://www.z-z-z.ch/diverses/zahlen_und_fakten.php?sparte=35" target="_blank"> Brenndauer des Böögs</a>, letztere waren jedoch unvollständig, weshalb lediglich 49 Jahre ausgewertet wurden. Ebenfalls wurde eine nicht signifikante negative Korrelation von 0.08 gefunden. Interessanterweise ergibt sich eine positive Korrelation von von 0.62 zwischen der Brenndauer des Böögs und dem Niederschlag, die jedoch auch nicht signifikant war. Fazit: Eigentlich sollte man sagen, dass es mehr Regnet je länger der Böög brennt. Statistisch betrachtet ist jedoch jegliche Aussagen basierend auf der Brenndauer schlicht Irrsinn.</p>
<p><a href="http://www.braindump.ch/wp-content/uploads/2011/04/boog.png"><img class="aligncenter size-full wp-image-939" title="boog" src="http://www.braindump.ch/wp-content/uploads/2011/04/boog.png" alt="Böög Brenndauer vs Temperatur und Niederschlag" width="400" height="800" /></a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.braindump.ch/2011/04/11/warum-der-boog-besser-niederschlag-als-temperature-vorhersagen-sollte/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Gruppierung nach Spalten mittels regulären Ausdrücken in R</title>
		<link>http://www.braindump.ch/2011/01/19/gruppierung-nach-spalten-mittels-regularen-ausdrucken/</link>
		<comments>http://www.braindump.ch/2011/01/19/gruppierung-nach-spalten-mittels-regularen-ausdrucken/#comments</comments>
		<pubDate>Wed, 19 Jan 2011 15:07:53 +0000</pubDate>
		<dc:creator>Markus Graf</dc:creator>
				<category><![CDATA[Code Snippets]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[r-project]]></category>
		<category><![CDATA[statistics]]></category>
		<category><![CDATA[statistik]]></category>

		<guid isPermaLink="false">http://www.braindump.ch/?p=906</guid>
		<description><![CDATA[In der Regel wird die Gruppenzugehörigkeit in einer Spalte hinterlegt, wobei Daten mittels split(data, data$Group) aufgeteilt werden können. Doch wie kann man nach Spalten gruppieren? Prinzipiell können einzelne Gruppen via data[c(„Spalte1“, „Spalte2“,..)] selektiert werden, dabei muss jedoch der Name jeder einzelnen Spalte exakt bekannt sein, was aber nicht immer der Fall ist. Nehmen wir ein Dataframe, [...]]]></description>
			<content:encoded><![CDATA[<p>In der Regel wird die Gruppenzugehörigkeit in einer Spalte hinterlegt, wobei Daten mittels split(data, data$Group) aufgeteilt werden können. Doch wie kann man nach Spalten gruppieren?</p>
<p>Prinzipiell können einzelne Gruppen via data[c(„Spalte1“, „Spalte2“,..)] selektiert werden, dabei muss jedoch der Name jeder einzelnen Spalte exakt bekannt sein, was aber nicht immer der Fall ist.</p>
<p>Nehmen wir ein Dataframe, mit irgendwelchen Spalten wie Alter, Geschlecht, etc. Zusätzlich gibt es Spalten die Gruppen 1 … n beinhalten welche wiederum  Unterelemente 1 … n beinhalten. Dabei werden die Spalten für die Unterelemente wie folgt benannt: „[GROUPID]_[SUBGROUPID]“, wobei [GROUPID] und [SUBGROUPID] jeweils integer Werte darstellen. Also „123_1, 123_2, 123_3,124_1 …, n_n“. Ausserdem kann nicht davon ausgegangen werden, dass alle Gruppennummern fortlaufend vorhanden sind.</p>
<p>Als Lösung bietet sich die Verwendung von regulären Ausdrücken an.<br />
Bsp: Auflistung aller vorkommenden Gruppen:</p>
<blockquote><p>groups &lt;- unique(gsub(&#8220;_[0-9]*$&#8221;,&#8221;",colnames(data)))</p></blockquote>
<p>Das Muster dieses regulären Ausdruckes sucht also alle Spalten, die am Ende des Spaltennamens einen Unterstrich gefolgt von einer Nummer beinhalten.</p>
<p>Unterelemente der Gruppen können wie folgt iterativ angesprochen werden:</p>
<blockquote><p>for(g in groups) {<br />
                pattern &lt;- paste(&#8220;^&#8221;,g,&#8221;_[0-9]*&#8221;, sep=&#8221;")<br />
                sub_group = data[grep(pattern,colnames(data))]<br />
                print(sub_group)<br />
}</p></blockquote>
<p>Hier werden alle Spalten gesucht, die mit der jeweiligen Gruppennummer anfangen, gefolgt von einem Unterstrich und einer beliebigen Zahl. Bsp. „^123_[0-9]*“</p>
<p>Damit eröffnen sich interessante Anwendungen, da weder das Vorhanden sein jeder Gruppe oder Untergruppe als Spalte noch deren Position eine Rolle spielt.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.braindump.ch/2011/01/19/gruppierung-nach-spalten-mittels-regularen-ausdrucken/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Produkt-Moment-Korrelation nach Pearson in Transact SQL</title>
		<link>http://www.braindump.ch/2010/08/16/produkt-moment-korrelation-nach-pearson-transact-sql/</link>
		<comments>http://www.braindump.ch/2010/08/16/produkt-moment-korrelation-nach-pearson-transact-sql/#comments</comments>
		<pubDate>Mon, 16 Aug 2010 18:29:39 +0000</pubDate>
		<dc:creator>Markus Graf</dc:creator>
				<category><![CDATA[Code Snippets]]></category>
		<category><![CDATA[statistik]]></category>

		<guid isPermaLink="false">http://www.braindump.ch/?p=859</guid>
		<description><![CDATA[Wobei Cov(X,Y) die Kovarianz , Var(X) und Var(Y) die Varianz ist. Das folgende T-SQL Skript berechnet die Korrelation zwischen zwei Spalten einer Tabelle. Zusätzlich wird der t-Wert bestimmt um Signifikanztests durch zu führen. IF OBJECT_ID('tempdb..#aTable') IS NOT NULL DROP TABLE #aTable /* Creating an example table */ CREATE TABLE #aTable ( ROW int ,VALUE_1 int [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://www.braindump.ch/wp-content/uploads/2010/08/cor1.png"><img class="size-full wp-image-860 alignnone" title="cor1" src="http://www.braindump.ch/wp-content/uploads/2010/08/cor1.png" alt="" width="298" height="113" /></a></p>
<p>Wobei Cov(X,Y) die Kovarianz , Var(X) und Var(Y) die Varianz ist.</p>
<p><a href="http://www.braindump.ch/wp-content/uploads/2010/08/cor2.png"><img class="alignnone size-full wp-image-861" title="cor2" src="http://www.braindump.ch/wp-content/uploads/2010/08/cor2.png" alt="" width="443" height="155" /></a></p>
<p>Das folgende T-SQL Skript berechnet die Korrelation zwischen zwei Spalten einer Tabelle. Zusätzlich wird der t-Wert bestimmt um Signifikanztests durch zu führen.</p>
<blockquote>
<pre>IF OBJECT_ID('tempdb..#aTable') IS NOT NULL
 DROP TABLE #aTable
/* Creating an example table */
CREATE TABLE #aTable (
 ROW int
 ,VALUE_1 int
 ,VALUE_2 int
)

INSERT INTO #aTable VALUES(1,12,12)
INSERT INTO #aTable VALUES(2,11,12)
INSERT INTO #aTable VALUES(3,11,11)
INSERT INTO #aTable VALUES(4,12,12)
INSERT INTO #aTable VALUES(5,13,13)
INSERT INTO #aTable VALUES(6,12,13)
INSERT INTO #aTable VALUES(7,13,13)
INSERT INTO #aTable VALUES(8,11,12)
INSERT INTO #aTable VALUES(9,6,7)
INSERT INTO #aTable VALUES(10,7,7)

/* Calculate descriptors of a distribution */
DECLARE @n int
SELECT @n = COUNT(*)FROM #aTable

DECLARE @VALUE_1_MIDDLE float
SELECT @VALUE_1_MIDDLE = (SELECT SUM(VALUE_1)/@n FROM #aTable)

DECLARE @VALUE_1_VARIANCE float
SELECT @VALUE_1_VARIANCE = (SELECT SQRT((SUM( POWER(VALUE_1 - @VALUE_1_MIDDLE, 2)))/@n) FROM #aTable)

DECLARE @VALUE_2_MIDDLE float
SELECT @VALUE_2_MIDDLE = (SELECT SUM(VALUE_2)/@n FROM #aTable)

DECLARE @VALUE_2_VARIANCE float
SELECT @VALUE_2_VARIANCE = (SELECT SQRT((SUM( POWER(VALUE_2 - @VALUE_2_MIDDLE, 2)))/@n) FROM #aTable)

/* calculating correlation between VALUE_1 and VALUE_2 */
DECLARE @r float
SELECT @r = (SELECT SUM((VALUE_1 - @VALUE_1_MIDDLE) * (VALUE_2 - @VALUE_2_MIDDLE)) / (@n * @VALUE_1_VARIANCE * @VALUE_2_VARIANCE)) FROM #aTable)

/* Calculating the student t-value (if @n &gt;= 4) with df = (@n - 2)*/
DECLARE @t float
IF ((1 - POWER(@r,2)) &gt; 0)
 SELECT @t = (@r * SQRT(@n  -2))/(SQRT(1 - POWER(@r,2)))
ELSE
 SELECT @t = 0

SELECT @r as coorelation, @t as t_value
SELECT * FROM #aTable</pre>
</blockquote>
]]></content:encoded>
			<wfw:commentRss>http://www.braindump.ch/2010/08/16/produkt-moment-korrelation-nach-pearson-transact-sql/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Fernsehen ist tödlich</title>
		<link>http://www.braindump.ch/2010/01/21/fernsehen-ist-todlich/</link>
		<comments>http://www.braindump.ch/2010/01/21/fernsehen-ist-todlich/#comments</comments>
		<pubDate>Thu, 21 Jan 2010 20:07:40 +0000</pubDate>
		<dc:creator>Markus Graf</dc:creator>
				<category><![CDATA[Braindump]]></category>
		<category><![CDATA[fernsehen]]></category>
		<category><![CDATA[Gesundheit]]></category>
		<category><![CDATA[risiko]]></category>
		<category><![CDATA[schweizer fernsehen]]></category>
		<category><![CDATA[statistik]]></category>
		<category><![CDATA[studie]]></category>
		<category><![CDATA[tv]]></category>

		<guid isPermaLink="false">http://www.braindump.ch/?p=665</guid>
		<description><![CDATA[Via PsychoLog erreichte mich gerade eine Hinweis, dass Fernsehen letale folgen haben kann. Dave Munger berichtet in seinem Beitrag über eine Studie die im American Heart Association erschienen ist und aussagt, dass der Fernsehkonsum auf Dauer tödlich enden kann beziehungsweise die Wahrscheinlichkeit des ins Grass beissen erhöht. Background Television viewing time, the predominant leisure-time sedentary [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://www.braindump.ch/wp-content/uploads/2010/01/sven_säge.jpg"><img class="alignright size-medium wp-image-666" title="sven_säge" src="http://www.braindump.ch/wp-content/uploads/2010/01/sven_säge-200x300.jpg" alt="" width="200" height="300" /></a>Via <a href="http://psycholog.sulb.uni-saarland.de/2010/01/21/totet-uns-das-fernsehen/" target="_blank">PsychoLog</a> erreichte mich gerade eine Hinweis, dass Fernsehen letale folgen haben kann. <a href="http://scienceblogs.com/cognitivedaily" target="_blank">Dave Munger</a> berichtet in seinem <a href="http://scienceblogs.com/cognitivedaily/2010/01/does_tv-watching_really_kill_y.php" target="_blank">Beitrag</a> über eine <a href="http://circ.ahajournals.org/cgi/reprint/CIRCULATIONAHA.109.894824v1" target="_blank">Studie</a> die im <a href="http://www.americanheart.org/" target="_blank">American Heart Association</a> erschienen ist und aussagt, dass der Fernsehkonsum auf Dauer tödlich enden kann beziehungsweise die Wahrscheinlichkeit des ins Grass beissen erhöht.</p>
<blockquote><p><strong><em>Background </em></strong>Television viewing time, the predominant leisure-time sedentary behavior, is associated with biomarkers of cardiometabolic risk, but its relationship with mortality has not been studied. We examined the associations of prolonged television viewing time with all-cause, cardiovascular disease (CVD), cancer, and non-CVD/noncancer mortality in Australian adults.</p>
<p><strong><em>Methods and Results </em></strong>Television viewing time in relation to subsequent all-cause, CVD, and cancer mortality (median follow-up, 6.6 years) was examined among 8800 adult &gt;=25 years of age in the Australian Diabetes, Obesity and Lifestyle Study (AusDiab). During 58 087 person-years of follow-up, there were 284 deaths (87 CVD deaths, 125 cancer deaths). After adjustment for age, sex, waist circumference, and exercise, the hazard ratios for each 1-hour increment in television viewing time per day were 1.11 (95% confidence interval [CI], 1.03 to 1.20) for all-cause mortality, 1.18 (95% CI, 1.03 to 1.35) for CVD mortality, and 1.09 (95% CI, 0.96 to 1.23) for cancer mortality. Compared with a television viewing time o2 h/d, the fully adjusted hazard ratios for all-cause mortality were 1.13 (95% CI, 0.87 to 1.36) for &gt;=2 to &lt;4 h/d and 1.46 (95% CI, 1.04 to 2.05) for &gt;= 4 h/d. For CVD mortality, corresponding hazard ratios were 1.19 (95% CI, 0.72 to 1.99) and 1.80 (95% CI, 1.00 to 3.25). The associations with both cancer mortality and non-CVD/noncancer mortality were not significant.</p>
<p><strong><em>Conclusions </em></strong>Television viewing time was associated with increased risk of all-cause and CVD mortality. In addition to the promotion of exercise, chronic disease prevention strategies could focus on reducing sitting time, particularly prolonged television viewing. <strong>(<em>Circulation</em>. 2010;121:384-391.)</strong></p></blockquote>
<p>Zur allgemeinen Entwarnung sei hier noch erwähnt, dass es sich hierbei um eine Korrelationsstudie handelt, ein kausaler Zusammenhang ist zwar nicht aus zu schliessen, kann aber selbstverständlich nicht bestätigt werden. Interessant ist wieder mal zu sehen, wie lange die Leute vor dem Fernseher sitzen: 0 h/d, 2442; =&gt;1 h/d, 2528; =&gt;2 h/d, 2138; =&gt;3 h/d, 1020; =&gt;4 h/d, 407; =&gt;5 h/d, 155; and =&gt;6 h/d, 108. (n=8800). 43.5% der Leute sitzen also tatsächlich mehr als 3 Stunden vor der Glotze.</p>
<p>Dass Fernsehen,  insbesondere das Schweizer Fernsehen,  auf Dauer krank macht ist durchaus plausibel. Bleibt noch zu untersuchen wie sich das Internet und die Benutzung des Computers auf die Gesundheit auswirkt. Trotzdem danke ich dem geeigneten Leser seine Gesundheit für das Lesen dieses Beitrags geopfert zu haben.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.braindump.ch/2010/01/21/fernsehen-ist-todlich/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

