[大數據分析]深入淺出地教你用分析軟件R-Studio

科學怪人

374 回覆
149 Like 2 Dislike
苦主係杜 2020-03-06 01:38:46
Base R 就係原生裝晒所以既syntax
Tidyverse / ggplot 等等lib 係3rd party 寫既code,當中有optimize 過原生既performance 有用C++ / S3 / R等等去寫
lib都可能隨時outdated,但係基本野就係永恆

重點係無人敢包呢d lib一定係無bug無malicious,如果返工有咩出事邊個咩飛?
科學怪人 2020-03-06 15:22:55
好快
你冇嘢啊嘛 2020-03-06 15:26:03
lm
科學怪人 2020-03-06 16:39:26
上回講到我地有一個data.frame 名為data
咁我地係點樣可以取得裏面既個別資料呢?

可以嘗試



中括號[row, column],唔打其中一個數表示全睇

我地仲可以用$之後配column name嚟睇整個column

而head 就可以顯示頭若干行
tail 就尾若干行
科學怪人 2020-03-06 19:37:35

我地可以有更加多選擇資料嘅方法

第一句係選擇1:3 rows、只顯示第三column

第二句就用邏輯篩選Type 為RW,逗號後空咗即係顯示所有column

第三句,亦可選擇只顯示大於某數值

第四句,用& 同時符合指定條件才會選中



都介紹下可以用R就個別欄目(Vector) 做分析
科學怪人 2020-03-06 21:01:22
data.frame 係可以作修改或者加入更多內容嘅



例如而家有一個叫data1.csv嘅檔案
係9月份嘅數據

想喺同一個data.frame裏面由上而下駁落8月個表嗰度,可以先將9月份變成data1
然後再用rbind 指令合併

要留意嘅係,如果有多個data.frame想合併,都可以用rbind

rbind(1,2,3,4,5,...)

但要咁做嘅先決條件係:
每一組資料嘅column 數目、名稱、資料類別都必須一樣

我地亦都可以喺原有data.frame上面加入新嘅column,同佢改一個新命名

例子中 1:nrow(data) 代表由1 數到data 所擁有嘅row 數目(最尾)



最後講下aggregation 依個功能
可以幫到我地將資料分類並逐一計數

個格式係
aggregate(y~x, data.frame 名稱, 運算指令)

例子1 用咗mean
例子2就用length 睇項目數

睇結果就會明
科學怪人 2020-03-06 21:10:05
基本上,sample 指令嘅用法

如果要係控制喺某個範圍段內產生隨機數
必須為一個整數嘅序列

如果係賦值,gen 出嚟嘅vector 並唔會顯示於console
要再打多句個已被賦值嘅object 先出得
科學怪人 2020-03-06 21:25:50
randomscore 會喺定義完個function 之後就可以隨便用到

例如之後我打
randomscore(40, 50, 25)

Console 就會出返相應結果
40個學生、平均分50、sd25

ranscore 只係一個臨時參數
並只在function 入面使用

83: 如ranscore 依個vector 內有值 > 100,將自動賦值為100

84: 如ranscore 依個vector 內有值 < 0,將自動賦值為0

因為學生分數無可能高過100 低過0

85: 讓Console 顯示ranscore 的結果
科學怪人 2020-03-06 21:27:37
因為分數只會半分咁起跳

所以 round 到一個整數 ,再除2

就會出0.5 起跳嘅隨機數
大戲鴨力 2020-03-06 21:52:31
r 裡面分左幾種DATA TYPE
factor
string
integer
numeric
raw
complex
有時你INPUT DATA 入去,例如係一個表格,上面有數字同 文字,R會唔識分 數字係可以加減乘除既NUMBER,定係一個字串(STRING)
所以會有D FUNCTION去CONVERT DATA TYPE
例如,as.factor ,as.integer, as.numeric, as.string
等等。好多時由FUCNTION NAME都估到佢既用處,用得多就會自然
另一個例子,係is.numeric (用來CHECK 個DATA 屬於咩DATA TYPE)

係R, 打class(x)就會CHECK到個X係咩DATA TYPE

DATA TYPE係好重要既(影響到你PUT唔PUT到落個FUNCTION到etc
大戲鴨力 2020-03-06 21:56:52
我覺得algorithm對速度既影響大D。
你試下去project euler既網站睇下D問題,佢會叫係揾D需要重覆計好多次既野

如果你係用BRUTE FORCE, 就成個鐘都唔會出到答案,但識SKIP無用既計算就會快到好多

其實我覺得TB OR PB先算BIG DATA 都唔係太重要,因為只係一個SIZE 。
科學怪人 2020-03-06 21:57:18
依個只係一個function

你當係公式

要出到result就要自己設唔同值呀
科學怪人 2020-03-06 21:58:42
多謝巴打嘅補充
大戲鴨力 2020-03-06 22:02:47
見到樓上有師兄講到自己做緊BIOINFO,想留名學野! 最近我都參與緊個GENOME ANALYSIS既PROGRAM, 一直努力點用R

我覺得樓主上面講既題目好多都係COMPUTATIONAL
如果講下點用dplyr , tidyr 去揀要既DATA我覺得會好好

其實你咁有心講,應該用R MARKDOWN去整個檔案出來

同埋,好奇怪,我第一次睇中文有關R 既POST。。。自從中學畢業後基本所有學術野都唔會用中文SEARCH好違和
大戲鴨力 2020-03-06 22:08:11
你知唔知咩係T TEST??(有無STAT底,例如咩係NORMAL DISTRIBUTION, HYPOTHESIS)

T test係用來COMPARE SAMPLE之前既MEAN,睇下D VARIABLE之前有無關係
總之睇T TEST最簡單就睇P VALUE (SIGNIFICANCE)
愈細就代表愈有關
類似係咁

但根據比較SAMPLE性質既不同,又分左做幾種T TEST
INDEPENDENT
DEPENDENT(PAIRED?)
ONE TAIL, TWO TAIL
ANOVA
科學怪人 2020-03-06 22:13:33
意見收悉

我個approach就係要先講基本功

我相信如果computational 嘅概念搞得清

之後想再自行鑽研某一方面嘅野都會事半功倍

當然之後係可以再深入講下巴打提及嘅

btw 之前都未聽過r markdown 依樣野

而中文依點.. 咁依度始終都係中文為主嘅討論區吖嘛
吹水台自選台熱 門最 新手機台時事台政事台World體育台娛樂台動漫台Apps台遊戲台影視台講故台健康台感情台家庭台潮流台美容台上班台財經台房屋台飲食台旅遊台學術台校園台汽車台音樂台創意台硬件台電器台攝影台玩具台寵物台軟件台活動台電訊台直播台站務台黑 洞